







摘要 人工智能生成內(nèi)容(AIGC)技術(shù)可為人類提供各種類型的信息生成服務(wù),如何對AIGC進(jìn)行準(zhǔn)確的質(zhì)量評估,是當(dāng)前亟待解決的問題.本文主要針對大模型生成圖像的質(zhì)量及其評估指標(biāo)開展深入研究.首先,從技術(shù)方面概述了當(dāng)前評估AIGC的常見方法,如深度學(xué)習(xí)方法和計(jì)算機(jī)視覺方法等,介紹并分析了準(zhǔn)確性、相關(guān)性、一致性、可解釋性等指標(biāo)在不同類型生成內(nèi)容評估方面的表現(xiàn).然后,為了展示評估指標(biāo)的實(shí)際作用,以百度文心一言為例,對其生成的圖像進(jìn)行評估實(shí)驗(yàn):使用直方圖和噪點(diǎn)數(shù)量等量化指標(biāo)對生成圖像進(jìn)行客觀評估;使用整體協(xié)調(diào)性和美觀性等視覺感官指標(biāo)對生成圖像進(jìn)行主觀評估.最后,綜合對比客觀評估和主觀評估的結(jié)果,篩選出色偏、噪點(diǎn)數(shù)量、心理預(yù)期等AIGC產(chǎn)品質(zhì)量評估的高可靠性指標(biāo).實(shí)驗(yàn)結(jié)果驗(yàn)證了綜合使用主客觀評估指標(biāo)進(jìn)行AIGC產(chǎn)品評估方法的有效性和可靠性.關(guān)鍵詞人工智能生成內(nèi)容;深度學(xué)習(xí);計(jì)算機(jī)視覺;圖像;質(zhì)量評估
中圖分類號 TP18
文獻(xiàn)標(biāo)志碼A
0 引言
AIGC即人工智能生成內(nèi)容(Artificial Intelligence Generated Content),是指基于自然語言處理(Natural Language Processing,NLP)、機(jī)器學(xué)習(xí)(Machine Learning,ML)和深度學(xué)習(xí)(Deep Learning,DL)等技術(shù),利用大模型框架自動或半自動地生成各種形式的文本、圖像、音頻和視頻等多媒體內(nèi)容[1-2].隨著人工智能技術(shù)的飛速發(fā)展,AIGC技術(shù)已經(jīng)開始為人類提供豐富多樣的信息和服務(wù),也成為相應(yīng)領(lǐng)域的研究熱點(diǎn)[3].AIGC技術(shù)可以分為基于規(guī)則的和基于機(jī)器學(xué)習(xí)的兩大類.基于規(guī)則的AIGC技術(shù),是指利用智能化專家系統(tǒng),結(jié)合專業(yè)化知識庫,通過編寫規(guī)則的方法實(shí)現(xiàn)內(nèi)容生成.其優(yōu)點(diǎn)是可生成比較專業(yè)、準(zhǔn)確的內(nèi)容,缺點(diǎn)是編寫規(guī)則的過程會耗費(fèi)大量的人力、物力和時(shí)間.基于機(jī)器學(xué)習(xí)的AIGC技術(shù),是指利用機(jī)器學(xué)習(xí)算法,通過學(xué)習(xí)、模擬成規(guī)模的數(shù)據(jù)以生成預(yù)期內(nèi)容.其優(yōu)點(diǎn)是可生成比較自然、流暢的內(nèi)容,缺點(diǎn)是需要構(gòu)建大規(guī)模語料庫,且對計(jì)算資源的要求較高.
深度學(xué)習(xí)在圖像識別、語音識別、自然語言處理、推薦系統(tǒng)等領(lǐng)域應(yīng)用廣泛,是近年來機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn).當(dāng)前流行的AIGC技術(shù)是建立在深度學(xué)習(xí)基礎(chǔ)之上的,深度學(xué)習(xí)為AIGC提供了理論、技術(shù)支撐和具體的實(shí)現(xiàn)方法[4],是助推AIGC應(yīng)用爆發(fā)式增長的關(guān)鍵技術(shù)之一.隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,AIGC的多場景應(yīng)用正不斷進(jìn)行功能拓展和性能提升[5].
雖然興起的時(shí)間不長,但AIGC已經(jīng)拓展到了多個(gè)應(yīng)用領(lǐng)域[6-7],如:1)新聞媒體,利用AIGC技術(shù)可以快速生成新聞稿件、摘要、標(biāo)題等內(nèi)容,大大提高了新聞媒體的效率和準(zhǔn)確性;2)廣告營銷,利用AIGC技術(shù)可以快速生成廣告文案、視頻、圖像等內(nèi)容,幫助企業(yè)提高廣告投放效率和轉(zhuǎn)化率;3)電子商務(wù),利用AIGC技術(shù)可以快速生成商品描述、評論和同類商品推薦等內(nèi)容,幫助電商平臺提高商品信息描述的豐富性和準(zhǔn)確性,有效地增加用戶的購買意愿;4)教育教學(xué),"""利用AIGC技術(shù)可以快速生成教學(xué)材料、輔助資料等內(nèi)容,幫助教師或教育機(jī)構(gòu)提高教學(xué)效率和質(zhì)量.但不可忽視的是,AIGC在實(shí)現(xiàn)其商業(yè)價(jià)值的同時(shí)也帶來了一些挑戰(zhàn)和風(fēng)險(xiǎn)[8],如:1)內(nèi)容誤導(dǎo)風(fēng)險(xiǎn),AIGC可能會被惡意利用以生成虛假、誤導(dǎo)性信息,這將會對社會公共秩序和公共安全造成不良影響,甚至于引發(fā)社會事件;2)技術(shù)方面的挑戰(zhàn),AIGC技術(shù)生成的內(nèi)容可能存在語言不通順、邏輯不清晰等問題,這將會影響其用戶體驗(yàn)和商業(yè)化運(yùn)營.因此,需要對基于AIGC技術(shù)及其生成內(nèi)容進(jìn)行標(biāo)準(zhǔn)化和規(guī)范化的探索,以客觀評估和衡量AIGC產(chǎn)品的質(zhì)量和效果.質(zhì)量評估是確保AIGC可靠性和有效性的關(guān)鍵環(huán)節(jié)[9-10],而評估指標(biāo)的選擇對于衡量生成內(nèi)容的質(zhì)量至關(guān)重要.已有研究表明,AIGC在多個(gè)不同領(lǐng)域具有可觀的潛力[11],在一定程度上甚至具備代替人工的能力,且已經(jīng)出現(xiàn)了相關(guān)的實(shí)例應(yīng)用[12].因此,對在不同應(yīng)用場景中使用AIGC技術(shù)產(chǎn)生的內(nèi)容必須進(jìn)行有效的量化評估,以指導(dǎo)用戶正確自主有效使用AIGC產(chǎn)品,并幫助開發(fā)者升級符合實(shí)際需求的模型功能[13].
AIGC的評估指標(biāo)主要從質(zhì)量、效率、創(chuàng)新、倫理等方面來考慮[14-15].1)質(zhì)量:AIGC是否符合人類普遍的審美標(biāo)準(zhǔn),是否具有邏輯性、一致性和可信度,是否能夠滿足不同的場景和不同目標(biāo)受眾的需求和期望.2)效率:AIGC的過程是否能夠在較短的時(shí)間內(nèi)完成,是否能夠節(jié)省人力和物力資源(主要是硬件和算力),是否有潛力進(jìn)一步提高生產(chǎn)內(nèi)容的規(guī)模.3)創(chuàng)新:AIGC是否具有獨(dú)特性、新穎性和原創(chuàng)性,是否能夠突破人類創(chuàng)作的局限和思維慣性,是否能夠引發(fā)使用者的思考和靈感.4)倫理:AI生成的內(nèi)容是否符合社會的道德規(guī)范,是否尊重知識產(chǎn)權(quán),是否能夠避免虛假、誤導(dǎo)和侵權(quán)等負(fù)面影響.
國際上對于AIGC的質(zhì)量評估給予了高度關(guān)注[16-17],尤其是在文本領(lǐng)域,已經(jīng)形成了一套相對完善的評估體系,具體如ChatGPT、Google內(nèi)部使用的機(jī)器人聊天系統(tǒng)的評價(jià)等[18],包括準(zhǔn)確性、相關(guān)性、一致性、可解釋性等多個(gè)方面.雖然這些評估指標(biāo)和方法已經(jīng)應(yīng)用于各種實(shí)際場景中[19-21],如不同場景下的文本和對話生成、圖像識別、語音識別、視頻推薦等,但都僅限于主觀評價(jià)(美觀度和內(nèi)容協(xié)調(diào)性等),即人工評估,而在客觀評價(jià)方面的研究相對不足.在ChatGPT等產(chǎn)品的應(yīng)用浪潮下,國內(nèi)眾多學(xué)者、機(jī)構(gòu)也對AIGC的質(zhì)量評估進(jìn)行了相關(guān)研究[6,22-23],但尚處于起步階段.一些研究團(tuán)隊(duì)已經(jīng)開始嘗試使用大模型生成文本、圖像、音頻和視頻等內(nèi)容[24],并進(jìn)行自定義指標(biāo)下的質(zhì)量評估.目前國內(nèi)對于AIGC的評估主要集中在文本領(lǐng)域,而對于圖像、音頻和視頻等形式的評估較少,且同樣存在著主觀評價(jià)指標(biāo)較多,客觀評價(jià)指標(biāo)研究不足的問題.
隨著技術(shù)的不斷進(jìn)步和創(chuàng)新應(yīng)用場景的拓展,國內(nèi)外對于多模態(tài)生成內(nèi)容的需求在逐漸增加,對大模型產(chǎn)品生成內(nèi)容的質(zhì)量評估的需求也相應(yīng)增加[25].本文旨在對使用AIGC技術(shù)生成的內(nèi)容質(zhì)量進(jìn)行評估指標(biāo)的探索,特別是針對大模型生成的文本、圖像、音頻和視頻等內(nèi)容形式的評估.為了具體展示評估指標(biāo)的實(shí)際應(yīng)用,本文使用百度的文心一言進(jìn)行圖像生成實(shí)驗(yàn),并結(jié)合使用Python語言和Open CV(Open Computer Vision)、PIL(Python Image Library)等圖像質(zhì)量分析工具包進(jìn)行圖像的直方圖、失真度、噪點(diǎn)數(shù)量等客觀指標(biāo)的測量和對比.同時(shí),還開展了主觀實(shí)驗(yàn),對AI生成圖像的內(nèi)容、細(xì)節(jié)、整體美觀度和內(nèi)容協(xié)調(diào)性等進(jìn)行人工量化評估.通過客觀和主觀實(shí)驗(yàn)的綜合對比,篩選出可靠度較高的評估指標(biāo).本研究可為AIGC生成產(chǎn)品的規(guī)范化和模型性能提升優(yōu)化提供有價(jià)值的參考.
1 AIGC原理及其質(zhì)量評估
1.1 AI生成圖像的原理
AI圖像生成的實(shí)現(xiàn)主要是基于深度學(xué)習(xí)中的生成式對抗網(wǎng)絡(luò)(GAN)等技術(shù).深度學(xué)習(xí)技術(shù)通過卷積神經(jīng)網(wǎng)絡(luò)對大量圖像的學(xué)習(xí),使得模型能夠自動地提取出圖像中的特征和規(guī)律.GAN是一種生成模型,通過訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò)(即生成器和判別器),來不斷生成越來越逼真的圖像.其中,生成器嘗試生成假圖像以欺騙判別器,而判別器則努力區(qū)分真實(shí)圖像和假圖像.兩個(gè)神經(jīng)網(wǎng)絡(luò)互相競爭與合作,最終生成具有高度真實(shí)感的圖像.
AI生成圖像的過程可以分為3個(gè)階段:
1)訓(xùn)練階段:模型通過學(xué)習(xí)大量的圖像數(shù)據(jù),從中提取出圖像的特征和規(guī)律.
2)生成階段:在訓(xùn)練階段的基礎(chǔ)上,模型根據(jù)一定的隨機(jī)性生成新的圖像.
3)優(yōu)化階段:通過GAN的優(yōu)化調(diào)整,使得生成的新圖像更加符合人們的視覺要求.
1.2 通用圖像質(zhì)量評估方法和指標(biāo)
當(dāng)前,對AI生成圖像質(zhì)量進(jìn)行客觀評估,可以使用直方圖、失真度、噪點(diǎn)數(shù)量等量化指標(biāo).直方圖用于描述圖像的亮度分布,失真度衡量的是生成圖像的扭曲程度,噪點(diǎn)數(shù)量則反映圖像中含有的隨機(jī)噪聲的數(shù)量.主觀評估方面可以使用內(nèi)容、細(xì)節(jié)、整體美觀度和主要內(nèi)容協(xié)調(diào)性等指標(biāo).主觀指標(biāo)主要通過人工評估來衡量圖像的質(zhì)量,如視覺上的清晰度、整體一致性和美觀度等.目前還沒有科學(xué)、統(tǒng)一的準(zhǔn)則來評估AI生成圖像的感知質(zhì)量.為便于統(tǒng)計(jì)和對比,一般可從以下5個(gè)不同角度對生成的圖像質(zhì)量進(jìn)行主客觀評價(jià)[20].
1)技術(shù)問題(technical issues):可以理解為畫面質(zhì)量,如圖像壓縮情況等.
2)AI偽影(AI artifacts):由于AIGC算法而導(dǎo)致的AI偽像.
3)不自然性(unnaturalness):違反常識的不自然現(xiàn)象和觀看體驗(yàn)中的不適.
4)差異性(discrepancy):AIGC生成的圖像與期望之間的不匹配程度.
5)美學(xué)(aesthetics):AIGC生成圖像的整體視覺吸引力和美感.
評估生成圖像的質(zhì)量是一個(gè)復(fù)雜的任務(wù),通常需要采用多種評估方法來綜合判斷生成圖像的質(zhì)量,并結(jié)合主觀評價(jià)和客觀指標(biāo),以獲得更全面的理解.
1.3 圖像質(zhì)量評估與人眼視覺的關(guān)系
探討大模型生成圖像的質(zhì)量評估方法和指標(biāo),不能脫離用戶的使用感受.而用戶對大模型性能的評估是通過人眼目視,將視覺反應(yīng)與心理預(yù)期進(jìn)行對比,獲得直接的感受.無論是生成圖像還是通過各種傳感器獲得的圖像,其最終形式多為電子化的圖像,即具備灰度值的像素組合,這與人眼分辨物體的感官機(jī)能是一致的[26].所以,(電子)圖像與人眼視覺之間存在密切的關(guān)系,在圖像處理和顯示技術(shù)中,需要考慮人眼的視覺特性,以提供更加逼真、舒適的視覺體驗(yàn)[27].
一般從心理物理量(亮度、主波長和純度)和相應(yīng)的心理量(明度、色度和飽和度)兩個(gè)維度來探討視覺的核心特性[28].亮度作為描述光的強(qiáng)度的參數(shù),它與物體表面或光源的實(shí)際亮度密切相關(guān).但物體或光源的實(shí)際亮度高并不一定導(dǎo)致人感知到的明度也高.光譜是由多種不同波長的光組合而成的,而不同波長所引發(fā)的視覺感知便是色度,色度反映了不同波長光給人的顏色感覺.純色描述的是那些未混入白色成分的窄帶單色光,它在視覺上呈現(xiàn)為高飽和度的顏色.實(shí)際上,可見光譜中的各種單色光都是最為飽和的彩色,但當(dāng)光譜色中混入的白光成分增多時(shí),其飽和度會隨之降低,表現(xiàn)為顏色的不飽和.
基于上述圖像與人眼視覺的關(guān)系,本研究設(shè)計(jì)了AI生成圖像的質(zhì)量客觀評估實(shí)驗(yàn)和主觀評估實(shí)驗(yàn),以探索更加符合人眼視覺與心理預(yù)期的評估參數(shù).
1.4 AI生成圖像評估實(shí)驗(yàn)方案
1.4.1 客觀評估實(shí)驗(yàn)方案
基于當(dāng)前AIGC算法在各領(lǐng)域的應(yīng)用成熟度情況,以及國內(nèi)的中英文使用情況[29],本文選擇使用百度文心一言進(jìn)行圖像生成相關(guān)實(shí)驗(yàn).文心一言是百度研發(fā)的新一代知識增強(qiáng)大語言模型,能夠與人對話互動、回答問題、協(xié)助創(chuàng)作,高效便捷地幫助人們獲取信息、知識和靈感.文心一言融合了數(shù)萬億數(shù)據(jù)和數(shù)千億知識點(diǎn),并學(xué)習(xí)得到預(yù)訓(xùn)練大模型.作為扎根于中文市場的大語言模型,文心一言具備中文領(lǐng)域最先進(jìn)的自然語言處理能力.對比國際上領(lǐng)先的ChatGPT、Midjourney等分別在文本和圖像生成方面公認(rèn)領(lǐng)先的大模型,文心一言在中文語言和中國文化上有更好的表現(xiàn).
為了更好地測試文心一言“以圖生圖”功能生成圖像的質(zhì)量,本研究使用了Lenna圖作為原圖.作為長期以來業(yè)內(nèi)最流行的標(biāo)準(zhǔn)測試圖,Lenna圖包含了平坦區(qū)域、陰影和紋理等細(xì)節(jié),符合測試的特殊要求.例如,處于低頻區(qū)域的光滑皮膚、鏡面,處于高頻區(qū)域的羽毛、繁雜飾物等,可用于測試各種不同的圖像處理算法.本研究中使用南加州大學(xué)網(wǎng)站獲取的Lenna圖原始掃描電子版,并將其輸入到文心一言作為參考真值,使用相應(yīng)的插件生成“畫質(zhì)修復(fù)圖”、“AI重繪圖”、“相似圖”等.其中的插件包括 “AI重繪”、“畫質(zhì)修復(fù)”和“生成相似圖”等.為了確保使用AIGC生成的圖像符合實(shí)際,研究人員參考了文心一言上使用頻度較高的關(guān)鍵熱詞,并根據(jù)提示詞(指令)有目標(biāo)地生成了約10個(gè)類別的1 000張熱門圖像.相應(yīng)的圖像生成功能及其內(nèi)在算法可以通過Python編程語言中的圖像處理庫來實(shí)現(xiàn).例如,Python中的PIL和Open CV工具庫提供了各種圖像處理函數(shù)和算法,可以方便地使用這些函數(shù)來自動化評估圖像質(zhì)量.本研究中的客觀評估實(shí)驗(yàn)將彩色直方圖、清晰度、亮度、色偏、噪點(diǎn)數(shù)量統(tǒng)計(jì)和失真程度等客觀指標(biāo)結(jié)合起來,使用多種算法進(jìn)行綜合評估,以計(jì)算圖像的總體質(zhì)量得分,獲得更全面、客觀的評估結(jié)果.
1)彩色直方圖:直方圖是從圖像內(nèi)部灰度級的角度對圖像進(jìn)行表述的,統(tǒng)計(jì)的是圖像內(nèi)各灰度級出現(xiàn)的次數(shù).通過直方圖可以清晰地觀察到圖像的整體灰度分布,便于圖像的后續(xù)分析和處理.獲得圖像的直方圖就是統(tǒng)計(jì)灰度級(即像素值)出現(xiàn)的總頻數(shù)的過程,其計(jì)算公式[30]如下:
h(rk)=nk, k=0,1,2,…,L-1.(1)
其中:rk
為像素的灰度級;nk
是具有灰度rk
的像素個(gè)數(shù).
通常將灰度級出現(xiàn)的總頻數(shù)除以總像素?cái)?shù),以概率的形式表述彩色直方圖的概念:
p(rk)=h(rk)Nt=nkNt.(2)
其中:Nt
為總像素?cái)?shù).
2)清晰度:指利用拉普拉斯算子或者Sobel算子[31]計(jì)算圖像的二階導(dǎo)數(shù),反映了圖像的邊緣信息.清晰度高,則相應(yīng)的方差值就更大.用于點(diǎn)陣數(shù)碼影像時(shí),其單位為DPI(Dots Per Inch),表示圖像每英寸長度內(nèi)的像素點(diǎn)數(shù),即指每一英寸長度中,取樣、可顯示或輸出點(diǎn)的數(shù)目.
3)亮度:指計(jì)算圖像在灰度圖上的均值和方差.當(dāng)存在亮度異常時(shí),均值會偏離均值點(diǎn),相應(yīng)的方差值也會偏小,據(jù)此可評估圖像是否存在過曝光或曝光不足的問題[31].簡單來說,亮度即一幅圖像給觀察者的一種直觀感受.如果圖像是灰度圖像,則其亮度與其灰度值有關(guān),灰度值越高則圖像越亮.
4)色偏:又叫色差,是指拍攝的圖像中某種顏色的色相、飽和度與真實(shí)的圖像有明顯的區(qū)別,而這種區(qū)別通常不是人們所希望的.將RGB圖像轉(zhuǎn)變到CIE Lab空間進(jìn)行分析,其中,L表示圖像亮度,a表示圖像紅/綠分量,b表示圖像黃/藍(lán)分量.存在色偏的圖像,在a和b分量上的均值一般會較多地偏離原點(diǎn),相應(yīng)的方差值偏小.因此,可通過計(jì)算圖像在a和b分量上的均值和方差來評估圖像是否存在色偏.色差ΔEab=1時(shí)稱為1個(gè)NBS(美國國家標(biāo)準(zhǔn)局)色差單位,1個(gè)NBS單位大約相當(dāng)于視覺色差識別閾值(顏色寬容度)的5倍[32].
5)噪點(diǎn)數(shù)量:使用噪點(diǎn)檢測算法來計(jì)算圖像中的噪點(diǎn)數(shù)量.較常用的噪點(diǎn)檢測算法是高斯濾波器[33],可以將圖像中的噪點(diǎn)模糊化,然后通過計(jì)算處理前后的差異統(tǒng)計(jì)噪點(diǎn)數(shù)量.噪點(diǎn)數(shù)量的單位即統(tǒng)計(jì)出所有被認(rèn)為是噪聲的像素個(gè)數(shù).
6)失真程度:使用失真評估算法來計(jì)算圖像的失真程度.較常用的失真評估算法是均方誤差(MSE)算法[34],它通過計(jì)算圖像中每個(gè)像素與標(biāo)準(zhǔn)圖像像素之間的差異,對其求平方和,并取平均值,從而計(jì)算整個(gè)圖像的失真程度.本研究中使用峰值信噪比(Peak Signal to Noise Ratio,PSNR)表示失真程度,單位為dB,PSNR值越大表示失真度越小.
在以上客觀評估實(shí)驗(yàn)中,各個(gè)圖像信息的自動化提取及其評估指標(biāo)的計(jì)算,將綜合使用Python、Open CV、Matplotlib、PIL等技術(shù)或工具具體實(shí)現(xiàn).
1.4.2 主觀評估實(shí)驗(yàn)方案
隨機(jī)挑選若干研究人員作為實(shí)驗(yàn)參與人員(測試者),對AI生成圖像進(jìn)行質(zhì)量評估(主觀評分).為最小化外部條件所造成的差異,所有測試者主觀實(shí)驗(yàn)測試條件均相同,并遵循主觀測試建議(ITU-R BT.500-13,即國際電聯(lián)無線電通信部門(ITU-R)電視圖像質(zhì)量的主觀評價(jià)方法)[33].測試者在同一個(gè)具有正常室內(nèi)照明的實(shí)驗(yàn)室環(huán)境中,坐在距離電腦屏幕大約1.5倍屏幕高度(45 cm)的位置.具體做法為:隨機(jī)選取20人作為測試者(第一作者所在學(xué)校的學(xué)生),包括10名男性和10名女性,要求他(她)們根據(jù)指定的評價(jià)方法和準(zhǔn)則對文心一言生成的圖像進(jìn)行質(zhì)量評估(評分),評分參考指標(biāo)有提示詞匹配度、整體協(xié)調(diào)度和整體美觀度等6項(xiàng)指標(biāo).此20名測試者只進(jìn)行每張圖像的評分,不參與圖像生成或評分統(tǒng)計(jì)等其他活動.每張圖像的最終得分為20名測試者給出分?jǐn)?shù)的均分.圖像評分的計(jì)算公式為
S=t+sc+stO+W1c+W2a+W3p3.(3)
其中:O=
6,是指標(biāo)總數(shù)量;t
是類型評分,sc
是場景評分,st
是風(fēng)格評分,這三項(xiàng)均屬于“是否與提示詞匹配”的子欄目;c
是整體協(xié)調(diào)度;a
是整體美觀度;p
為是否達(dá)到心理預(yù)期;Wi
是根據(jù)相應(yīng)指標(biāo)的重要性而賦予的權(quán)重,本例中,
W1=0.1,W2=0.2,W3=0.3[34].
2 實(shí)驗(yàn)驗(yàn)證
2.1 客觀實(shí)驗(yàn)結(jié)果及圖像質(zhì)量評估
為了便于量化對比,首先制作Lenna原圖和AIGC生成圖的各自彩色直方圖.實(shí)驗(yàn)結(jié)果如圖1所示.
除了進(jìn)行直方圖的對比,本文還基于Open CV技術(shù)對Lenna原圖及各個(gè)AI生成圖進(jìn)行了評估.評估指標(biāo)包括清晰度、亮度(因灰度值沒有單位,此處將其歸一化為0~1間的值)、色偏、噪點(diǎn)數(shù)量統(tǒng)計(jì)和失真程度等客觀指標(biāo)的對比,結(jié)果如表1所示.
2.2 主觀實(shí)驗(yàn)結(jié)果及圖像質(zhì)量評估
對AI生成圖像的主觀評價(jià)實(shí)驗(yàn)同樣使用文心一言:首先,進(jìn)行圖像生成實(shí)驗(yàn);然后,隨機(jī)選定學(xué)生20人,參與對AI生成圖像的主觀實(shí)驗(yàn)及圖像質(zhì)量評價(jià).生成圖像中具有代表性的圖像如圖2所示.
AI圖像所使用的提示詞(prompts)不同,生成的主題和內(nèi)容則不同.圖2中,不同行的圖使用的是不同的提示詞,同一行的子圖使用的則是同樣的提示詞,即用同樣的提示詞反復(fù)生成大量同一主題圖像,然后選擇其中具有代表性的圖像進(jìn)行對比和評估.圖2中生成各類型子圖所使用的提示詞(提示詞為生成該類型圖下的某一張圖像所使用的所有輸入文字內(nèi)容(對話))如表2所示.
根據(jù)前述主觀評價(jià)實(shí)驗(yàn)方案進(jìn)行AI生成圖像(圖2)的主觀評價(jià),計(jì)算結(jié)果如表3所示.各個(gè)指標(biāo)均歸一化為0~1的值,值的大小反映相應(yīng)的圖像給測試者的不同主觀感受,如:“場景”對應(yīng)的值1.0,表示完全與提示詞匹配,而0.3則表示與提示詞匹配程度較低;“心理預(yù)期度”的值0.8,表示AI生成的圖像整體比較符合測試者的心理預(yù)期,而0.5則表示測試者對于AI生成圖像相對不是很滿意,不太符合心理預(yù)期.“總分”指標(biāo)在所有細(xì)分主觀指標(biāo)的基礎(chǔ)上,通過客觀計(jì)算方法獲得(式(3)),一定程度上避免了絕對主觀評分的偶然性和不穩(wěn)定性,能夠更加準(zhǔn)確地反映測試者對AI生成圖像的主觀評價(jià).
3 結(jié)果討論
3.1 對客觀實(shí)驗(yàn)結(jié)果的分析和討論
本研究的目的是探索關(guān)于AIGC質(zhì)量的評估指標(biāo),并以文心一言的繪圖功能和插件進(jìn)行圖像生成實(shí)驗(yàn),以篩選驗(yàn)證合適的指標(biāo).對比觀察客觀實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):從直方圖顯示的信息來看,圖1中AI重繪和畫質(zhì)修復(fù)效果幾乎相同,但AI重繪的RGB三通道各自值的分布呈現(xiàn)更明顯的聚類效果.AI重繪圖與原圖差別更大,而畫質(zhì)修復(fù)圖呈現(xiàn)與原圖更類似的自然真實(shí)性.相比AI重繪和畫質(zhì)修復(fù)圖,三幅相似圖與原圖的差別更大,這也可以通過直方圖中R、G、B值的分布區(qū)間差異觀察出來.因此,直方圖在AIGC生成圖質(zhì)量評估中具有一定的指示作用.
目視對比觀察三幅相似圖,可看出圖1e雖然風(fēng)格、結(jié)構(gòu)等與另外兩張圖相似,但圖中人物形態(tài)扭曲(胳膊與身體的構(gòu)造產(chǎn)生錯(cuò)誤),而這種錯(cuò)誤不能體現(xiàn)在直方圖上.觀察表1,進(jìn)一步對比原圖與AIGC生成圖在各個(gè)客觀指標(biāo)上的量化差異.相較于直方圖,從表1中可直接計(jì)算出在各個(gè)指標(biāo)指示下與原圖最接近的值(即表1中加粗?jǐn)?shù)值).其中,畫質(zhì)修復(fù)圖產(chǎn)生了兩個(gè)最佳值(分別是色偏值與噪點(diǎn)數(shù)量),AI重繪圖產(chǎn)生了一個(gè)失真程度最佳值,生成的相似圖1d與相似圖1f分別在清晰度和亮度兩個(gè)指標(biāo)上與原圖最接近.只有相似圖1e沒有產(chǎn)生任何一個(gè)最佳指標(biāo)值,這與人眼目測觀察所得一致,即畫質(zhì)修復(fù)圖的效果與原圖最近似,而生成的相似圖1e與原圖差異最大.由此可見,色偏與噪點(diǎn)數(shù)量兩個(gè)指標(biāo)的指示作用較為準(zhǔn)確.
3.2 對主觀實(shí)驗(yàn)結(jié)果的分析和討論
因?yàn)樾枰獜挠脩舻慕嵌日页瞿P洼敵鼋Y(jié)果的錯(cuò)誤,以便更全面地評測模型的性能,所以圖2中選用的部分圖像,并非都是具備完美效果的繪制圖.下面對生成圖像中典型的、共性的錯(cuò)誤進(jìn)行分析和討論(圖2).
如圖3中各子圖所示:
1)人物圖的手部不自然或明顯錯(cuò)誤.“畫手指難”是AI繪畫領(lǐng)域長期以來難以解決的問題,國外先進(jìn)的Midjourney模型和國內(nèi)的眾多大模型均是如此.如圖3a中人物的手部有很明顯的錯(cuò)誤,右手的手指多,左胳膊完美但沒有手部.其他生成圖中這種現(xiàn)象也存在,即使提示詞中的主題并非以人物為主要生成任務(wù).
2)臉部扭曲、五官錯(cuò)位.生成圖3b的提示詞中有“人物圖畫”的字眼,但是并沒有對五官有局部特寫或細(xì)節(jié)要求,圖像整體的寫實(shí)攝影風(fēng)格完美匹配,但是五官明顯變形,非常不自然.且盡管提示詞沒有“手”的字眼,模型還是繪制了有明顯錯(cuò)誤的手部.
3)肢體錯(cuò)位.生成圖3c的提示詞與圖3b一樣,是同一個(gè)主題,提示詞中有“人物圖畫”的字眼,并沒有對人物的肢體尤其下肢有特寫或細(xì)節(jié)要求,卻出現(xiàn)了非常明顯的肢體錯(cuò)位.AI生成的圖像極難完善眼睛、手、腳等部位細(xì)節(jié),推測之一是因?yàn)樯窠?jīng)網(wǎng)絡(luò)沒有足夠的數(shù)據(jù)學(xué)習(xí)手指與手指之間的結(jié)構(gòu)邏輯,且手指關(guān)節(jié)間的特征屬于細(xì)小顆粒[10],因此生成的手容易出錯(cuò).與手部不同,人物的下肢肢體并非屬于細(xì)小顆粒,但生成的結(jié)果同樣出現(xiàn)較明顯的錯(cuò)誤,除了提示詞未給出明確提示外(如“該人有兩條腿”),原因可能是大模型的生成模式和方法仍然處于一種“懵懂”的混沌狀態(tài),類似人類幼童的學(xué)習(xí)階段.這與網(wǎng)絡(luò)模型的“黑盒”模式一樣,暫時(shí)無法解釋或推測其原理,只能是有目標(biāo)地訓(xùn)練模型,其做法類似于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí).
由圖3可知,“不會畫手”是文心一言的突出問題,其實(shí)這也是很多大模型的通病.因此,圖像中的手是否有錯(cuò)誤,也成為判斷一幅人物圖是否為AI作圖的一個(gè)重要標(biāo)識.目前的大模型中,除了MidjourneyV5勉強(qiáng)能達(dá)到預(yù)期外,其他AI作圖大模型生成圖像中眼睛、手、腳等部位的細(xì)節(jié)存在明顯問題.
4)動物圖像繪制細(xì)節(jié)問題.圖3d的整體風(fēng)格,尤其是貓的毛、五官和草地等細(xì)節(jié)處理非常完美,但是貓爪出現(xiàn)了與人手一樣的問題,而且貓的尾巴與身體分離,這與人物圖肢體錯(cuò)位類似.據(jù)此分析,大模型之所以出現(xiàn)這種現(xiàn)象,很可能是因?yàn)樵趯W(xué)習(xí)過程中接觸了大量側(cè)面視角的人手或動物爪子圖像,而這些圖像未能完整展示出人手或貓爪的具體手指數(shù)量.至于肢體錯(cuò)位問題,推測是由于大模型過多地學(xué)習(xí)了非正常視角(如遮擋或側(cè)視圖)的圖像,導(dǎo)致在特征提取與空間位置、邏輯關(guān)系之間的匹配度不足,從而引發(fā)了生成圖像的錯(cuò)亂.然而,鑒于大模型在處理更為精細(xì)的圖像細(xì)節(jié)時(shí)的出色表現(xiàn)(如毛發(fā)、草地等),可以排除是由于顆粒細(xì)度不足導(dǎo)致大模型無法正確繪制人手或五官的假設(shè).
5)內(nèi)容不合乎空間分布邏輯.圖3e整體風(fēng)格協(xié)調(diào)、美觀,但是左側(cè)的海浪與沙灘連為一體,而非像右側(cè)一樣自然而分明,且在這樣狹小的海灣中海浪的高度太高,不符合常識.雖然在提示詞中選用了梵高繪畫的風(fēng)格,但該景觀顯然并非大自然中真實(shí)存在的景象.由此可見,圖像中的空間和邏輯問題對于大模型來說似乎是無法有效學(xué)習(xí)和理解的難題,所以會生成帶有空間分布邏輯錯(cuò)誤的圖像.
通過實(shí)驗(yàn)驗(yàn)證,上述錯(cuò)誤圖像的生成不能僅歸因?yàn)槲谋旧芍谐R姷恼Z義(提示詞)理解偏差問題,因?yàn)橥瑯拥奶崾驹~重復(fù)生成圖像時(shí),也會產(chǎn)生很多沒有任何問題的“完美”圖像.目前所見的大模型,其核心代碼或語料庫或圖像訓(xùn)練庫未完全開源,大多研究者對于模型訓(xùn)練機(jī)制不得而知.但從結(jié)果來看,各大模型產(chǎn)品的核心仍然是以卷積神經(jīng)網(wǎng)絡(luò)為主干的深度學(xué)習(xí)模型.而且訓(xùn)練數(shù)據(jù)庫中的樣本圖像是人工標(biāo)注,仍然屬于深度學(xué)習(xí)對圖像處理工作中的圖像分類和語義描述范疇.即使在中文領(lǐng)域表現(xiàn)良好的文心一言,其使用的仍然是英文標(biāo)注的訓(xùn)練數(shù)據(jù).這是因?yàn)楫?dāng)前深度學(xué)習(xí)領(lǐng)域中的公開數(shù)據(jù)集大多為歐美機(jī)構(gòu)開發(fā),其使用的標(biāo)注語言為英文.通過上述討論與表3的量化結(jié)果,可發(fā)現(xiàn)某些主觀指標(biāo)與最終圖像質(zhì)量的總體評分是一致的,特別是在美觀度、協(xié)調(diào)度和心理預(yù)期匹配度等方面.這些指標(biāo)在評估中表現(xiàn)出了較高的可靠性,對最終圖像質(zhì)量的評估起到了有效的指示作用.
本研究通過客觀實(shí)驗(yàn)對比了直方圖、失真度和噪點(diǎn)數(shù)量等客觀指標(biāo)的效果,篩選出色偏和噪點(diǎn)數(shù)量兩個(gè)指示性相對準(zhǔn)確的指標(biāo).在主觀實(shí)驗(yàn)中,評估了圖像的內(nèi)容、細(xì)節(jié)、整體美觀度和主要內(nèi)容協(xié)調(diào)性等指標(biāo),發(fā)現(xiàn)文心一言生成的圖像得到較高的評價(jià).
大模型生成圖像最常見的問題是生成圖像的空間和邏輯錯(cuò)誤較多,這可能是由于模型在生成圖像時(shí)過度強(qiáng)調(diào)細(xì)節(jié)和復(fù)雜度,導(dǎo)致生成的圖像與真實(shí)場景的差異較大[35].此外,大模型生成圖像還存在內(nèi)容的協(xié)調(diào)性和風(fēng)格兩者不一致的問題,這可能是因?yàn)槟P驮跇?biāo)注數(shù)據(jù)集標(biāo)簽時(shí)未充分考慮到內(nèi)容和風(fēng)格的一致性.在實(shí)際應(yīng)用中,邏輯性、內(nèi)容協(xié)調(diào)性等方面的錯(cuò)誤有可能對用戶造成誤導(dǎo)[36].對于空間和邏輯錯(cuò)誤較多的問題,可嘗試優(yōu)化模型的生成算法,減少對細(xì)節(jié)和復(fù)雜度的敏感性和過度追求,以更多地關(guān)注圖像的整體質(zhì)量和清晰度;對于內(nèi)容和風(fēng)格不協(xié)調(diào)、不一致的問題,可嘗試引入包含更多的語義信息和風(fēng)格特征的數(shù)據(jù)集,并加強(qiáng)標(biāo)注的準(zhǔn)確性,使模型在生成圖像時(shí)能夠更好地理解和把握內(nèi)容的整體風(fēng)格和特點(diǎn).
4 結(jié)論
本研究介紹了大模型圖像生成質(zhì)量的評估方法,對比分析了準(zhǔn)確性、相關(guān)性、一致性、可解釋性、直方圖、失真度、噪點(diǎn)數(shù)量等客觀指標(biāo),以及內(nèi)容、細(xì)節(jié)、整體美觀度、內(nèi)容協(xié)調(diào)性和心理預(yù)期匹配度等主觀指標(biāo),還使用百度文心一言的圖像生成功能進(jìn)行了主觀實(shí)驗(yàn),并進(jìn)行人工評估.通過對比主客觀實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)客觀指標(biāo)如色偏和噪點(diǎn)數(shù)量,主觀指標(biāo)如心理預(yù)期等能夠有效地評估圖像質(zhì)量.美觀度、協(xié)調(diào)度和心理預(yù)期匹配度等指標(biāo),在評估中表現(xiàn)出較高的可靠性.因此,對用戶使用提示詞的掌握程度和作品完成度進(jìn)行評價(jià),可幫助用戶在各種使用場景下做出更準(zhǔn)確的評估.未來可在深入理解AIGC基礎(chǔ)上,設(shè)計(jì)更合理的評價(jià)指標(biāo),探索更有效的評估方法,以提高生成內(nèi)容的整體質(zhì)量評估水平.
參考文獻(xiàn)References
[1]李白楊,白云,詹希旎,等.人工智能生成內(nèi)容(AIGC)的技術(shù)特征與形態(tài)演進(jìn)[J].圖書情報(bào)知識,2023,40(1):66-74
LI Baiyang,BAI Yun,ZHAN Xini,et al.The technical features and aromorphosis of artificial intelligence generated content(AIGC)[J].Documentation,Information & Knowledge,2023,40(1):66-74
[2] Wen J B,Kang J W,Xu M R,et al.Freshness-aware incentive mechanism for mobile AI-generated content (AIGC) networks[C]//2023 IEEE/CIC International Conference on Communications in China (ICCC).August 10-12,Dalian,China.IEEE,2023:1-6
[3] 朱永新,楊帆.ChatGPT/生成式人工智能與教育創(chuàng)新:機(jī)遇、挑戰(zhàn)以及未來[J].華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版),2023,41(7):1-14
ZHU Yongxin,YANG Fan.ChatGPT/AIGC and educational innovation:opportunities,challenges,and the future [J].Journal of East China Normal University (Educational Sciences),2023,41(7):1-14
[4] Cao Y H,Li S Y,Liu Y X,et al.A comprehensive survey of AI-generated content (AIGC):a history of generative AI from GAN to ChatGPT[J].arXiv e-Print,2023,arXiv:2303.04226
[5] 曲藝,劉海燕,曹玉東.基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的無參考圖像質(zhì)量評價(jià)[J].遼寧工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,44(2):115-120
QU Yi,LIU Haiyan,CAO Yudong.Non-reference image quality evaluation based on multi-scale convolutional neural network[J].Journal of Liaoning University of Technology (Natural Science Edition),2024,44(2):115-120
[6] 陳向東,褚樂陽,王浩,等.教育數(shù)字化轉(zhuǎn)型的技術(shù)預(yù)見:基于AIGC的行動框架[J].遠(yuǎn)程教育雜志,2023,41(2):13-24
CHEN Xiangdong,CHU Leyang,WANG Hao,et al.Technology foresight in digital transformation of education:action framework based on AIGC[J].Journal of Distance Education,2023,41(2):13-24
[7] 王常圣.人工智能驅(qū)動的數(shù)字圖像藝術(shù)創(chuàng)作:方法與案例分析[J].智能科學(xué)與技術(shù)學(xué)報(bào),2023,5(3):406-414
WANG Changsheng.AI-driven digital image art creation:methods and case analysis[J].Chinese Journal of Intelligent Science and Technology,2023,5(3):406-414
[8] 李亞玲,覃緣琪,魏闕.人工智能生成內(nèi)容的潛在風(fēng)險(xiǎn)及治理對策[J].智能科學(xué)與技術(shù)學(xué)報(bào),2023,5(3):415-423
LI Yaling,QIN Yuanqi,WEI Que.Potential risks and governance strategies of artificial intelligence generated content technology[J].Chinese Journal of Intelligent Science and Technology,2023,5(3):415-423
[9] 宋士杰,趙宇翔,朱慶華.從ELIZA到ChatGPT:人智交互體驗(yàn)中的AI生成內(nèi)容(AIGC)可信度評價(jià)[J].情報(bào)資料工作,2023,44(4):35-42
SONG Shijie,ZHAO Yuxiang,ZHU Qinghua.From ELIZA to ChatGPT:AI-generated content (AIGC) credibility evaluation in human-intelligent interactive experience[J].Information and Documentation Services,2023,44(4):35-42
[10] 吳柯燁,孫建軍,謝紫悅.基于專利文本挖掘的細(xì)粒度技術(shù)機(jī)會分析[J].情報(bào)學(xué)報(bào),2023,42(10):1199-1212
WU Keye,SUN Jianjun,XIE Ziyue.Research on fine-grained technology opportunity analysis based on patent text mining[J].Journal of the China Society for Scientific and Technical Information,2023,42(10):1199-1212
[11] 畢文軒.生成式人工智能的風(fēng)險(xiǎn)規(guī)制困境及其化解:以ChatGPT的規(guī)制為視角[J].比較法研究,2023(3):155-172
BI Wenxuan.The dilemma in the risk regulation of generative artificial intelligence and its resolution:taking ChatGPT as an example[J].Journal of Comparative Law,2023(3):155-172
[12] 宋一飛,張煒,陳智能,等.數(shù)字說話人視頻生成綜述[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2023,35(10):1457-1468
SONG Yifei,ZHANG Wei,CHEN Zhineng,et al.A survey on talking head generation[J].Journal of Computer-Aided Design & Computer Graphics,2023,35(10):1457-1468
[13] 林懿倫,戴星原,李力,等.人工智能研究的新前線:生成式對抗網(wǎng)絡(luò)[J].自動化學(xué)報(bào),2018,44(5):775-792
LIN Yilun,DAI Xingyuan,LI Li,et al.The new frontier of AI research:generative adversarial networks[J].Acta Automatica Sinica,2018,44(5):775-792
[14] 汪波,牛朝文.從ChatGPT到GovGPT:生成式人工智能驅(qū)動的政務(wù)服務(wù)生態(tài)系統(tǒng)構(gòu)建[J].電子政務(wù),2023(9):25-38
WANG Bo,NIU Chaowen.From ChatGPT to GovGPT:the construction of government service ecosystem driven by generative artificial intelligence[J].E-Government,2023(9):25-38
[15] 嚴(yán)昊,劉禹良,金連文,等.類ChatGPT大模型發(fā)展、應(yīng)用和前景[J].中國圖象圖形學(xué)報(bào),2023,28(9):2749-2762
YAN Hao,LIU Yuliang,JIN Lianwen,et al.The development,application,and future of LLM similar to ChatGPT[J].Journal of Image and Graphics,2023,28(9):2749-2762
[16] Wu F,Hsiao S W,Lu P.An AIGC-empowered methodology to product color matching design[J].Displays,2024,81:102623
[17] Liu G Y,Du H Y,Niyato D,et al.Semantic communications for artificial intelligence generated content (AIGC) toward effective content creation[J].arXiv e-Prints,2023,arXiv:2308.04942
[18] 陳兵,董思琰.生成式人工智能的算法風(fēng)險(xiǎn)及治理基點(diǎn)[J].學(xué)習(xí)與實(shí)踐,2023(10):22-31
CHEN Bing,DONG Siyan.Algorithm risks and governance bases of generative artificial intelligence[J].Study and Practice,2023(10):22-31
[19] Li C,Zhang C,Waghwase A,et al.Generative AI meets 3D:a survey on text-to-3D in AIGC era [J].arXiv e-Print,2023,arXiv:2305.06131
[20] Zhang Z C,Li C Y,Sun W,et al.A perceptual quality assessment exploration for AIGC images[C]//2023 IEEE International Conference on Multimedia and Expo (ICME).July 10-14,2023,Brisbane,Australia.IEEE,2023:440-445
[21] Wang T,Zhang Y S,Qi S R,et al.Security and privacy on generative data in AIGC:a survey [J].arXiv e-Print,2023,arXiv:2309.09435
[22] 王靜靜,葉鷹.生成式AI及其GPT類技術(shù)應(yīng)用對信息管理與傳播的變革探析[J].中國圖書館學(xué)報(bào),2023,49(6):41-50
WANG Jingjing,YE Ying.A probe into the generative AI and GPT-type technical applications with transform for information management and communication[J].Journal of Library Science in China,2023,49(6):41-50
[23] 王華樹,劉世界.智慧翻譯教育研究:理念、路徑與趨勢[J].上海翻譯,2023(3):47-51,95
WANG Huashu,LIU Shijie.Smart translation education:concept,pathways and prospects[J].Shanghai Journal of Translators,2023(3):47-51,95
[24] 萬小軍.智能文本生成:進(jìn)展與挑戰(zhàn)[J].大數(shù)據(jù),2023,9(2):99-109
WAN Xiaojun.Intelligent text generation:recent advances and challenges[J].Big Data Research,2023,9(2):99-109
[25] 祝智庭,戴嶺,胡姣.高意識生成式學(xué)習(xí):AIGC技術(shù)賦能的學(xué)習(xí)范式創(chuàng)新[J].電化教育研究,2023,44(6):5-14
ZHU Zhiting,DAI Ling,HU Jiao.Higher consciousness generative learning:innovation of learning paradigm enabled by AIGC technology[J].e-Education Research,2023,44(6):5-14
[26] 張熙,楊小汕,徐常勝.ChatGPT及生成式人工智能現(xiàn)狀及未來發(fā)展方向[J].中國科學(xué)基金,2023,37(5):743-750
ZHANG Xi,YANG Xiaoshan,XU Changsheng.Current state and future development directions of ChatGPT and generative artificial intelligence[J].Bulletin of National Natural Science Foundation of China,2023,37(5):743-750
[27] 于天河,柳夢瑤.基于人眼視覺系統(tǒng)的圖像質(zhì)量評價(jià)方法[J].北京郵電大學(xué)學(xué)報(bào),2023,46(2):129-136
YU Tianhe,LIU Mengyao.Image quality evaluation method based on human visual system[J].Journal of Beijing University of Posts and Telecommunications,2023,46(2):129-136
[28] 柳夢瑤.基于人眼視覺系統(tǒng)的圖像質(zhì)量評價(jià)方法研究[D].哈爾濱:哈爾濱理工大學(xué),2022
LIU Mengyao.Research on image quality evaluation method based on human visual system[D].Harbin:Harbin University of Science and Technology,2022
[29] Lu Z Y,Huang D,Bai L,et al.Seeing is not always believing:a quantitative study on human perception of AI-generated images[J].arXiv e-Print,2023,arXiv:2304.13023
[30] Hassan M,Bhagvati C.Structural similarity measure for color images[J].International Journal of Computer Applications,2012,43(14):7-12
[31] 張彥超.基于邊緣和顏色特征的圖像檢索技術(shù)研究[D].武漢:武漢理工大學(xué),2010
ZHANG Yanchao.The research of image retrieval based on edge and color feature[D].Wuhan:Wuhan University of Technology,2010
[32] 楊楊.基于均勻色差空間擴(kuò)展的彩色圖像質(zhì)量評價(jià)研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2013
YANG Yang.Research of color image quality assessment based on expanded uniform color difference space[D].Hefei:University of Science and Technology of China,2013
[33] 謝勤嵐.圖像降噪的自適應(yīng)高斯平滑濾波器[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(16):182-184
XIE Qinlan.Adaptive Gaussian smoothing filter for image denoising[J].Computer Engineering and Applications,2009,45(16):182-184
[34] 魏政剛,袁杰輝,蔡元龍.一種基于視覺感知的圖像質(zhì)量評價(jià)方法[J].電子學(xué)報(bào),1999,27(4):79-82
WEI Zhenggang,YUAN Jiehui,CAI Yuanlong.A picture quality evaluation method based on human perception[J].Acta Electronica Sinica,1999,27(4):79-82
[35] 金偉其,賈曉婷,高紹姝,等.彩色融合圖像的質(zhì)量主觀評價(jià)[J].光學(xué)精密工程,2015,23(12):3465-3471
JIN Weiqi,JIA Xiaoting,GAO Shaoshu,et al.Subjective evaluation of quality for color fusion images[J].Optics and Precision Engineering,2015,23(12):3465-3471
[36] 陳銳,江奕輝.生成式AI的治理研究:以ChatGPT為例[J].科學(xué)學(xué)研究,2024,42(1):21-30
CHEN Rui,JIANG Yihui.A study of the governance of generative AI:taking ChatGPT as an example[J].Studies in Science of Science,2024,42(1):21-30
AIGC image quality evaluation indicators
XING Runmei1,2 CHANG Shenglong3,4 HE Kuan5,6 ZHU Shuguang5 GAO Qiong5 HU Hao5,7
1Logistics School,Henan College of Transportation,Zhengzhou 451460,China
2School of Civil Engineering,Zhengzhou University,Zhengzhou 450001,China
3College of Software,Henan Normal University,Xinxiang 453007,China
4Henan Hengmao Chuangyuan Technology Co.,Ltd.,Zhengzhou 450016,China
5College of Surveying and Mapping Engineering,Yellow River Conservancy Technical Institute,Kaifeng 475004,China
6School of Surveying and Land Information Engineering,Henan Polytechnic University,Jiaozuo 454000,China
7School of Water Conservancy,North China University of Water Resources and Electric Power,Zhengzhou 450046,China
Abstract Artificial Intelligence Generated Content (AIGC) technology offers a wide range of information generation services.However,the accurate assessment of AIGC quality is a critical issue that needs to be addressed.This study delves into the quality of images generated by large models and their evaluation metrics.First,it summarizes common methods for evaluating AIGC from a technical perspective,such as deep learning and computer vision approaches.The study introduces the metrics used in these evaluation methods,including accuracy,relevance,consistency,and interpretability,and examines their performance in evaluating diverse generated content.Then,to demonstrate the practical application of these evaluation metrics,this study conducts an evaluation experiment using images generated by ERNIE Bot as an example.Objective evaluation of the generated images is carried out through quantitative metrics like histograms and noise counts,while subjective evaluation focuses on the overall coordination and aesthetic appeal of the images.Finally,by comparing the results of objective and subjective evaluations,this study identifies highly reliable metrics for evaluating the quality of AIGC images,including color bias,noise count,and psychological expectations.This research provides a theoretical foundation for evaluating the AIGC quality and verifies the effectiveness and reliability of a combined approach using both objective and subjective metrics for AIGC product evaluation through experimental results.
Key words AI generated content (AIGC);deep learning;computer vision;image;quality assessment
資助項(xiàng)目河南省高等教育教學(xué)改革研究與實(shí)踐項(xiàng)目(2024SJGLX173,2019SJGLX690);河南省重點(diǎn)研發(fā)專項(xiàng)(231111210200,241111210300);中央引導(dǎo)地方科技發(fā)展專項(xiàng)(Z ̄2 ̄0 ̄2 ̄2 ̄1343001);黃河水利職業(yè)技術(shù)學(xué)院測繪地理信息職業(yè)教育研究課題(2021CHYB01)
作者簡介邢潤媚,女,助教,研究方向?yàn)槿斯ぶ悄芎痛髷?shù)據(jù)分析等.smile199103@163.com
胡昊(通信作者),男,教授,研究方向?yàn)橹腔鬯⑺Y源綜合智能分析與調(diào)度等.85678199@qq.com