毛典輝,趙 爽,黃暉煜,郝治昊
(1. 北京工商大學計算機學院,北京 100048;2. 北京工商大學農產品質量安全追溯技術及應用國家工程實驗室,北京 100048)
隨著移動互聯網的發展和短視頻社交平臺迅速崛起,數字信息傳播速度更快、范圍更廣。但其中存在的Deepfake(深度偽造人臉視頻)等AI技術[1-4]可能會被利用從事危害國家安全、侵犯他人合法權益等法律法規禁止的活動,對社會穩定造成不良影響。2019年11月,國家互聯網信息辦公室等部門出臺監管文件[5]強調“網絡音視頻信息服務提供者應當部署應用非真實音視頻鑒別技術,發現音視頻信息服務基于深度學習、虛擬現實等的虛假圖像、音視頻生成技術制作、發布、傳播信息內容的,應采取警示整改、限制功能、暫停更新、關閉賬號等處置措施,保存有關記錄”。因此,針對Deepfake人臉偽造視頻內容的監管得到廣泛社會關注。
如今,基于深度偽造人臉視頻內容的監管方式由人工檢測與機器檢測[6]相互補充。但由于Deepfake技術獨特的生成機制,以及生成Deepfake內容GAN模型樣本量不斷增加[7]使其具有自我修正的能力,使得人工檢測方法日趨失效。同時,在實際運營的短視頻社交平臺中視頻質量參差不齊,服務器端存儲的視頻圖像分辨率相對較高,受實際帶寬傳輸限制,平臺一般借助壓縮技術對視頻進行重新編碼使得客戶端播放的視頻圖像分辨率較低。因此,依據單一獨立特征的Deepfake人臉偽造視頻檢測方法[8-10]難以適應邊緣用戶與中心服務器間復雜的檢測要求。除此之外,由于短視頻社交平臺數億級的傳播圖像數據具有視頻文件大、因轉發傳播造成重復存儲同一數據文件等特點,監管平臺面臨著巨大的計算成本壓力。
針對以上問題,本文基于區塊鏈存證技術設計出一種Deepfake人臉視頻圖像內容監管方法。首先,針對存儲視頻文件大及數據冗余問題,引入區塊鏈存證技術,構建了IPFS-超級賬本存儲環境,實現了鏈上存儲哈希值與鏈下存儲原始視頻源文件相結合的數據存儲方式。其次,針對Deepfake視頻內容監管準確率問題,設計出一種混合Deepfake人臉視頻內容檢測方法,該方法以圖像分辨率為標準,低分辨率視頻采用基于微調神經網絡的分類器,高分辨率視頻則依據圖像頻譜特征進行分類,通過兩種方法線性組合增強了檢測方法魯棒性。同時,針對Deepfake內容監管效率問題,采用了一種邊緣端與服務器端協同工作的監管架構,該架構引入邊緣端設備,通過將部分(低分辨率)檢測模塊神經網絡附加輕量級網絡MobileNet V3實現,降低監管平臺計算壓力的同時提高了檢測效率。
近幾年,Deepfake人臉視頻檢測方法主要包括基于幀間時間特性或基于幀內人為視覺效果兩大類。利用幀間時間特性通常使用遞歸分類方法,基于幀內人為視覺效果則在提取特定特征后用深層或淺層的分類器來完成檢測。Li[11]等研究的Deepfake人臉視頻生成模型由于計算資源和制作時間的限制,只能合成有限分辨率的人臉視頻,并且必須對Deepfake人臉視頻圖像進行仿射變換,扭曲面區域和周圍環境的圖像分辨率不一致在生成的Deepfake人臉視頻中留下了獨特特征,這一特征可以被經典的深度神經網絡模型(如VGG,ResNet等)有效學習。Matern[12]等人也同樣關注到人為視覺效果特征,通過眼睛、牙齒、面部輪廓可以檢測出一些人為視覺特性。該工作研究將人為視覺特征分為全局一致性、光照估計、幾何估計等類別,通過提取這些特征組成特征向量完成Deepfake人臉視頻檢測。除此之外,Hasan[13]等人提供了一個基于區塊鏈技術的解決方案和通用框架,以追蹤數字內容的來源和歷史到其原始來源判斷視頻中是否存在深度偽造人臉內容。但是,隨著短視頻社交平臺等互聯網應用的發展,以及Deepfake人臉視頻生成技術的不斷提升,單一的檢測方法逐漸被替代,多種檢測特征相結合的混合方法逐漸成為發展趨勢。
區塊鏈(Blockchain)最早被Satoshi Nakamoto提出,是一種基于數據加密、分布式存儲、點對點傳輸、時間戳、共識機制等技術的去中心化數據管理模式。區塊鏈技術的分布式架構及共識機制可以有效防止數據被篡改并進行精準追溯,自動化執行智能合約的實現為監管方法提供了可能。區塊鏈存證方法基于區塊鏈技術,將證據數據文件利用多種Hash算法計算多個Hash值并存儲在區塊鏈上。
雖然區塊鏈技術解決了傳統的中心化存儲方式容易出現篡改及數據文件丟失問題,但區塊鏈區塊存儲量小,僅適用于存儲數據的數字摘要。針對這一問題,相關研究提出區塊鏈架構作為存證方法底層網絡,結合分布式存儲技術實現存證文件的安全存儲的方式實現去中心化存證技術。這種基于區塊鏈的分布式架構在Sharma[14]等人的研究中得到了較高的性能表現,其支持實時數據傳輸,具有高擴展性、低延遲率及安全性,同時邊緣計算、霧計算等云計算新興技術顯著降低了網絡計算壓力。近幾年來,IPFS[15]星際文件方法(InterPlanetary File System)、Storj[16]、Frameup[17]等分布式云存儲項目的陸續出現也使得相關技術成為研究熱點,例如chen[18]等人提供了一種基于IPFS和區塊鏈技術的P2P文件方法改進方案;Ali[19]等人關注于利用該存儲方式保護物聯網數據隱私;Confais[20]等人將IPFS與Scale-Out NAS解決方案結合使用,提出了霧計算和邊緣計算基礎設備解決云計算平臺的延遲問題。因此,區塊鏈云存儲模式不僅保障了數據存儲安全性,也使數字內容的傳播變得可追溯、透明化,為本文深度偽造人臉視頻內容監管存證提供可行性。
針對短視頻社交平臺的視頻內容數據文件大、文件數量多、圖像質量復雜、傳播數據文件冗余等特點,本文提出了基于區塊鏈存證的Deepfake人臉視頻內容監管方法,對短視頻社交平臺上視頻傳播中的Deepfake內容進行有效檢測,并對相關用戶進行追溯懲罰。該方法采用混合檢測方法將幀內時間特性和頻譜特征線性組合。一方面適應短視頻社交平臺復雜多樣的視頻圖像內容,另一方面部分檢測方法采用輕量級網絡下放至客戶端或邊緣端設備,減輕了內容監管平臺的網絡計算壓力。同時,該方法框架基于區塊鏈云存儲存證環境,依據區塊鏈鏈上哈希值取證視頻文件,也可依據哈希值對轉發深度偽造人臉視頻用戶進行追溯懲罰。
Deepfake內容監管方法網絡架構如圖1所示,核心思想是:①平臺用戶通過各種用戶終端設備上傳原始視頻,通過Hyperledger Fabric 鏈上存儲視頻文件Hash值,IPFS鏈下存儲視頻文件;②用戶編輯視頻發布后,通過用戶邊緣端設備對發布視頻(低分辨率視頻)內容進行初步檢測;③監管方法依據初步檢測結果調取原始視頻文件;④服務器端設備依據原始視頻文件(高分辨率視頻)完成監管方法剩余檢測部分;⑤測結果上傳存證至區塊鏈,并調用用戶行為評價模塊;⑥監管平臺反饋給客戶端用戶行為懲罰方案,完成Deepfake內容監管。

圖1 Deepfake內容監管方法框架圖
在這一小節中,依據上文所劃分的不同模塊對深度偽造人臉視頻內容監管方法的實現進行描述。首先,區塊鏈存證模塊采用了區塊鏈云存儲環境,不僅通過IPFS去中心化技術解決了視頻文件大、數據冗余問題,提高了數字文件存取效率;并保證了該監管方法對Deepfake內容的有效追溯。其次,檢測模塊實現了一種混合檢測方法,兼容不同質量的圖像內容同時,引用了輕量級網絡通過邊緣端設備完成部分檢測工作,保證了檢測模塊結果準確率和及時性。最后,監管方法中用戶行為評價模塊建立在區塊鏈存儲環境的基礎上,對檢測出Deepfake內容的相關聯用戶執行相應懲罰措施,實現短視頻社交平臺Deepfake內容監管方法監管完整性。
檢測模塊即Deepfake內容監管方法的主要功能。首先,該模塊必須保證對深度偽造人臉圖像內容的有效檢測。其中,Deepfake人臉視頻生成模型的不斷改進使通過單一的特征或單一的方法進行Deepfake內容檢測準確率降低;并且,短視頻社交平臺的億級數據傳播量導致視頻內容必須經過壓縮后傳播,即傳播的圖像內容分辨率相比于上傳平臺原始視頻大幅降低,Deepfake內容檢測準確率降低。其次,該模塊必須解決監管方法檢測及時性的問題,短視頻社交平臺日傳播量達億級,傳統檢測方法依賴于深度學習神經網格結構,Deepfake內容檢測計算時間過長。因此,如何在可應用的時間范圍內滿足各種質量視頻內容的有效檢測成為了該功能模塊的重點。
本文設計了一種混合Deepfake人臉視頻內容檢測方法,將檢測模塊按照視頻內容特點分為低分辨率檢測模塊L和高分辨率檢測模塊H,兩者之間為線性關系。模塊L運用輕量級網絡應用與客戶邊緣端設備,提高了整體監管方法的檢測效率;模塊H在內容監管服務器端運行,保證了Deepfake內容檢測準確率;這種線性組合方式提高了整體方法檢測方法的魯棒性。
4.1.1 低分辨率檢測模塊L
本文采用了一種輕量級的微調神經網絡模型。在傳統Deepfake檢測方法中深度學習神經網絡模型的基礎上引入微調結構[21],微調結構核心思想是一個基于圖像的自注意力模塊(Fine-tune Transformer),該模塊通過少量預處理圖像對預訓練模型網絡進行微調,得到新的特征空間集用于Deepfake內容檢測。
模塊L網絡模型如圖2所示,對數據集視頻序列進行人臉檢測,裁剪調整得到正方形人臉圖像作為模塊正負樣本輸入;①將少量正負樣本輸入微調結構,其余正負樣本數據輸入預訓練模型Xception網絡;②將輕量級網絡MobileNet V3附加至預訓練主網絡模型;③在預訓練特征空間上通過殘差轉置結構和線性瓶頸來有效提取特征空間;④通過自注意力模塊提取自我注意特征圖,對輸入圖像進行微調;⑤得到新的特征空間集對輸入圖像進行分類。

圖2 低分辨率檢測模塊L
首先,模塊L預訓練主卷積神經網絡(Pre-trained model)的選擇為Xception網絡。Xception[22]是谷歌繼Inception后提出的對Inception-v3的改進網絡,Xception網絡結構基于殘差網絡,采用分離卷積替換原有的卷積操作,使得重新設計Inception模塊得到了Xception網絡模型。這種網絡結構在減少參數量的情況下增加了網絡模型的層數,減少了存儲空間的同時增強了網絡模型的表達能力。然后,微調遷移部分(Fine-tune Transformer)由三個子自注意力模塊構成,如圖3所示,使用1×1卷積濾波器,將輸入X表示為三個特征空間(x)、(x)、h(x),式(1)即特征空間計算方式,其中Wf、Wg、Wh分別代表每個特征空間的濾波器權重;注意力圖β是特征空間f和g的Softmax函數輸出(式(2));之后,注意力圖β乘以特征空間h得到批處理點o(式(3)),并將輸入圖像X添加到o,最終輸出自我注意特征圖y(式(4))。

圖3 微調結構
f(x)=Wfx,g(x)=Wgx,h(x)=Whx
(1)
βj,i=Softmax(f(xi)Tg(xj))
(2)
oj=Batchdot(βj,i,h(x))
(3)
yi=γoj+xi
(4)
whereReLU6[x]=min(max(0,x),6)
(5)
最后,為減小Deepfake內容監管方法整體網絡計算壓力,本文將低分辨率檢測模塊L安裝在客戶邊緣端設備進行檢測,所以模塊L選擇輕量級網絡MobileNet V3附加至該模塊的預訓練主網絡模型上。該網絡結構僅使用到少量參數。MobileNet V3是以MobileNet為基礎,通過殘差轉置結構(residual transposition structures)和線性瓶頸(anbottlenecks.)探索圖像特征空間。不同于基礎的MobileNet,MobileNetV3采用互補搜索技術組合,并對網絡結構改進。具體將最后一步的平均池化層前移并移除最后一個卷積層,引入h-swish(式(5))非線性的激活函數,該模塊迭代4次后大幅提高了神經網絡模型的整體性能。
4.1.2 高分辨率檢測模塊H
在上一小節中,通過低分辨率檢測模塊L檢測Deepfake內容準確率較低,難以滿足短視頻社交平臺對深度偽造人臉視頻內容監管方法的需要。其原因是,由于用戶對發布視頻的編輯處理以及短視頻社交平臺對視頻壓縮傳輸造成圖像分辨率降低,模塊L中特征空間集部分特征失效造成檢測準確率降低。針對上述問題,本文關注到GAN框架下Deepfake人臉視頻生成基于卷積的上采樣方法來生成非標量輸出視頻,這種轉置卷積會導致生成的Deepfake人臉無法正確再現出訓練樣本中自然的頻譜分布,且這種特征與底層架構無關。所以,高分辨率檢測模塊H將頻譜特征作為分類特征[23],利用用戶上傳的原始視頻內容進行二次檢測,線性組合低分辨率檢測模塊L的方法提高了整體檢測模塊的準確率。
相比于低分辨率檢測模塊L,模塊H對輸入圖像的要求更為嚴格,具體表現在對視頻內容進行人臉檢測后截取人臉圖像的預處理。首先,從用戶原始上傳視頻文件中進行人臉檢測,但在人臉檢測過程中不能人為地調整圖像大小、比例,原因是這種調整會使頻譜特征失真從而導致Deepfake內容檢測方法失效。然后,通過一維功率譜插值到一個固定的大小300,并將其除以第0個頻率分量進行標準化為正方形灰度圖片作為輸入。

圖4 高分辨率檢測模塊 H
模塊H網絡模型如圖4所示,基于經典頻域分析,模塊H使用DFT功率譜上的方位角積分提取特征。通過上述預處理過程后得到大小為M*N的圖片輸入I,輸入I利用離散傅里葉變換F(式(6))計算表示輸入I的二維功率譜(Amplitude Spectrum 2D),再通過radial frequencies(σ)計算方位角積分(azimuthal integral)得到一維功率譜(1D Power Spectrum)(式(7)),并以結果一維功率譜作為為特征使用支持向量機SVM進行訓練實現分類。
k=0,…,M-1,l=0,…,N-1
(6)

k=0,…,M/2-1
(7)
區塊鏈存證模塊為深度偽造人臉視頻內容監管方法的基本功能。首先,該模塊提供了一個可追溯、防篡改的存儲數據環境,在檢測出Deepfake內容后應能夠精準高效地追溯相關用戶及所有轉發視頻內容,防止篡改內容的同時對相關用戶進行懲罰。其次,短視頻社交平臺不僅日傳播數億級的短視頻內容,其中大量轉發傳播視頻造成了存儲視頻文件環境存在著大量的重復視頻數據文件,因此該模塊在保證視頻內容存儲的情況下必須解決冗余數據問題,該要求同時可以簡化內容監管方法的追溯成本。最后,對已檢測出的Deepfake內容進行追溯,并對相關用戶進行權限變更、封號等一系列懲罰措施。根據以上要求,本文選擇區塊鏈云存儲環境實現存證。針對視頻文件數據較大、短視頻社交平臺視頻數據量較多,鏈上存儲成本較高的問題,本文將Hyperledger Fabric數據存儲結構與IPFS去中心化技術結合,組成區塊鏈存證模塊。鏈下云儲存視頻文件,鏈上僅存儲視頻文件哈希值。同時,同一哈希值的不同視頻文件數據塊僅存儲一次,解決了因轉發視頻內容產生的數據冗余問題。
存證模塊功能設計主要通過區塊鏈智能合約與IPFS實現以下兩個功能:①視頻文件上鏈:計算用戶上傳原始視頻文件Hash值,并通過調用底層Fabric區塊鏈SDK/API接口,將計算結果和視頻信息存證入鏈;②存證、取證功能:調用IPFS-api將原始視頻文件存入IPFS網絡。將視頻文件存儲至IPFS網絡后,可以依據multiHash查詢下載視頻文件,算法主要通過ipfs.add與ipfs.get實現。同時,檢測出Deepfake內容后,監管方法首先阻止原圖像內容與所有相關聯的圖像內容傳播,并取證所有相關聯的平臺用戶。然后,依次扣除相關用戶信譽分,并依據剩余信譽分值進行權限懲罰。最后,若檢測結果發生改變或未檢測出Deepfake內容,則將視頻內容發布。該模塊的所有操作均通過智能合約關聯至區塊鏈進行存證。
本文提出的深度偽造人臉視頻內容監管方法采用Hyperledger Fabric集群與IPFS節點搭建,實驗環境如表1所示,采用Kafka共識模式,搭建Kafka與Zookeeper集群,依賴Docker、Docker Compose執行節點及智能合約,并選擇Ubuntu 16.04服務器搭建IPFS節點。

表1 軟件及硬件要求
本文采用了兩個數據集 DeepfakeDetection、Celeb-DF進行實驗,并使用分類準確率ACC(Accuracy)作為實驗結果的評價指標。以下對兩個數據集構成做詳細介紹:
FaceForensics++[24]是一個經典視頻數據集,由1000個原始視頻序列組成,所有視頻均包含可追蹤且大部分沒有遮擋的人臉正面。該數據集中子數據集的DeepfakeDetection包含來自28個演員在不同場景中的3000多個Deepfake人臉圖像視頻,其中數據集包含兩個部分:第一部分為原始視頻original_sequences,包括28個演員、16個不同場景的363個原始視頻;第二部分為Deepfake人臉視頻manipulated_sequences,包括對于28個演員、16個不同場景至多26種人臉變換的2068個Deepfake人臉視頻序列。
Celeb-DF[25]數據集最新發布的Celeb-DF-v2版本擴展至590個原始視頻,以及5639個相對應的Deepfake人臉視頻,該數據集視頻也具有不同年齡、種族和性別的主題。該數據集在jiang[26]等人對Deepfake公共數據集真實性評價中得到了61.0%的置信率高分。
針對上文中對短視頻社交平臺傳播視頻內容分析及檢測模塊對圖像預處理的不同要求,本文對 DeepfakeDetection和Celeb-DF數據集預處理得到兩種不同圖像質量的預處理數據集如圖5所示,圖左分辨率大小為64×64,圖右分辨率大小為1024×1024。

圖5 預處理樣本
由于低分辨率檢測模塊L與高分辨率檢測模塊H對輸入的不同要求,采用了不同的方法對視頻序列進行數據預處理得到Datasets L和Datasets H,預處理過程包括人臉檢測與裁剪人臉兩個部分,具體樣本量如表2所示。

表2 預處理數據集
具體實現方法如下:
1)為了滿足實際應用要求并增加實驗難度,直接使用基于CNN網絡的含有68個特征點的dlib_model,包括mmod_human_face_detector.dat與shape_predictor_68_face_landmarks,然后裁剪調整出人臉及周邊正方形區域后,直接將樣本圖像分辨率調整為64×64大小作為預處理樣本結果Datasets L。
2)上述過程中對檢測出的人臉圖像的裁剪調整會導致樣本頻譜特征失真,視頻序列中識別出人臉后,將一維功率譜插值到一個固定的大小300,并將其除以第0個頻率分量進行標準化,輸出結果組成Datasets H仍為正方形圖片數據集,但樣本圖像頻譜特征沒有改變。
本文深度偽造人臉視頻內容監管方法評價實驗分為三個部分:頻譜特征驗證、檢測準確率評估和區塊鏈性能評價。
5.3.1 頻譜特征驗證
該方法中高分辨率視頻檢測模塊H,是將Datasets H數據集中每個圖像樣本從空間域轉換到1D頻域,將1024×1024的高質量彩色圖像還原為含有722個特征的1D 功率譜。如圖6所示繪制了所有樣本的1D功率譜的平均值和標準差,因Datasets H數據集中屬于同類別屬性的圖像在1D功率譜的相似性,可以得出real與fake的圖像樣本在高頻下表現出明顯不同的光譜信息,利用此頻譜特征對Deepfake內容進行檢測具有可行性。

圖6 Datasets H一維功率譜統計
同時,本文進行了補充實驗,確定不同頻率成分的相關性。圖7顯示了在高分辨率檢測模塊H中SVM分類器的精度結果,其中縱坐標表示頻率的分塊開始位置,橫坐標表示其結束位置。由此可以得出結論,Deepfake人臉視頻頻譜特征主要影響頻率段為500-722,這一結果與圖6表現一致,進一步驗證了頻譜特征的有效性。

圖7 支持向量機分類器頻率統計
5.3.2 檢測準確率評估
將Datasets L分為Train、Validation、Test、fine-tune四個子數據集。子數據集樣本大小如表3所示,本文在訓練集中對real圖像和fake圖像分別微調了500個樣本,并通過Test子數據集用于檢查訓練策略。

表3 微調網絡子數據集
首先,檢測子模塊L采用隨機梯度下降算法在數據集上進行300 epochs動量訓練,設置學習率初始化為0.3,并使用余弦函數Simulated Annealing算法,采用提前停止的方法,初始化所有其它權重參數。另外將動量率設置為0.9,mini-batch大小設置為128。其次,檢測子模塊H訓練部分僅使用圖像樣本1D功率譜作為分類特征。在實驗中,基于徑向基函數內核的支持向量機(SVM)分類器,采用不同樣本數量進行并取最優結果。檢測模塊實驗結果如表4所示。

表4 ACC實驗結果評估
如表4展示了本文深度偽造人臉視頻內容監管方法測試模塊中總體性能,其中RestNetV2、Xception作為主流檢測方法與本文檢測模塊功能進行比較,本文Deepfake內容監管方法在Celeb-DF數據集中準確率提高了20%,并在DeepfakeDetection數據集中準確率達到93.10%。通過實驗結果,可以得出結論,該方法整體檢測準確率相比單一的檢測方法略有提升,對不同質量圖像樣本的數據集均表現出良好的檢測性能,因此,該線性混合Deepfake內容檢測方法有較強的魯棒性,本文內容監管方法應用在復雜圖像內容的短視頻社交平臺具有可行性。
同時,表4展示了子模塊的檢測性能,針對DeepfakeDetection數據集,模塊L準確率高于檢測模塊H;在Celeb-DF數據集中,結果相反。這一結果表明DeepfakeDetection數據集圖像質量相比于Celeb-DF數據集圖像質量較低,這與jiang[26]等人對主流Deepfake公共數據集的評估結果保持一致。
5.3.3 區塊鏈性能評價
在保證檢測準確率的基礎上,本文對區塊鏈存證方法進行了評估。區塊鏈的交易性能決定了內容監管方法存證功能的交易性能,利用Caliper工具對區塊鏈網絡進行壓力測試。將吞吐量及交易延遲作為評估標準。實驗交易寫入速度初始值為50tps,并以50tps梯度增長進行6輪性能測試。
實驗結果如圖8所示,在圖8(a)中所示,吞吐量在第3輪測試后維持在150tps左右,即吞吐量峰值為150tps;如圖8(b)中所示,交易延遲在第3輪之后大幅提升(150tps)并且該方法保持較高交易效率。實驗結果表明,隨著寫入速度的提升,區塊鏈網絡吞吐量受到影響;但區塊鏈網絡運行穩定,且交易完成率100%,無數據丟失情況;本文所提出的深度偽造人臉視頻內容監管方法對Deepfake內容檢測具有可行性。

圖8 實驗結果
本文針對短視頻社交平臺設計了一個基于區塊鏈存證的深度偽造人臉視頻內容監管方法,該方法對短視頻社交平臺用戶發布的視頻內容進行Deepfake內容檢測,并具有完整的懲罰存證機制,可以與現有的內容監管平臺更好地融合。本文在區塊鏈架構環境的基礎上引入IPFS去中心化技術,保證了用戶信息及行為的可追溯性與不可篡改性,同時減小了原有存儲方式視頻數據冗余問題。同時,針對短視頻社交平臺用戶傳播視頻圖像內容特點,該方法將兩種檢測方法線性組合,并將部分檢測工作運行于客戶端或邊緣端設備,減輕了傳統服務端網絡的計算壓力,整體內容監管方法保證了準確率并提升了檢測速度。最后,基于區塊鏈存證的用戶行為評價機制保證了該方法的完整性與可應用性。
但是,該內容監管方法仍然存在幾個限制。首先,本文著重研究圖像內容中深度偽造人臉視頻檢測,對視頻圖像內容中可能存在的深度偽造的聲音內容及文字內容為空白,仍需要更多的嘗試;其次,本文只是驗證了該內容監管方法的可行性,采用的檢測方法效果并沒有達到最優,因此,在未來的工作中,將對該內容監管方法的檢測方法進行改進,并對方法環節中的細節進行完善。