高昌盛 臺州科技職業學院
隨著互聯網的飛速發展和信息量的猛增,大量的色情、暴力、政治敏感、違法等不良信息充斥其中,嚴重影響著互聯網的健康發展。目前隨著互聯網市場上交友軟件以及直播視頻軟件的流行,中國有著各類在線直播數百家,以文字、圖像、聲音為傳播的開放平臺數量更是與日俱增,涵蓋了財經、體育、游戲等各個領域,這其中既有騰訊、YY、小米等大平臺,也有各類垂直直播平臺。2015 年華創證券的研究報告顯示,直播行業的市場規模已然達到120 億,而艾媒咨詢的報告則認為直播行業的市場規模達到90 億。近些年UGC 模式大行其道,眾多上網人員網絡法律法規意識淡薄,將惡俗、色情、反動等不法視頻、圖片資源上傳至網絡,內容審查成了互聯網公司最基本的需求。“鑒黃”勢在必行,市場需求激增。
傳統的“鑒黃”審核方式是人工審核,相關互聯網企業都有專門的“鑒黃”從業人員來做內容審核,但目前的人工“鑒黃”師隊伍無法跟上網絡內容發展的速度,并且人工審核存在天然缺陷,包括:人力成本高、審核不及時、主觀判斷影響結果、人性道德等問題;加上“鑒黃”從業人員的缺乏,高強度的“三班倒”工作下,人工操作常見的審核效率低、誤判漏判準確率低等問題最為常見。實際上,當直播高峰期成千上萬的主播在線,可以說人工“鑒黃”師隊伍真是寡不敵眾。
隨著計算機視覺、改進的訓練數據和深度學習算法的發展,計算機現在能夠以更高的精度自動分類色情圖像內容。
近 年 來, 卷 積 神 經 網 絡(Convolutional Neural Network,CNN)在圖像分類問題上已經非常成功。自2012 年以來,新的CNN 架構不斷提高標準ImageNet 分類挑戰的準確性。一些重大突破包括AlexNet(2012),GoogLeNet,VGG(2013)和Residual Networks(2015)。
CNN 是一種前饋神經網絡,它的人工神經元可以響應一部分覆蓋范圍內的周圍單元,對于大型圖像處理有出色表現,它包括卷積層(alternating convolutional layer)和池層(pooling layer)。在常見構筑中,卷積層和池化層為卷積神經網絡特有。卷積層中的卷積核包含權重系數,而池化層不包含權重系數,因此在文獻中,池化層可能不被認為是獨立的層。卷積層的功能是對輸入數據進行特征提取,其內部包含多個卷積核。在卷積層進行特征提取后,輸出的特征圖會被傳遞至池化層進行特征選擇和信息過濾。
這些網絡在運行時,內存要求和準確性方面有不同的權衡。運行時和內存要求的主要指標是:
觸發器或連接-神經網絡中的連接數決定了正向傳遞期間的計算操作數,這與圖像分類時網絡的運行時間成正比。
參數-神經網絡中的參數數量決定了加載網絡所需的內存量。
理想情況下,我們需要一個具有最小觸發器和最小參數的網絡,這將實現最大精度。
我們使用一個簡單的卷積網絡模型,以正圖像(色情圖片)和負圖像(正常的圖片)做為數據訓練模型。使用Caffe 深度學習庫與CaffeOnSpark 進行訓練。后者是一個強大的分布式學習開源框架,它將Caffe 深入學習Hadoop 和Spark 集群用于訓練模型。
在訓練時我們將圖像調整為256*256 的正方形圖片,并進行水平翻轉以進行數據增強,隨后將圖片進行隨機裁剪后進入神經網絡。
這個AI 鑒黃方案叫NSFW JS,它在GitHub上進行了開源,可以點此進入它的GitHub 主頁。開發者可以插入它的相關代碼,將其運用到相應的產品當中。NSFW JS 網頁版使用起來還是比較簡單的,等待代碼加載完成后,將圖片拖動到網頁中的識別框就可以了。NSFW JS 會智能識別圖片,并能在下方給出圖片涉及怎樣的內容的概率。
視頻的鑒定在NSFW 項目的基礎上面改進了封裝,用來檢測視頻是否是色情視頻。首先,這個項目是基于Caffe 的,使用的網絡結構是ResNet 網絡。使用FFMPEG 完成對視頻的檢測,從視頻中提取幀數,每N 秒提取一次圖像,為了檢測更加精確,可以修改N 的間隔時間。
檢測分為三個等級,score<0.2 的表示很安全,socre>0.8 的表示有很大的可能性是色情的,最后進行程序輸出。
輸出頁面的內容包括:總共提取檢測視頻中的圖像幀數;很安全safe 的數量,占的比重(socre<0.2);medimum 介于危險和安全之間的數量、比重(score>=0.2&&score<=0.8);dangerous,有很大可能性是色情占的比重(score>0.8)。
最后我們可以根據dangerous 占的比重可以確定視頻是否是色情視頻,再交由人工審核確認,可以有效降低鑒黃師的工作量。
最后運行命令:
Python launch_video_detact.py --comtent 2017.mp4 --step 30
設置隔30 秒提取的幀數,檢測的影片是《看不見的客人》,實驗結果如下:

92.453 %概率顯示確定《看不見的客人》非常安全,可以不用交于人工審核。
再對NPDI 測試集里的一段視頻進行檢測,dangerous 所占比重超過80%,需要交由人工審核。
利用python 和卷積神經網絡技術,通過學習足夠數量的樣本,從數據中自己構建模型,開發基于人工智能的鑒黃系統,同步客戶審核標準。先對圖片和視頻進行機器審核,智能評定安全等級;再將疑似色情低俗內容視頻、圖片交付人工審核確認,能有效改變傳統方式下“鑒黃”師人工通過肉眼鑒別色情圖片和視頻效率低下、誤判率高等問題,達到高效準確的目的。