中國移動通信集團設計院有限公司 | 丁亦志
優化圖像識別技術保障網絡內容安全
中國移動通信集團設計院有限公司 | 丁亦志
對圖像識別技術進行改進及優化,將進一步保障網絡內容和信息安全。
隨著網絡技術和多媒體技術的發展,互聯網上信息的監督和控制越來越重要。尤其目前互聯網色情圖像、色情錄像的傳播問題越來越嚴重,為有效杜絕此現象,筆者提出一種對傳統膚色分割算法的改進方法,現網應用效果表明,該方法能夠達到85%以上的準確率。
圍繞手機網絡淫穢信息泛濫問題,媒體曾經進行了大量的報道,將手機網絡淫穢信息泛濫問題直指通信運營商。報道稱通過手機上網,可以訪問大量黃色獨立WAP網站,運營商沒有履行好封堵的職責;在部分黃色網站中存在運營商業務鏈接,指責運營商從中牟利,并為黃色網站提供代收費;還發現有黃色獨立WAP網站的IP地址屬于運營商IDC機房。
目前三家運營商都在與SP的合作辦法中明確嚴格禁止合作伙伴提供淫穢色情違法內容,以及開展任何形式的代收費服務,一經發現則進行違約處理,直至終止合作。但是任何支付手段都不可能100%鑒別交易本身是否合法。個別色情網站采用“掛羊頭賣狗肉”的辦法,用戶表面上訂購的是合法業務,實際得到的卻是色情內容,這讓運營商根本無法預防,只能靠事后的舉報和處理。
手機上網涉黃問題對未成年人危害巨大,打擊色情網站人人有責。無論主管部門,還是運營商、IDC、手機應用提供者等都有責任和義務營造良好的移動互聯網環境。
盡管通過不良信息撥測系統等技術手段在打擊淫穢色情內容中發揮了重要作用,但與嚴峻的整治手機淫穢色情信息的工作任務相比,還面臨著很多難題,撥測系統在提高識別準確率方面還需要繼續提升,在應對不斷更新的網絡違法手段方面還需進一步加強技術研究。特別是其中的關鍵核心技術圖像識別算法面臨準確率低、判別速度慢等一系列問題,急需優化。
1996年,美國加州大學Berkeley分校計算機系的David A. Forsyth教授等人利用計算機視覺和圖像理解技術對色情圖片識別進行了研究,首次提出通過對圖片膚色分割和人體姿態的幾何特征檢測來判別圖片是否含有色情內容。該系統通過膚色分割算法提取圖像中的皮膚區域,然后對這些區域所構成的人體結構關系進行分析,檢測人體的各個部位及其相互關系,最后得到對色情圖像的識別。1998年,美國HP研究院劍橋實驗室的M.J.Jones 等人提出統計膚色模型,并在此基礎上采用神經網絡分類器實現了一個成人圖像識別系統。
盡管研究人員提出了各種各樣的技術來識別成人圖像,然而成人圖像識別卻一直是一個技術難題,其識別的精度和速度都有待大幅度提高。筆者采用層次化識別框架,利用圖像預處理、圖像特征提取與向量表示、分類模型訓練與識別分層逐級識別成人圖像。圖像的預處理包括對圖像大小的調整、圖像光照的消除;由于皮膚是成人圖像最重要的視覺特征,首先應通過膚色檢測確定出含有膚色的候選圖像,然后通過對膚色區域分析,確定其中符合人體皮膚紋理特性區域的比例,進而分割出圖像的皮膚區域,分離出不含光滑膚色區域的正常圖像,對皮膚區域信息進行特征提取與向量描述。最后在對皮膚區域提取低層視覺特征后,將得到圖像的特征向量送到分類模型中進行訓練與識別。這樣經過多層處理,正常圖像被逐級檢測出來,成人圖像最后由圖像分類器進行識別。這種層次化識別方法加快了正常圖像的處理速度,也符合在應用中大量存在的是正常圖像的實際情況。
圖像分析過程為:第一,系統在獲取圖片后,先通過雙線性插值法進行圖片大小的標準化處理,將圖片按比例進行標準化;第二,進行大小標準化后,通過Grey World色彩均衡方法對圖片進行光照處理,從而對光線進行補償處理;其三,通過顏色及紋理的識別從而進行皮膚區域的提取,從而將非處理信息進行排除;其四,在進行提取時,通過彈性圖匹配方會對人臉進行識別,當有人臉占據圖像的百分比超過指定系數時,即可排除非色情圖像;第五,進行降噪處理,將作用不大的皮膚區域或會產生干擾的區域去除;第六,關鍵的皮膚區域按維度進行向量化處理,從而轉變為可被圖像處理模型識別的數據,并送入模型中。
本算法于今年3月對實用現網數據進行了測試。通過該算法對隨機抓取的130995張圖片進行自動識別,并將其結果與人工分揀結果進行對比。在系統誤檢率僅提高0.76%的條件下,系統識別率提高了約26.05%(如表所示)。
自3G牌照發放以來,手機用戶不再滿足于語音和短信這類傳統業務,而是對多媒體內容的關注度逐漸增高,譬如手機報、手機視頻、手機閱讀、手機上網等業務都取得了長足的發展,也進一步推動運營商從服務提供商向內容提供商的角色進行轉變。在業務快速發展的同時,同步建設內容審核系統已經成為趨勢,而圖片識別技術將會是其重要的組成部分,其應用領域不僅僅局限于互聯網內容,更可以為彩信、WAP瀏覽、手機視頻等各類新型多媒體業務內容提供服務。
在網絡信息飛速膨脹,網上不良內容泛濫情況下,色情圖像識別技術已成為一個具有重大應用價值的研究方向。根據色情圖像的顯著特征,建立層次化識別框架,利用圖像預處理、圖像的特征提取與向量表示、分類模型訓練與識別分層逐級識別成人圖像,構造了一個多層次的過濾方法。本文的方法雖然取得的較好的效果,但還有許多需要改進的地方。如何更加有效抑制表情、遮掩和姿態變化等因素對識別率的影響還有待進一步解決。

表 改進后的圖像識別技術與傳統圖像識別技術的參數比較