周仕開
中國電信福建公司,福建福州,350001
互聯網不良信息治理并非一個新話題,多年來,社會各方在互聯網不良信息治理方面持續開展研究和探索。基礎電信運營商作為互聯網基礎設施建設的主力軍和互聯網應用的主要推動力量,始終積極參與互聯網不良信息治理的研究與實踐。近年來,隨著治理環節的逐步前移,省級基礎電信運營商也開始逐步建設相關能力平臺,建立常態化治理運作機制[1]。
本文從省級基礎電信運營商視角,對互聯網不良信息治理的研究與實踐作了粗淺的探討,為社會各界提供參考。
基礎電信運營商持續推動我國互聯網基礎設施建設,為互聯網大發展打下堅實基礎?!笆濉逼陂g,我國建成了全球規模最大的信息通信網絡,為互聯網產業騰飛和數字經濟繁榮發展創造了條件。截至2021年12月,我國光纖接入用戶總數已達5.06億戶(占固定寬帶用戶的94.3%),移動電話用戶總數16.43億戶,其中4G移動電話用戶10.69億戶,5G移動電話用戶3.55億戶。
根據中國互聯網信息中心(CNNIC)發布的第49次《中國互聯網絡發展狀況統計報告》,截至2021年12月,我國網民規模達10.32億,較2020年12月增長4296萬,互聯網普及率達73.0%。有手機上網習慣的手機網民規模約為10.26億,在網民中的占比高達99.7%。互聯網已經成為我國各行各業以及尋常百姓的主要信息交互媒介,在國民經濟發展中起著不可或缺的重要作用。
通常而言,互聯網不良信息是指對互聯網安全、社會運行秩序、大多數網民的利益構成嚴重威脅的信息內容。但不同國家對于互聯網不良信息的定義又有所不同,就國內治理實踐而言,最為泛濫的互聯網不良信息主要是涉黃涉賭信息,本文所指互聯網不良信息治理對象即主要為以下兩類。
互聯網不良信息繼承了傳統的不良信息傳播的所有危害,是互聯網高度普及背景下的犯罪新形式。
3.1.1 違法行為隱蔽性強,查處難度大
違法分子為逃避國內執法部門的打擊,通常將服務器架設在境外,與國外不法集團相互聯系,同時在國內尋找和發展代理人進行網絡運營。網絡數據更新頻繁,打擊此類行為對技術要求較高,再加上國內外的認定不同,有些國家和地區甚至將此類違法活動為了逃避罪責,作了非罪化處理,進一步加大了我國司法機關在跨國偵查辦案時的取證難度。
3.1.2 往往以集團模式出現
此類違法體系性很強,組織嚴謹、層級清晰,一般包括網絡搭建、規則制定、人員組織、金融服務以及宣傳等部分,其嚴密性與傳銷組織無異[2]。
3.1.3 運營高效、參與門檻低
參與非常便利,參與人員只要在代理人處獲得網站的賬號和密碼,便可以隨時隨地參與。成百上千人背后往往僅有幾臺甚至只有一臺電腦進行操控,賭資通過第三方支付平臺進行流轉。這些便捷性和高“安全性”,助推了此類違法行為的泛濫。
3.1.4 涉案資金巨大,嚴重破壞了我國金融秩序
相較于傳統,新型網絡違法行為往往涉案資金巨大,在已查處的案件中,涉及資金為百萬、千萬金額的案件在某種程度上都屬于小案,這嚴重破壞了我國金融秩序。
3.1.5 嚴重影響青少年身心健康
青少年是使用互聯網的活躍群體,同時也是社會經驗不足、思想不成熟的人群。在查處的案件中,有很多初中生、高中生參與其中。據某少管所統計,因參與其中而導致犯罪的青少年約占總人數的32%,嚴重侵蝕著青少年的身心健康,對社會的危害已經觸及國家根基。
3.2.1 敗壞社會道德與風氣
網絡不良信息長期泛濫,嚴重影響了網民的道德觀、價值觀,不道德的觀念被當成理所當然,久而久之會使得全社會處于一種不良的環境中,敗壞社會的道德與風氣。
3.2.2 引發犯罪行為
不良信息本身就具有巨大危害性,人們在此類信息的長期腐蝕下,會失去傳統觀念,引發犯罪。許多網絡不良信息的發布者為了獲取更多經濟利益,會發布更加危險的內容來吸引人們的目光,誘導人們一步一步走向極端,增加社會犯罪率。
3.2.3 危害青少年的身心健康
根據2016年共青團中央發布的首份《互聯網不良信息對青少年的危害分析白皮書》顯示,近80%的未成年人通過電腦、手機等接觸過不良信息。青少年處于青春發育期,他們的意識正處于懵懂狀態。內心的叛逆,加上我國文化觀念相對保守,使得網絡不良信息對他們極具誘惑力。青少年沉迷于此,會偏離人生正確的軌跡,甚至走上犯罪道路。
近年來,基礎電信運營商持續開展互聯網不良信息治理工作,取得了顯著成效。
2008年,由工信部牽頭,三大基礎電信運營商聯合開展垃圾短信息整治專項行動, 依法嚴厲查處群發垃圾短信息的信息服務業務經營者,清理了一批擅自濫發違法有害短信息內容的短信端口、手機服務、群發設備,有力遏制了垃圾短信泛濫態勢,短信息服務環境明顯凈化。
2009年,三大基礎電信運營商簽訂《關于網間垃圾短信聯動處理框架協議》,制定了各基礎運營企業聯手處理跨網垃圾短信的具體合作流程。協議的實施,加強了基礎運營企業的協同配合,切實解決了網間垃圾短信息的濫發問題,進一步鞏固了垃圾短信治理成果,有效保護了電信用戶的合法權益。
2012年,再次組織開展端口類短信群發業務清理整頓專項行動,包括利用基礎電信企業自有端口和行業類應用端口、信息服務經營者自有端口和個人通信號碼(含小靈通號碼、手機號碼和固定號碼等)開展的經營性群發垃圾短信的行為得到了有效整頓。
2005年、2009年基礎電信運營在工信部統一組織下,對代收費行為進行整頓規范,與代收費合作伙伴簽署信息安全承諾書,強化對內容管理責任的落實,堅決杜絕與手機網站采取合作分成方式傳播不良信息。
2009年,基礎電信運營商配合全國“掃黃打非”辦公室,針對手機網站制作、傳播不良信息活動不斷蔓延的情況進行了專項治理。打擊為手機不良網站提供網絡接入、建站、增值服務、廣告推廣、代收費等服務內容,整改關閉違法違規網站3.3萬個,斬斷手機不良網站背后的利益鏈條。
2011年以來,在工信部統籌下,基礎電信運營商組織人力持續開展“凈網行動”,對互聯網違法信息開展撥測,對網絡接入、重點業務平臺等環節加強安全管控。
為適應互聯網不良信息治理的發展趨勢,各基礎電信運營商還不斷提升對互聯網不良信息的技術監測能力,逐步將治理環節向下延伸,很多省級公司也已陸續建成相關系統,全域監測、處置互聯網不良信息的能力顯著增強[3]。
目前,各省級基礎電信運營商已逐步建立了省級互聯網不良信息處置管控體系。
省級基礎電信運營商作為互聯網不良信息治理體系的重要一環,在治理實踐中承擔著重要角色。對上,省級基礎電信運營商承接集團公司、政府職能部門等上級單位有關治理政策和治理要求;對下,省級基礎電信運營商統籌本省范圍內互聯網不良信息處置管控體系建設與有序運作。

圖1 協同統籌的管控體系
預防是指通過規范網站接入、網站備案和網絡信息安全等日常運營管理工作,化解互聯網不良信息產生的潛在風險,構建第一道屏障。
監測是指通過建立互聯網不良信息監測掃描系統、網站備案監測系統等自動化技術平臺,提升對互聯網不良信息檢查的掃描效率、掃描深度、識別精度,為精準打擊提供技術保障。
處置是指建立穿透省市縣三級的互聯網不良信息工單處置流程,規范和閉環管理全省不良信息處置工作,確保處置效果。
宣教是指梳理有關互聯網不良信息治理的國家法律、法規和常見問題,對廣大員工和客戶開展宣傳教育,促使全社會知法懂法,逐步培養起主動抵制互聯網不良信息和協同治理的自覺意識。
傳統人工撥測方式效率低下、費時耗力,建立互聯網不良信息技術監測平臺,可實現高強度、大覆蓋面的自動掃描和識別發現,對提升治理效率意義重大?;ヂ摼W不良信息技術監測從組成上來說,核心部分主要是網頁數據采集和不良信息分析識別兩塊[4]。
5.2.1 網頁數據采集
互聯網不良信息網頁數據采集方面分為用于主動采集的網絡爬蟲技術和應用于被動檢測的DPI技術。前者在應用層通過HTTP協議進行信息采集,后者先在網絡層復制數據包,再采用DPI技術從中提取出相關內容信息。
(1)網絡爬蟲技術。網絡爬蟲技術是搜索引擎的核心技術之一,被谷歌、百度等互聯網公司廣泛采用,也是目前最主要的不良信息主動發現技術手段。
網絡爬蟲實際上是一個自動提取網頁內容的程序。它從網站首頁開始收集網頁內容,并通過不斷抓取網頁上的URL鏈接,逐層深入次級網頁,進而實現對整個網站所有頁面的內容搜集[5]。

圖2 網絡爬蟲技術的基本工作原理
(2)DPI技術。DPI即深度包檢測,也是一種常用的不良信息采集方式。通過鏡像操作實現對網絡流量抓取,再將抓取到的數據包進行拆包,進而提取出相關內容信息。DPI技術在分析包頭的基礎上,增加了對應用層的分析,能得到詳細內容。
5.2.2 不良信息分析識別
(1)傳統信息識別技術。傳統信息識別,主要是采用關鍵詞匹配技術,關鍵詞庫則是通過長期運營不斷積累從而變得豐富。在實施信息識別時,若發現文本中出現關鍵詞,則認為該文本屬于不良信息,若文本中沒有出現關鍵詞,則認為該文本不屬于不良信息。關鍵詞匹配在技術實現上較為簡單,但由于漢語的語言特性,上下文語義與關鍵詞本意不一致時,關鍵詞匹配會導致較高誤判率。另外,通過同音字替換、關鍵詞變形等,也容易規避匹配。
不良信息分析識別能力的提升,需要經過長期運營積累,通過對識別系統的不斷訓練,逐步提升覆蓋面和優化精準度(圖3)。從原理上講,對文本、圖像、視頻的不良信息識別是一樣的,但是,由于圖像、視頻需要經過特征表示、特征抽取、特征降維等多個額外數據處理環節才能提取出文字,這也導致圖像、視頻的識別精度不高。

圖3 不良信息分析識別能力訓練
AI內容檢測。相較于傳統關鍵詞匹配識別技術,AI機器學習在對文本識別時,會更側重于文本的語義信息,對于諧音詞、錯別字以及“黑話”等會有較大的容錯能力(圖4)。即使在沒有匹配到違規關鍵詞時,只要其文本語義帶有不良信息的特征,一樣也能被檢測出來。當然,AI機器學習也依賴于大量的樣本訓練,如果不良特征信息過少,AI機器學習模型仍需要傳統關鍵詞匹配技術來進行補充。

圖4 AI機器學習方案卷積神經網絡卷積操作示意圖
5.2.3 自主掃描監測平臺
本省互聯網不良信息監測系統主要分成三層:第一層是數據采集層,主要采集解析來自DNS和DPI的話單,識別出基礎數據;第二層是數據處理層,通過高性能數據處理引擎,進行網站狀態判斷、接入判斷、網站內容識別、信息內容監測及處置管理等;第三層是可視化呈現層,主要實現結果展示、任務派發、策略配置管理等(圖5)[6]。

圖5 系統結構與功能組成
經過不懈努力,省級基礎電信運營商在互聯網不良信息治理方面已經取得了長足進展,隨著技術監測平臺的上線,互聯網不良信息治理工作如虎添翼,大量包含不良內容的網頁、鏈接被揭露出來并得到整改。
圖6展示了筆者所在省從2020年6月-2021年12月所處置的不良信息網頁數量,從數據角度對治理成效作了直觀展現。

圖6 2020年6月-2021年12月本省自主發現并處置的互聯網不良信息網頁情況
在國家相關主管部門和集團公司的大力推動下,省級基礎電信運營商在互聯網不良信息治理方面成績斐然。但是,在具體治理實踐中,仍然存在很多困難,仍需要全社會通力協作,逐步加以解決。
5.4.1 網站基數龐大,網頁數規模持續快速增長
隨著互聯網的持續快速發展,我國網站和網頁數量也呈現出爆炸式增長。截至2021年12月,我國網站數量為418萬個,網頁數量為3350億個。海量網頁數據給內容撥測、監測設置了很高的門檻,基礎電信運營商必須投入大量算力和帶寬,才能盡量確保日常監測掃描的時效性。
5.4.2 監測技術需要持續完善
伴隨互聯網快速發展的,不僅只有網頁數量的激增,還有互聯網業務承載模式的不斷創新升級和迭代。從傳統網站到APP、公眾號、小程序,從靜態網頁到動態腳本網頁,從文本信息到圖文并茂、語音視頻相結合的富媒體,互聯網的呈現方式愈加多元化。
基礎電信運營持續開展互聯網不良信息治理的同時,違法犯罪分子也在不斷改變不良信息的呈現方式、不斷調整應對監測檢查的技術手段。不良信息內容、不良信息鏈接從顯眼位置向隱蔽位置轉移、從靜態內容向動態腳本轉移。當前的互聯網不良信息監測,已遠非傳統人海戰術、人工撥測所能解決,對已經部署的全自動技術監測手段也提出了更高要求。
5.4.3 治理工作并未形成合力
互聯網不良信息治理工作需要全社會群策群力,但就實踐而言,治理工作并未形成合力。在域名管理方面,由于域名注冊門檻很低,在日常處置實踐中,查處的不良網站通常使用稀奇古怪的域名。在客戶內部管理方面,由于對域名疏于管理,被不法分子搶注用于開設不良網站的情況時有發生,由于不重視網絡安全和內部人員管理,網絡“肉雞”情況也很常見。在技術廠家方面,由于經濟利益考慮,相互之間互相保密,形成技術壁壘。在國際協作方面,絕大部分不良網站開設在境外國家,無法予以根除??傊?,全社會未形成合力的例子林林總總,不勝枚舉。
網絡不是法外之地,網絡空間的健康發展需要所有參與主體的共同努力,任重而道遠。現階段,互聯網不良信息綜合治理中盡管還存在著種種問題,但隨著法律法規的不斷完善、監管監督職責的進一步明確、技術手段日益創新升級、國際合作的廣泛開展,我們有理由相信,全社會必定能夠搭建起良性互動的框架,共同打造自由便捷、綠色健康的互聯網。