張藝蘭,梁晶,喬亞男,馮雪昱
(四川大學計算機學院,成都610065)
隨著家庭網絡的普及,網吧經營變得艱難,由此部分網吧出現了接納未成年人上網等非法運營現象,這些黑網吧通常設施簡陋、隱蔽性強,吸引了大量未成年人、外來務工人員(流動人口)前往,這類人群受經濟、法律規定、家庭禁止等因素限制成為黑網吧的主要消費群體[1]。黑網吧的存在,一方面違反國家法律,另一方面嚴重危害未成年人身心健康、影響社會公共安全。為此,長期以來全國公安機關都在組織開展打擊黑網吧行動。然而,網吧數目巨大給執法部門的執法帶來困難,且現有的派遣專門人員挨個排查網吧的傳統執法方式耗時耗力,給了非法網吧規避查處的可趁之機。在這樣的情況下,一套能可視化的檢測和分析網吧非法運營行為的處理流程就很有必要性了。
網吧非法運營現象種類繁多,但這篇文章僅對網吧未成年人上網接納情況、流動人口上網行為分析、青年犯罪團伙檢測等幾類代表性的網吧非法運營行為進行分析研究,其他的網吧非法運營情況分析將會是將來的研究工作。
結合了相關部門的實際需求以及初步調研,本文確定了以下四個可視分析任務,分別是:
任務一,找出用于接納未成年人上網的成年人信息,并分析網吧未成年人上網接納情況。
任務二,檢測在網吧上網的流動人口,并分析其行為特點。
任務三,發現在網吧上網的青年犯罪團伙。
任務四,對網吧主要上網人群進行用戶畫像。
為了完成以上分析任務,本文提出了一套完整的、有效的可視化分析流程,能夠讓執法部門從網吧上網登記數據中識別不同上網人群,分析上網人群的時空行為特征,進行網吧非法上網行為、團伙上網行為的有效檢測[2],該分析流程有助于提高執法效率、維護社會治安,為打擊網吧非法運營行為領域提供了新的分析思路,該可視化分析流程的提出是本文的最大貢獻。
網吧非法運營行為可視化檢測分析流程主要分為三個階段,第一階段進行數據預處理工作,第二階段根據問題需求進行可視化方案的設計與實現,第三階段針對可視化結果進行分析總結。這三個階段是層層遞進的關系。
本文用到的數據是重慶市3000多個網吧的基本信息數據及2016年三個月約1600萬行上網記錄數據,數據大小為1.7GB[2]。其中,網吧的基本信息數據是公安機關備案的網吧開業時的基本信息,包括網吧編號、名稱、地理位置信息(經度、緯度)。網吧的上網記錄數據指客人來網吧上網時,網吧工作人員根據身份證等有效證件實名登記的上網人信息,包括上網人編號、網吧編號、姓名、性別、籍貫、出生日期、上線時間、下線時間。
原始數據中存在一定的異常數據,文章通過對網吧基本信息數據,以及總上網記錄數據量12%(上網記錄數據分17個子文件,隨機抽取了兩個子文件)的數據進行初步分析,發現了四類主要異常情況,如表1所示。

表1 數據異常類型表
為了避免異常數據對分析結果的干擾,在數據預處理環節對表1的數據重復問題進行了去重處理;對外鍵缺失問題,通過兩張數據表的數據連接,去除缺失外鍵的數據項;對其余兩類問題數據進行了刪除整行錯誤數據的處理。
為了增加數據的可解釋性、豐富語義,通過開源的全國行政區劃數據為原始數據增加籍貫地理信息屬性,即輸入網吧的位置經緯度,通過數據庫連接全國行政區劃數據表,輸出該網吧所處省市名稱。
預處理后的數據以CSV的格式存儲在MySQL[3]數據庫中。
根據確定的四個可視分析任務來設計可視化方案,并基于 D3.js[4]、ECharts[5]、Leaflet[6]、Node.js[7]等技術進行方案實現。本文設計的可視化方案能清晰簡潔地解決四個可視分析任務所對應的問題,能幫助公安部門快速分析網吧運營行為,發現已有的和潛在的存在非法運營行為的網吧,是可視化技術在實際應用領域的一次良好運用。
根據統計發現,1600多萬條上網記錄中同一個上網人編號出現兩次及以上的人數共計190萬條,因此利用條件篩選得到非法網吧共計2289個,非法使用的成年人信息約86萬。本文通過散點地圖,日歷熱力圖與地區圖說明未成年人的上網接納情況。
首先通過散點地圖呈現非法網吧的地理位置分布情況,如圖1所示,一個藍點表示一個非法網吧。點擊某一網吧顯示該網吧名稱以及所接納未成年人人數信息。從圖1中明顯看出非法網吧存在群聚現象,因此推斷該區域可能由于監管不當導致未成年人上網現象泛濫。

圖1 接納未成年人的網吧散點地圖
日歷-熱力圖表示不同時間粒度(日,周,月)下所有網吧接收未成年人上網的人次情況,如圖2所示。方格表示具體的某一天,圓圈大小表示人次的多少,并且以顏色加深和波紋效果表示人次最多的12天。圖2表明在月粒度下,11月份未成年人上網次數較其他月份較多,推斷這一時期可能正值期中考試結束,學業壓力較小。

圖2 所有網吧未成年人上網人次統計熱力圖
最后通過地區圖展示所有非法成年人身份證信息歸屬地情況,如圖3所示,顏色深淺表示非法成年人身份證歸屬地人數,餅圖表示男女比例。圖3顯示非法成年人身份證大多來自于重慶市的相鄰省份,例如四川省、湖南省。因此重慶市公安人員可以與相鄰省份合作,共同打擊網吧非法使用成年人信息的現象。

圖3 非法使用的成年人籍貫信息地區圖
流動人口是指籍貫不在給定城市的人。本文用到的網吧數據是重慶市的,重慶市的籍貫編號前兩位是50,因此將上網記錄信息表中上網人籍貫編號(AreaID)非50的上網人初步確定為流動人口。但是在得到初步數據之后,發現數據中仍然存在屬于重慶市的人口。按照國家制定的籍貫歸屬表,50代表重慶市,但是因為重慶市曾經歸屬于四川省,籍貫編號為5102的人口也屬于重慶市人口。因此進一步將篩選條件修改為AreaID非50及非5102的上網人確定為流動人口。
根據篩選條件(上網人籍貫編號非50以及非5102)獲得上網記錄信息表中流動人口列表,網吧中流動人口比例高達88%。通過地區圖,熱力圖與柱狀圖展示流動人口行為特點。
首先以中國地區圖和各個省地區圖表示網吧流動人口數量,顏色深淺表示省或者市的流動人口數量。如圖4所示,流動人口的籍貫與地理位置,省自身經濟發展狀況相關。例如湖北省、貴州省在地理上與重慶市的距離相差不大,但是貴州省的流動人口是湖北省的兩倍左右,因此可以推斷是因為貴州省發展相對緩慢閉塞,所以更多的人選擇外出打工。
為了觀察流動人口的上網時段情況,本文選擇了柱狀圖,如圖5所示。橫軸表示一天的24個小時,縱軸表示對應的流動人口數量。從上網時段上來看,高峰期分別在11點與19點。由此推斷,部分流動人口可能存在失業或者工作時間不穩定的情況,因此選擇中午上網,然后大約在19點以后陸續離開網吧,開始工作。同時流動人口中也存在一般的上班族,主要是下班后進入網吧,從而解釋了柱狀圖中19點的頂峰現象。

圖4 網吧流動人口籍貫信息地區圖

圖5 上網時間段與上網人數柱狀圖
最后通過熱力圖展示流動人口的上網時長與年齡特點,如圖6所示。其中橫軸表示上網時長,縱軸表示年齡,顏色深淺表示對應條件下的流動人口數量。圖6說明流動人口中18-35歲的人群是主力軍,大部分流動人口的上網時長集中在4-8小時,此外隨著年齡增大,上網人數也呈遞減趨勢。

圖6 與上網時長、年齡相關的上網人數熱力圖
《聯合國打擊跨國有組織犯罪公約》[8]將3人或多人視作一個團伙,因此本文將網吧中社團定義為人數超過兩人,且成員之間的上下線時間接近的集合。本文將上下線時間差小于5分鐘的上網記錄,人數大于2的集合確定為一個社團,并且通過可縮放的圓形打包圖表示網吧的社團分布情況,如圖7所示,其中最大圓表示一個網吧,次大圓聚集相同人數的社團,最小圓表示一個上網人。

圖7 網吧社團可放縮圓形打包圖
通過選取多個網吧查看其社團情況,發現單個社團人數一般不超過10人。網吧社團個數不定,個別網吧的社團個數偏多,可達200-300個,而且大型社團(8人以上)的個數比一般網吧多。進一步結合地圖發現此類網吧一般分布在網吧聚集程度較為密集的區域,可以推斷由于這些區域上網人數較多,因此更容易形成社團。
主要針對三類代表性網吧用戶描述其用戶畫像:未成年人、流動人口及網吧社團。網吧未成年人具有地理傾向性和上網時間周期性。根據接納未成年人的網吧群聚現象推斷未成年人是有選擇行的去某一區域上網;在上網時間周期性上,未成人上網的高峰時期是節假日、正常教學周的休息日以及考試剛結束時期。流動人口在網吧上網總人數所占比例高達88%,大多來自于鄰接省市,并且呈現低齡性,多為18-35歲的青壯年。流動人口具有上網時間周期性,主要集中在中午11點及晚上18點之后,且平均時長為4-5小時。網吧社團以3-4人的社團最為常見,其人數與地域也存在一定關系,總數超過5人以上的社團所在的網吧一般存在于網吧分布較密集的區域。
根據本文所設計及實現的可視化分析方案,在非法網吧搜尋與整治方面,可以通過網吧散點地圖找出網吧密集區域,對大量網吧群聚區域進行重點治理。此外,還可以根據未成年人上網行為特征,對未成年人上網集中時段做針對性監管等。流動人口是犯罪的高發人群,通過流動人口的上網時間特性可以幫助公安集中關注并嚴格審查流動人口較為密集的、流動人口出現的高峰時段。并且建議重點關注18-25歲的上網人群。在網吧犯罪團伙刑偵與預防方面,建議定期檢查整治網吧密集區域,預防大型犯罪團伙的形成;同時建議結合上網上下線時間和籍貫信息綜合判斷3-4人社團中的犯罪團伙難度。
本文基于可視化對網吧上網記錄進行分析,提出了一套系統性的可視化檢測分析網吧非法運營行為的處理流程,能有效提高公安部門查處非法網吧的執法效率,也能進一步分析前往網吧上網的未成年人、流動人口及青年犯罪團伙的時空行為特征,具有較大實際意義。