999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡詐騙信息垂直搜索引擎的設計與實現

2017-12-08 03:16:26傅澤田
計算機應用與軟件 2017年11期
關鍵詞:信息

胡 亮 傅澤田

1(江西警察學院 江西 南昌 330000) 2(中國農業大學 北京 100084)

網絡詐騙信息垂直搜索引擎的設計與實現

胡 亮1傅澤田2

1(江西警察學院 江西 南昌 330000)2(中國農業大學 北京 100084)

針對國內網絡詐騙中犯罪人與受害人的信息不對稱問題,基于主題信息采集與信息過濾技術,構建一個基于垂直搜索引擎技術的網絡詐騙信息檢索與輿情預警服務平臺IFI-TSE(Internet Fraud Information Topic Search Engine)。測試結果表明,相對傳統的通用搜索引擎,在檢索詐騙信息方面該平臺的平均檢索準確率達到了比較高的水平。同時個性化檢索可以為用戶提供一定程度的預警信息,不僅可以為公共用戶提供高效的網絡詐騙數據檢索,而且還可以通過統計分析網絡詐騙大數據挖掘其包含的詐騙行為過程,為社會安全管理部門提供網絡詐騙輿情預警報告。

網絡詐騙 垂直搜索引擎 信息檢索 信息過濾

0 引 言

網絡詐騙是以非法占有為目的,利用互聯網采用虛擬事實或者隱瞞事實真相的方法,騙取數額較大的財物的行為[1]。網絡詐騙是當前網絡犯罪的主要表現形式,并呈現出組織形式集團化、作案手法黑客化、危害程度劇增化、波及群體擴大化、涉及范圍大眾化的特點。2013年根據中國互聯網絡信息中心的研究報告數據統計,網絡詐騙等產業估計有160萬人從業者,涉及詐騙金額超過1 100億元,在過去半年內有將近4.38億的中國網民遇到過網絡詐騙問題[2-3]。中國電子商務協會發布的《2012年中國網站可信驗證行業發展報告》顯示,中國網民總數達到5.13億,在有網購經歷的網民中,31.8%曾直接遭遇詐騙網站,每年因網絡詐騙造成的損失不低于308億元[4]。可見,在當前網絡普及發展的背景,在國內網絡詐騙犯罪日益嚴重,給國家與社會造成了巨大的損失,嚴重損害了人民群眾的利益,極大地降低了網絡誠信度,社會危害性極大。

網絡有其自身的特性,比如網絡開放的平等性、管理方式的非中心性、信息傳輸的即時性與不確定性、時空的壓縮性等,其體系的復雜性展也導致了網絡詐騙的形式越來越多,越來越復雜。因此,有必要對網絡詐騙犯進行認真的分析研究,歸納其方法與特點,找出防范與打擊網絡詐騙犯罪的對策。據研究發現,網絡詐騙犯罪中犯罪人與受害人知識不對稱因素是網絡詐騙得逞的重要因素之一[1,3]。網絡詐騙犯罪人具有好逸惡勞、貪得無厭、冒險僥幸等心理,但同時他們的知識水平較高、創新學習能力強,對計算機與網絡的特性了解比較全面,具有很強的計算機與網絡技術能力。他們所設計的具有較高技術含量的詐騙活動使相對缺乏計算機基礎知識與互聯網技術的人極容易受騙上當。而在受害人中一部分是年紀較小、涉世未深的網民,由于社會經驗少而極易受騙。另一部分人是老年人,他們對新生事物缺乏了解,容易受到犯罪分子的蒙騙而落入網絡詐騙的陷阱[6-7]。

從現有的文獻分析,網絡詐騙預防方法的研究主要集中在以下幾個方面:

(1) 立法角度:對于網絡詐騙等網絡犯罪,國外都有相應的法律規定,或獨立立法,或在刑法中規定單獨的篇章。比如:美國制定的《反計算機詐騙和濫用法案》;法國1993年的《刑法》就有了有關計算機犯罪的規定。在國內,針對我國現有的法律,結合網絡詐騙的特征,借鑒國外經驗來完善網絡立法,不僅有助于打擊犯罪,也是網絡詐騙司法預防的基礎[9]。在刑法條文中規定專門的網絡詐騙罪罪名,作為新的一章,將關于利用金融信用卡詐騙犯罪、利用計算機系統犯罪及合同詐騙罪等均以網絡為工具但犯罪客體有所差異的犯罪形式規定于網絡犯罪,從而較好地梳理網絡犯罪的定罪量刑體系。2001年11月23日,為加強反網絡犯罪的國際合作,美日及歐盟正式通過了全球第一個國際性的《網絡犯罪公約》。公約在犯罪主體和犯罪管轄、證據收集保護等方面作了規定,這對我國相關法律的修改與制定有一定的參考價值[6]。

(2) 執法角度:1992年,為打擊網絡詐騙,美國建立了《網絡欺詐動議》,其采取了兩大司法舉措:一是采取聯邦犯罪訴訟,二是采取因特網欺詐創制舉措與因特網欺詐投訴中心[7]。其實質就是國家綜合打擊網絡詐騙,通過建立專門的受理機構處理案件,培訓專門的偵查人員調查案件,專門的人員負責分析犯罪,制定預防措施等。而我國采取了是建立專門的機構與培訓專門的人員處理案件,地方與中央的聯手打擊網絡詐騙的機制。

(3) 社會角度:這方面主要是研究各行業共同反詐騙的社會聯動機制[8]。2013年6月25日,阿里巴巴曾與騰訊、百度、新浪、亞馬遜中國等21家互聯網企業在公安部指導下,發起成立“互聯網反欺詐委員會”,形成電子商務生態圈“聯防聯打”的戰略合作框架。2013年12月26日,騰訊公司聯合廣東省公安廳、中國互聯網協會、銀監局、銀行協會、三大運用商、世紀佳緣、去哪網等政府組織、企業共同發起了國內首個反信息詐騙聯盟,旨在動員社會力量共同參與。

(4) 技術角度:這方面研究主要利用信息技術構建網絡詐騙輿情數據庫,通過數據分析為用戶提供預警支持[4]。2001年美國聯邦貿易委員會(FTC)設計了一種偵察與打擊網上詐騙的工具,與12個國家合作建立一個統一的數據庫,將各種詐騙信息匯聚在數據庫,并采取相關措施防止消費者再成為類似詐騙活動的受害者。它一方面可以為司法機關破案提供線索, 另一方面可最大程度地讓網民免于被騙。根據這些國家達成的協議,各國的執法部門均可以通過登陸一個設有密碼的統一網站進入上述數據庫,獲取相關信息。在國內,2011年,騰訊、百度、金山聯合宣布共建中國最大的反欺詐網址數據庫,為用戶提供虛假網購信息的檢索服務。

本研究從網絡詐騙犯罪中犯罪人與受害人知識不對稱的角度出發,以網絡詐騙信息資源為研究對象,利用數據采集與抽取技術構建跨平臺、跨機構的大型網絡詐騙輿情數據庫,擬研究實現一個基于垂直搜索引擎技術的網絡反詐騙輿情數據檢索與預警服務平臺。本研究不僅考慮在從理論角度上體現學術價值意義,而且在技術模式上要有所突破,實現一個高性能、可靠性、可用性與行業標準化的網絡反詐騙輿情數據庫及檢索平臺。未來將通過與相關的項目來推廣研究成果,使得其應用價值得到充分體現。研究成果將不僅可以為公共用戶提供網絡詐騙輿情數據檢索,披露網絡詐騙犯罪的新形式,降低用戶被詐騙的風險,增強安全性,使公眾在虛擬的網絡空間中,對詐騙分子在網絡上設置的陷阱保持高度警惕,以增強其自我保護的意識、能力與水平,而且還可以通過統計分析大規模的詐騙輿情數據挖掘其包含的詐騙行為過程,為公安等社會安全管理部門提供精確細致的網絡詐騙輿情分析報告與輔助決策支持,借以提高預防詐騙犯罪的工作效率。

1 系統架構與關鍵技術研究

IFI-TES是從互聯網上采集網站詐騙相關主題的網頁,存儲到索引文件,通過檢索接口為用戶提供網絡詐騙輿情信息服務。其系統架構主要包含信息采集、信息抽取、文件索引與信息檢索等模塊,如圖1所示。

圖1 IFI-TSE系統架構圖

1.1 網絡詐騙數據來源與采集技術

由于網絡詐騙信息數量較大,數據常在某個季節產生爆發式增長,具有季節性與暴發性等特點,造成了信息量在一些節點突增與區域性集中的現象。對網絡詐騙信息的采集工作帶來了壓力與困難,是網絡詐騙信息采集時需要考慮的重要因素。網絡詐騙信息最主要的來源是媒體報道的網絡詐騙新聞(Datat.IFN)以及網絡詐騙投訴相關信息(Data.IFC),其次是公安系統網絡詐騙輿情數據庫(Data.IFPD)[3-5],具體見表1。

表1 網絡詐騙數據來源對比

據估計,媒體報道的網絡詐騙新聞數據量大約300萬數量級左右,網絡詐騙投訴相關信息就更多了。根據模型預測大概在800萬數量級,公安系統網絡詐騙輿情數據庫數據量約150萬數量級左右,其他還有一些數據來自一些公益打假網站,估計數量大概100萬數量級左右。如圖 2所示。

圖2 網絡詐騙數據來源

從網絡詐騙輿情數據所屬的省份來看,地域分布不均衡,網絡詐騙輿情數據分布與地域顯著相關,其中北京、上海、廣州、浙江、江蘇等東部沿海地區經濟富裕、網絡建設發達,網絡詐騙輿情數據量明顯偏高。而經濟落后的西部地區網絡詐騙輿情數據量相對偏少。

1) 媒體報道的網絡詐騙新聞(Datat.IFN)

本研究要采集的媒體報道的網絡詐騙新聞數據是包含網絡詐騙信息的新聞網頁。首先選擇一些指定新聞網站作為初始URL入口,然后通過多線程技術采集網頁,同時提取出網頁包含的URL,添加到URL隊列,最后計算抓取新聞網頁與網絡詐騙樣本網頁的相關度,將高于設定閾值的網頁存儲到索引文件。

Step1將URL種子加入未抓取隊列Q(k1,k2,…,kn);

Step2如果未抓取隊列Q(k1,k2,…,kn)不為空則建立網頁抓取線程,否則跳至Step 6;

Step3如果網頁未抓取則采集網頁,將網頁URL添加到已抓取隊列;

Step4對網頁進行過濾,刪除無關的HTML標簽等干擾數據;

Step5提取網頁中包含的URL,加入未抓取隊列Q(k1,k2,…,kn),跳至Step 1;

Step6退出線程。

2) 網絡詐騙投訴相關信息(Data.IFC)

這部分數據主要是一些專業投訴網站,其中包括官方性質與個人性質的網站,考慮數據質量與可靠性,針對這兩種類型網站分別賦予不同的采集策略。相對來說,官方背景的投訴網站可信度更高,因此在本研究中基本全部采集,而個人主辦的投訴網站,采集策略則根據其網站的網站創辦時間Y與訪問量T來考慮。網站創辦時間越久與訪問量越大的網站則認為公眾參與度與可信度越高,其中可信度R計算公式如下:

(1)

3) 公安系統網絡詐騙輿情數據庫(Data.IFPD)

公安系統網絡詐騙輿情數據庫由于是由各公安分局建設的,雖然部署的數據庫系統與數據結構不完全相同,但基本上都是已經加工處理的結構化數據。信息通常包含詐騙主客體、詐騙日期、詐騙工具、詐騙流程及一些屬性描述。與一般網頁存在著明顯的不同,不需要經過信息過濾,所以采集的時候主要考慮平臺的異構性與兼容性,本研究利用XML數據接口從各種不同數據庫中采集數據。

1.2 特定主題詐騙信息過濾與抽取技術

由于采集的網絡詐騙網頁數據源來自不同的領域,其中公安系統網絡詐騙輿情數據庫(Data.IFPD)是結構化的數據不需要再提煉處理,而媒體報道的網絡詐騙新聞(Data.IFN)與網絡詐騙投訴相關信息(Data.IFC)是無固定數據結構的網頁文本,其半結構化的內容不便于用戶檢索。因此需要將這兩類采集的網絡詐騙主題網頁進一步處理,提取其包含的結構化信息。這樣不僅能提高平臺的檢索性能,而且改進平臺的檢索精度,需要對過濾與抽取技術進行專門的分析優化,加強對一些無關詞篩選、凈化、消重,進一步提高抽取效率,為下一步索引查詢創造條件[16,18]。

對于網絡詐騙投訴相關信息(Data.IFC)來說,由于網站性質已經決定了其數據就是網絡詐騙主題的,所以采集時不需要計算網頁文本與網絡詐騙的主題相關度,在數據處理時只需要抽取結構化數據。

對于媒體報道的網絡詐騙新聞(Data.IFN)來說,由于是從各個不同的新聞網站采集,既包含網絡詐騙主題的新聞,也包括非詐騙主題的新聞,因此在信息抽取前需要對新聞文本進行主題判斷計算,過濾非詐騙主題的新聞。針對媒體報道的網絡詐騙新聞(Data.IFN)的數據特點,本文提出一種網絡詐騙信息抽取模型,如圖3所示。

圖3 網絡詐騙信息抽取模型

首先用語義標注樣本集{F1,F2,…,Fn}的網頁附加屬性,計算已標注的樣本集網頁之間的相似度D(Fi,Fj)。然后將樣本集的網頁聚類為不同類別,利用正則表達式在同一類別中的網頁構建具有最大相似性的網頁結構作為網絡詐騙信息抽取模版。本研究采用類似文檔對象模型DOM的層次結構表示網頁信息,CONTENT表示需提取的數據,NODE等表示結點,分為P結點、DIV/SPAN節點與TABLE結點,記為LIST(x),表示多個x結點的集合。如圖4所示。

圖4 網頁層次結構

包裝器Wrapper是一種基于規則的信息抽取方法,易于構建,精度較高,適于半結構化的文本。而本文研究的網絡詐騙信息包括Data.IFN、Data.IFC與Data.IFPD三類,主題都比較集中,Data.IFN是半結構化的數據類型,Data.IFC是介于半結構化與完全結構化之間的數據類型,Data.IFPD則是完全結構化的數據類型。因此本文研究利用Wrapper來構建網絡詐騙信息抽取算法。在包裝器Wrapper實現過程中,網頁的相似度采用歐氏距離,計算公式如下:

(2)

定義1

表達式是由泛化標記、類正則表達式標記或邏輯開關標記組成的字符串,本研究用[0-9]、[A-Z]、[a-z]、[u4e00-u9fa5]分別表示HTML中數字標記、小寫字母的文本、大寫字母、漢字的文本的泛化標記。

定義2

設表達式字符串Re=Str1NodeStr2,若表達式Re的不包含開關/r,則Re匹配Str1是指匹配標記在Str1中按順序出現不重復。對表達式Re=s1s2…sk,記O={(s1’s2’…sk’)|sj’=sj∨sj’=*∨sj’,j=1,2,…,k},設p1∈O1,p2∈O2,p1=s11s21…sk1,p2=s12s22…sk2,則p=p1+p2={s1’s2’…sk’|sj’=sj1+s2,j=1,2,…,k}。

定義3

設表達式字符串Re=Str1NodeStr2的表達式空間為RΩ,s1=p1/r∈RΩ,s2=p2/r∈RΩ,其中p1與p2∈O,則s=s1+s2=(p1+p2)/r。

若表達式字符串Re識別Str1的子結點node,且Re與Str1∪Str2無關,則稱R為S的表達式集R={r1,r2,…,rk},其中ri是S的子表達式。

定義4

設S包含n個子結點node1,node2,…,noden,如果nodei存在表達式集R,則對nodej從子表達式r1,r2,…,rn中查找,若存在ri包含匹配的子表達式,則匹配的位置是nodei的開始位置psj。

定義5

設r1,r2,…,rn分別為node1,node2,…,noden的表達式集,ps1,ps2,…,psn分別為node1,node2,…,noden的位置集,則Wrapper定義為{,,…,}。

構建Wrapper的算法具體實現:創建列表List(i,j),查找最近的父標簽節點Node(k),遍歷Node(k)中的子節點,遞歸調用查找節點n(k,j);如果節點n(k,j)與T中的特征模式匹配,則產生抽取結果集R;如果List(i,j)為空或者List(i,j)不為空而且List(i,j)不包含R,則將R加入列表List(i,j);如果i>1,則繼續遍歷,否則算法結束。具體流程如圖5所示。

圖5 信息抽取算法流程圖

1.3 基于K-NN的網絡詐騙信息自動分類模型

對于媒體報道的網絡詐騙新聞(Data.IFN)、網絡詐騙投訴相關信息(Data.IFC)與公安系統網絡詐騙輿情數據庫(Data.IFPD)網頁經過信息抽取后的數據雖然基本上都屬于網絡詐騙相關的主題,但網絡詐騙的種類比較多,而且數據來源也比較復雜,檢索結果會比較亂,不方便用戶高效地查找所需的信息。所以有必要對信息抽取的數據進行分類,提高用戶檢索效率,分類模型結構如圖 6所示。

圖6 分類模型結構圖

分類算法是文檔分類的關鍵部分,由于本文的分類對象是集中于網絡詐騙主題的網頁,數據領域性較強,而且網頁主題區分度也較高,所以本文采用了K近鄰算法來實現分類。K近鄰算法的原理是將文本提取關鍵詞構成向量,計算待分類文本向量與樣本集里文本類的歐式距離,選出其中最近的K個向量。然后找出K個近鄰所屬類別的多數向量,從而獲得待分類文本的類別。設樣本集{F1,F2,…,Fn},對于每個文本Fi表示成向量的形式(w1i,w2i, …,wki),其中wki是第i個文本的第k個特征,在K近鄰算法中使用信息增益來作為特征選擇標準,特征頻率與反向文檔頻率作為權值函數,余弦函數作為向量相似度度量,則計算公式如下:

(3)

分類算法具體實現如下:

Step1構造一個訓練樣本集的相似度矩陣,設置未分類標記向量Tag(k1,k2,…,kn);

Step2對每個未分類樣本,獲得的所有鄰居里找到它的全局鄰居Ni,構造表達式{S(di),N(di),R(di)},將Ni包含的樣本添加為已分類;

Step3重復Step1與Step2,直到所有樣本都被設置為已分類;

Step4對待分類文本dt,如果Δ(di,dj)≥S(dj),則將Δ(di,dj)t添加到Class(dj),則Class(dj)=Class(dj)+Δ(di,dj);

Step5如果Class(p)={Class(di)|i=1,2,…,k},則將dt分類到p。

1.4 基于查詢日志的詐騙信息個性化檢索技術

在檢索過程中用戶一般難以給出準確的關鍵詞或者拼寫錯誤,比如“沖值”與“充值”、“匯款”與“回款”、“賬號”與“帳號”、“登陸”與“登錄”等,傳統可以通過詞典的方式解決,但是該方式需要手動添加新詞,不能自動校對新詞的拼寫錯誤。為了解決這個問題,考慮從用戶檢索詞歷史紀錄中尋找新詞,設有檢索詞word1,word2,…,wordn,每個檢索詞的查詢次數為search_count1,search_count2,…,search_countn,將word1,word2,…,wordn按檢索詞的查詢次數排序。通過統計拼寫錯誤檢索詞,可以看出高頻檢索詞很少有拼寫錯誤,拼寫錯誤詞一般都是低頻檢索詞,而這些低頻檢索詞經常可以在用戶檢索詞歷史紀錄里找到拼寫正確的高頻檢索詞,以檢索詞查詢次數為X軸,以檢索詞拼寫錯誤率為Y軸。如圖 7所示。這表明可以考慮利用檢索詞歷史紀錄的錯誤率低的高頻檢索詞與錯誤率高的低頻檢索詞之間的編輯距離來實現糾錯。

圖7 檢索詞查詢次數與拼寫錯誤率的關系

雖然可以考慮用高頻檢索詞來糾正拼寫錯誤,但這要求高頻檢索詞數量不能太多而影響系統性能,為此對高頻檢索詞進行統計,將檢索詞根據查詢次數排列同時按順序編號,以檢索詞編號為X軸,以檢索詞查詢次數為Y軸。如圖 8所示。從圖中可以看出高頻檢索詞雖然比例不高,但查詢總次數卻超過了80%,這表明可以從高頻檢索詞中尋找新詞是可行的,不僅可以糾正拼寫錯誤的檢索詞而且可以解決新詞自動添加問題。

圖8 關鍵詞檢索頻率對比

另外,用戶通過信息檢索接口輸入需要查詢的關鍵詞,系統從數據庫中檢索正文以及附加屬性中包含關鍵詞的網頁。然后利用排序算法對檢索結果計算進行排序,再將排序結果返回給用戶。由于本平臺的網絡詐騙信息都是經過信息抽取后的數據,其精度要明顯高于未經處理的半結構化網頁,考慮的排序算法更偏重于性能。所以本文采用TF*IDF算法用于排序,優點是簡單快速,其中TF是指某一關鍵詞在一個網頁中出現的頻率,IDF是指包含該關鍵詞的網頁數,則計算公式如下:

(4)

2 性能測試與評估

2.1 網絡詐騙信息采集

由于網絡詐騙信息數據在網絡上比較分散,本文設計了分布式采集,將收集的媒體報道的網絡詐騙新聞(Data.INF)與網絡詐騙投訴相關信息(Data.IFC)網站存儲在中央服務器的URL隊列。將所有域名解析IP按地理位置分組,每個省行政區一組,共34個省級行政區域,包括23個省,5個自治區,4個直轄市,以及香港、澳門2個特別行政區。系統網絡架構如圖9所示。

圖9 系統網絡架構圖

由于資源限制,我們只有5臺服務器(1臺中央服務器Central Server+4臺數據采集服務器Data Server),中央服務器不采集數據,因此,每臺數據采集服務器平均要負責8組URL隊列。

為設計系統達到較好的負載平衡,本文使用表 2分配站點地址給每個數據采集服務器,將單位時間采集的網頁數作為評價指標。如果每個數據采集服務器在相同的時間內采集的網頁數接近,則表示系統的負載平衡比較好。如圖 10所示。

表2 數據采集區域

圖10 系統負載平衡測試

可以看出,4個數據采集服務器DS01-DS04在每次數據采集測試中收集的網頁數量都比較接近,基本達到了本平臺負載平衡的設計要求。在此基礎上,對500個網站抓取了3 503 029個網頁,其中媒體報道的網絡詐騙新聞(Data.INF)數據源網站115個與網絡詐騙投訴相關信息(Data.IFC)數據源網站385個。然后利用網絡詐騙詞典庫IFD(Internet Fraud Dictionary)計算每個網頁的詐騙主題相關度,從中篩選出與網絡詐騙高度相關的1 873 528個網頁。詳見表3。

表3 Data.INF與Data.IFC網站測試數據

2.2 網絡詐騙信息抽取

由于采集的網頁數量高達百萬級,全部手工標注后測試信息抽取算法的性能不太現實,因此從這些包含網絡詐騙信息的網頁中隨機選取了500、1 000、2 000、5 000、10 000個頁面(其中Data.INF與Data.IFC類型網頁各50%,而Data.IFPD類型網頁已經是結構化數據不需要信息抽取)作為將作為信息抽取測試數據集,對網頁進行過濾與刪除干擾項。然后抽取網頁中包含的詐騙標題(IF.Title)、詐騙主客體(IF.Object)、詐騙工具(IF.Tool,包括手機、QQ、微信號、郵箱、URL等)、詐騙內容(IF.Content)與詐騙日期(IF.Date)等屬性。如表 4所示。在歸納學習中,各種類型文本都可以泛化為相應的泛化標記,如手機號可以用”1[1-9][1-9][0-9]{8}”來表示,電子郵箱可以用”[a-z]+@[a-z]+(.[a-z]*)*”來表示,日期可以用”[1-9][0-9]{3}-[0-9]{1,2}-[0-9]{1,2}”或”[1-9][0-9]{3}年[0-9]{1,2}月”來表示,”2016年5月江蘇高郵警方破獲新型刷單網絡詐騙案”可以用”([1-9][0-9]{3}年[0-9]{1,2}月)([u4e00-u9fa5]+)破獲([u4e00-u9fa5]*)網絡詐騙案”來表示,從父節點中提取各個子節點,關鍵是獲得子節點在父節點中開始與結束識別規則。

表4 網絡詐騙信息抽取表格模板

本文采用召回率與精度作為網絡詐騙信息抽取模型的評價標準,RE表示召回率,PE表示精度,t1表示所有抽取出的正確信息數,t2表示沒有抽取出的正確信息數,f表示抽取出的錯誤信息數,則計算公式如下:

(5)

其中:PE與RE存在反比關系,若PE增大時RE會減小,而PE減小時RE會增大。因此,在評價性能時會同時考慮PE與RE,比較常用的指標為F:

(6)

在測試性能時,對500個網站抓取網頁,將包含網絡詐騙信息的網頁作為測試樣本集,對網頁進行標注后聚類,每類提取一個抽取模版。然后抽取網頁中包含的詐騙主客體與詐騙日期等屬性。雖然測試樣本集數越高有利于精度,但是對系統性能影響卻很大,因此有必要在不顯著降低系統性能的前提下,配置最優的測試樣本集數。為了研究樣本頁在PE與RE的數量的影響,在10萬、20萬、30萬、40萬、50萬的測試樣本集條件下測試了PE與RE。測試結果如圖 11所示。

圖11 網站詐騙信息抽取效果對比

可以看出,算法的信息回收率與精度都比較好,平均都在0.8以上,隨著測試樣本集的網頁增加,雖然召回率與精度也同時增加,但在測試樣本網頁達到一定值后精度卻降低了,這表明測試樣本網頁不是越多越好。從測試結果看本平臺測試樣本集網頁的數量設置在30萬左右,可以實現良好的平衡。本文利用PHP腳本實現詐騙信息抽取算法,然后對5組網頁集進行測試。如圖 12所示??梢钥闯?,本文算法的召回率與精度都比較高,而且F值也比較高,這主要因為相對通用信息抽取來說,網絡詐騙信息包含的主題詞具有高度集中的特點。

圖12 網絡詐騙信息抽取測試

在信息抽取算法性能方面,本文利用總時間與平均時間作為評價系統性能可擴展性的指標,如表5所示。由于硬件條件限制,本文測試了8臺節點(普通PC機,非服務器,Intel i5 2.4 GB CPU/4 GB內存/1 TB機械硬盤/Windows Server 2003公安專用版),可以看出,隨著節點數的增加,系統對頁面的處理時間與加速比都接近線性增長,但在超過4個節點后加速比放緩。

表5 系統性能的可擴展性測試

2.3 網絡詐騙信息分類

首先刪除虛詞與數詞等干擾詞,利用詞典進行語義擴展,構建文本向量,然后計算文本向量與樣本集的歐氏距離,選最近的K個向量確定分類,評價效果指標計算公式如下:

(7)

其中:P表示平均查準率,R表示平均查全率,T表示正確分類的文本向量,E表示錯誤分類文本向量,L表示未被分類文本向量,以樣本數為X軸,P或R為Y軸?;贙-NN算法的分類結果如圖13所示。

圖13 不同樣本的分類比較

2.4 網絡詐騙信息檢索

本文對檢索的效果進行了測試,選取與網絡詐騙相關的關鍵詞,通過系統檢索界面提交檢索,然后收集檢索結果,標注檢索正確的信息。由于網站詐騙領域的特殊性,其關鍵詞比較集中,而且用戶更注重檢索的精度,查全率對用戶來說重要性相對較低,所以本文只采用準確率P來評價系統檢索效果,則計算公式如下:

(8)

其中:NT表示檢索結果中正確的網頁數,NW表示檢索結果返回的網頁總數。測試結果如表6所示。

表6 不同關鍵詞檢索結果

可以看出,系統的檢索平均準確率為0.678,其中“詐騙”關鍵詞最高,這是由于該關鍵詞是網絡詐騙的普適詞,而且系統存儲的網頁基本上都是經過主題分類過的,只有極少一部份不相關的網頁才可能被系統采集錄入數據庫。而“到我辦公室來”關鍵詞的準確率也高達0.93,這是由該關鍵詞的特殊性決定的,因為該關鍵詞可以獨立標識出網頁的主題,只要出現該關鍵詞,在網絡詐騙數據庫中基本上都是“到我辦公室”詐騙模式。

3 結 語

本文網絡詐騙中犯罪人與受害人的信息不對稱問題,基于主題信息采集與信息過濾技術,構建了一個基于垂直搜索引擎技術的網絡詐騙信息檢索與輿情預警服務平臺。該平臺使得用戶不僅可以檢索網絡詐騙信息,而且能夠比較不同類型的詐騙手法與流行度,根據系統提供的決策支持信息對詐騙案件進行評估與預警,從而可以做到提高公安等部門的工作效率、降低成本,具有較重要的理論意義與實用價值。

[1] 王志紅. 論網絡詐騙犯罪[J]. 山西警官高等??茖W校學報, 2009,17(3):68-70.

[2] 陸旭. 論網絡詐騙罪及其預防措施[J]. 黑龍江省政法管理干部學院學報, 2012, 7(4):54-56.

[3] 呂巖. 網絡詐騙犯罪淺析[J]. 中共樂山市委黨校學報, 2013, 15(1):102-105.

[4] 楊燮蛟, 魏彬, 趙雪. 網絡詐騙現狀與預防體系的建構[J]. 行政與法, 2011, (8):55-60.

[5] 李玉德, 縱鑫. 關于網絡詐騙的法律思考[J]. 法制與社會, 2008, 12(36):115-115.

[6] 代永衛, 司志剛, 費華平. 基于數據倉庫的公安決策支持系統設計[J]. 微計算機信息, 2007, 23(6):179-180.

[7] 孫靜晶. 網絡詐騙案件偵查的情報合成作戰機制研究[J]. 鐵道警官高等專科學校學報, 2013, 23(4):31-34.

[8] 褚紅云. 當前網絡詐騙犯罪手法與特點研究[C]//中國犯罪學研究會第十三屆學術研討會論文集, 2004.

[9] 楊志勇. 網絡詐騙犯罪的特點及其打防對策[C]//全國計算機安全學術交流會論文集, 2008.

[10] David J. Stratified analysis of AOL query log[J].Information Sciences,2009,179:1844-1858.

[11] Jia Y. Design of an Application Model Based on Vertical Search Engine[C]//Second International Conference on Networking and Distributed Computing,2011:57-60.

[12] Lei Xiang. A Data Mining Approach to Topic-Specific Web Resource Discovery[C]//Second International Conference on Intelligent Computation Technology and Automation.2009, 2:595-599.

[13] Wang Chuan. An Architecture for Improving the Efficiency of Specialized Vertical Search Engine Based on GPGPUs[C]// Fourth International Conference on Genetic and Evolutionary Computing,2010:67-70.

[14] 劉暢. 綜合搜索引擎與垂直搜索引擎的比較研究[J].情報科學,2007,25(1):97-102.

[15] 季春,姜琴,吳錚悅. 垂直搜索引擎關鍵技術研究綜述[J]. 情報探索,2012(10):91-93.

[16] 王文鈞,李巍. 垂直搜索引擎的現狀與發展探究[J]. 情報科學,2010(3):477-480.

[17] 張俊,齊鵬,李冠宇. 基于本體的垂直搜索引擎分類索引模型設計[J]. 計算機工程與設計,2010,31(23):4999-5011.

[18] 呂林濤, 陳麗萍, 周紅芳. 面向垂直搜索引擎的主題提取算法[J].計算機工程, 2009, 35(15):44-46.

[19] 張倩. 教育信息垂直搜索引擎[D].長春:吉林大學,2012.

[20] 王梅文. 基于本體進行自動分類的元搜索引擎的設計與實現[J]. 現代圖書情報技術,2008(9):58-63.

DESIGNANDIMPLEMENTATIONOFINTERNETFRAUDINFORMATIONTOPICSEARCHENGINE

Hu Liang1Fu Zetian2

1(JiangXiPoliceCollege,Nanchang330000,Jiangxi,China)2(ChinaAgricultureUniversity,Beijing100084,China)

In order to solve the problem of asymmetric information crime and victims of domestic Internet fraud, this paper constructs an Internet fraud information topic search engine and public opinion early warning service platform based on the topic information collection and information filtering technology. The test results show that, compared with the traditional general search engine, the average retrieval accuracy of the platform has reached a relatively high level in the search of fraud information. The personalized retrieval can provide early warning information to some extent for the user. It can not only provide network fraud data efficient retrieval for public users, but also through statistical analysis of large data mining includes network fraud. Internet fraud report provides early warning of public opinion for the safety management department.

Internet fraud Topic search engine Information retrieval Information filtering

2016-08-31。國家自然科學基金項目(31271618);江西省教育廳科技項目(GJJ151193)。胡亮,講師,主研領域:信息檢索與信息系統。傅澤田,教授。

TP393

A

10.3969/j.issn.1000-386x.2017.11.055

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产熟睡乱子伦视频网站| 全午夜免费一级毛片| 亚洲成A人V欧美综合天堂| 激情综合网激情综合| 92午夜福利影院一区二区三区| 麻豆国产精品一二三在线观看| 日韩精品亚洲一区中文字幕| 午夜a级毛片| 日韩黄色精品| 国产成人亚洲精品蜜芽影院| 精品自窥自偷在线看| 美女被操91视频| 中文字幕在线免费看| 欧美精品一区在线看| 99人体免费视频| 国内精品91| 日韩免费毛片| 人妻中文久热无码丝袜| 久久一日本道色综合久久| 国产成人1024精品| 免费一级α片在线观看| 国产成人在线无码免费视频| 波多野结衣一区二区三视频| 欧美在线观看不卡| 亚洲欧美日韩中文字幕一区二区三区| 午夜激情婷婷| 国产丝袜第一页| 久久这里只有精品8| 97国产成人无码精品久久久| 亚洲国产成人无码AV在线影院L| 午夜欧美在线| 亚洲一区二区精品无码久久久| 精品99在线观看| 亚洲va欧美ⅴa国产va影院| 国产在线高清一级毛片| 91 九色视频丝袜| 亚洲视屏在线观看| 欧美激情成人网| 永久毛片在线播| 亚洲天堂久久| 青青草91视频| 国产主播喷水| 日韩国产 在线| 国产精品jizz在线观看软件| AV片亚洲国产男人的天堂| 999国内精品视频免费| 日本手机在线视频| 40岁成熟女人牲交片免费| 国产美女无遮挡免费视频| 国产a网站| 亚洲精品天堂在线观看| 视频一区亚洲| 青青青国产精品国产精品美女| 日本精品视频一区二区| 在线色综合| 91精品国产一区自在线拍| 国产激情无码一区二区三区免费| 国产丰满成熟女性性满足视频| 永久免费精品视频| 日韩少妇激情一区二区| 亚洲中文字幕97久久精品少妇| 成年看免费观看视频拍拍| 欧美成人免费午夜全| 亚洲一欧洲中文字幕在线| 91视频免费观看网站| 性欧美精品xxxx| 人妻无码中文字幕一区二区三区| 亚洲欧美一区二区三区麻豆| 无遮挡国产高潮视频免费观看| 老司机久久99久久精品播放| 成人国产小视频| 高潮毛片免费观看| 91在线精品麻豆欧美在线| 日本手机在线视频| 亚洲—日韩aV在线| 少妇极品熟妇人妻专区视频| 国产麻豆永久视频| 欧美成人一级| 成人福利视频网| 亚洲天堂网2014| 婷婷中文在线| 欧美区国产区|