面向網(wǎng)絡(luò)文本的信息可信度評估方法研究

2013-04-29 06:36:04李璐旸李渝勤劉挺秦兵王軒

智能計算機與應(yīng)用 2013年5期

李璐旸　李渝勤　劉挺　秦兵　王軒

摘要：隨著網(wǎng)絡(luò)信息的膨脹性增長，不可信的信息在網(wǎng)絡(luò)中日益增多，阻礙誤導(dǎo)用戶對可信信息的獲取。研究網(wǎng)絡(luò)文本的可信度評估方法，對句子級命題提取多維網(wǎng)絡(luò)分布特征，通過線性組合計算可信度值，從而判斷命題的可信度。在可信度評估過程中，文中方法通過詞語結(jié)構(gòu)特征提取可信信息的候選信息，并在候選信息的可信度計算中加入對信息源的可信度分析判斷，提高了信息可信度的評估準(zhǔn)確度。

關(guān)鍵詞：信息可信度；替換項；候選答案；可信度計算

中圖分類號：TP391 [KG*2]文獻(xiàn)標(biāo)識碼：A[KG*2][HT5”H]文章編號：2095-2163（2013）05-0031-05

0引言

網(wǎng)絡(luò)信息不斷膨脹。伴隨而來的問題是信息質(zhì)量的參差不齊，不實信息（如虛假信息、過時信息）極易誤導(dǎo)用戶的判斷。如何判斷信息的可信度，幫助用戶從海量信息中甄別出可信的信息，成為了當(dāng)今社會迫切需要研究解決的問題。

信息可信度，是指對于信息本身以及信息源的可信任程度[1]。人們是依賴眾多客觀因素、基于經(jīng)驗對信息的可信度做出邏輯判斷。上述判斷具體包括：對于信息質(zhì)量和精確度的客觀判斷，以及對于信息來源的可信賴性、信息專業(yè)權(quán)威性和信息吸引力的主觀感受[2]。本文結(jié)合人腦對信息可信度的邏輯判斷機理、針對網(wǎng)絡(luò)信息質(zhì)量所呈現(xiàn)的規(guī)律特點研究信息可信度的評估方法。

目前，網(wǎng)絡(luò)信息的質(zhì)量主要表現(xiàn)為以下規(guī)律：

（1）關(guān)于一個主題，不同信息源提供正確信息的內(nèi)容往往一致或近似；若提供的是有誤信息，則有誤之處各不相同。

（2）可信的信息源提供的信息多數(shù)是正確的，反之不盡然，正確信息的來源的可信度可能良莠不齊。

由此，認(rèn)為網(wǎng)絡(luò)中信息的可信度主要可以通過兩方面來評估：信息源的可信度、以及信息在網(wǎng)絡(luò)的分布特點。

基于以上思想，本文設(shè)計了一個面向網(wǎng)絡(luò)文本的信息可信度評估方法，借助兩層特征空間來評估信息的可信度，并通過提取可信信息候選集，為用戶提供高可信度的相關(guān)信息。其中，信息的第一層特征空間由信息源的特征構(gòu)成，用于判斷信息源的可信度；第二層特征空間由信息源可信度的分析結(jié)果以及信息在網(wǎng)絡(luò)的分布統(tǒng)計特征構(gòu)成，用于最終評估信息的可信度。

本文的主要研究內(nèi)容和創(chuàng)新點包括以下三方面：

（1）在提取可信信息的候選信息階段，通過詞語結(jié)構(gòu)過濾器來提取候選信息。提高了候選信息提取的準(zhǔn)確度。

（2）在信息可信性度計算階段，對信息的發(fā)出商業(yè)意圖是否明顯、更新信息是否及時、網(wǎng)站權(quán)威性等角度綜合考量信息源的可信度，進(jìn)而豐富了候選信息的特征空間。

（3）結(jié)合本文提出的評估方法，設(shè)計實現(xiàn)了基于中文搜索信息的信息可信度評估系統(tǒng)。系統(tǒng)在實驗中獲得89%的準(zhǔn)確度。

1相關(guān)工作

關(guān)于網(wǎng)絡(luò)信息的可信度評估方法研究，當(dāng)前已有的研究成果可以根據(jù)研究對象的信息承載形式的不同分為三類，具體分析如下：

第一類是對網(wǎng)狀結(jié)構(gòu)的網(wǎng)絡(luò)（如P2P網(wǎng)絡(luò)、語義網(wǎng)或社交網(wǎng)絡(luò)）所承載的信息的可信度評估方法研究。這一類研究主要探討的是某個節(jié)點在整個網(wǎng)絡(luò)中的可信度問題，以及如何自動辨別出哪些節(jié)點是不可信的，并將這些節(jié)點從網(wǎng)絡(luò)中剔除出去。常用的方法是信任值的傳播，這是針對網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計的方法，信任網(wǎng)絡(luò)常常得到使用。Kamvar提出了通過以往的表現(xiàn)（上傳歷史）來判斷P2P網(wǎng)絡(luò)中病毒來自哪一個匿名惡意的發(fā)送端[3]。Richardson在關(guān)于語義網(wǎng)的信任管理研究中提出，任何一個用戶保留一個他所信任的用戶集，利用信用網(wǎng)絡(luò)傳播信用值[4]。在社交網(wǎng)絡(luò)中用N維矩陣記錄信任和不信任信息，并通過網(wǎng)絡(luò)任意兩點間的信任信息矩陣計算傳播信任度[5]。

第二類是對群體智慧網(wǎng)站（如網(wǎng)上論壇和合作知識庫）所承載的信息的可信度評估方法研究。群體智慧網(wǎng)站的共同之處是用戶貢獻(xiàn)自己的信息到 Web上，集合了用戶的群體意見和集體智慧，因此這方面的相關(guān)工作都是利用用戶的評論、打分來判斷信息的可信度。Deborah通過分析修改歷史來獲得對修改版本的信任度[6]。修改文章的可靠性取決于三點，分別是：之前版本的可靠性，最后一個版本的作者的信譽度及修改內(nèi)容。在協(xié)作信息系統(tǒng)中，修改歷史是可以廣泛有效利用的重要特征。

第三類是對獨立的網(wǎng)站或網(wǎng)頁上信息的可信度評估方法研究。網(wǎng)站的建設(shè)者預(yù)計獲知哪些特性，使其能夠提升用戶對網(wǎng)站的信任感，而哪些特性會削弱用戶的信任感。而作為信息瀏覽者的用戶，在瀏覽網(wǎng)頁時則需要辨別網(wǎng)站或者網(wǎng)頁的可信度，判斷其提供的信息是否真實可信。Lee構(gòu)造了一個真實可信事實庫，并利用其來檢測一個可疑信息的可靠性[7]。Kawai開發(fā)了一個可視化顯示新聞地址趨勢的消息系統(tǒng)，通過該系統(tǒng)可以判斷相應(yīng)新聞網(wǎng)站的可信度[8]。

Kyoto大學(xué)的WISDOM系統(tǒng)（http：//wisdom-nict.jp/）是一個供用戶在線使用的網(wǎng)絡(luò)信息可信度分析系統(tǒng)[9]，該系統(tǒng)從信息發(fā)送者、主要觀點、對立觀點等角度出發(fā)，通過聚類為用戶判斷信息的可信度提供參考。Honto Search是一個Web問答系統(tǒng)[10]，針對用戶輸入的命題返回可信度值及其它相關(guān)可信命題。該系統(tǒng)基于這樣一個假設(shè)：事實的流行度越高越可信。但是這個假設(shè)仍然值得商榷。

2.1可信信息候選集的提取

本文研究的出發(fā)點是能夠根據(jù)用戶給出的疑惑命題，通過對網(wǎng)絡(luò)中出現(xiàn)的大量相關(guān)信息進(jìn)行可信度評估，為用戶提供可信度最高的命題信息。其中，可信信息的候選集的獲取是可信度評估的第一步重要工作。

研究認(rèn)為用戶輸入的疑惑命題由“確定項”和“疑惑項”構(gòu)成。“疑惑項”是用戶對整個命題的質(zhì)疑部分，需要系統(tǒng)進(jìn)行可信度評估的核心部分。如圖2所示，用戶輸入疑惑命題“世界上最長的河流是尼羅河”，并指出了疑惑項“尼羅河”，則對應(yīng)確定項是“世界上最長的河流是”。可信信息候選集，由疑惑項的候選替換項構(gòu)成（如“亞馬遜河”、“黃河”等）。

獲取可信信息候選集的基本步驟：

（1）根據(jù)用戶輸入的疑惑命題的確定項，利用搜索引擎搜索相關(guān)的網(wǎng)頁信息。

（2）抽取前100條搜索結(jié)果的頁面摘要信息（即snippet）。

（3）根據(jù)疑惑項的詞性、命名實體特征，在100條頁面摘要信息中抽取特征一致的詞條作為疑惑項的候選替換項。

（4）經(jīng)過詞條過濾，將最終出現(xiàn)頻度最高的5個詞條構(gòu)成可信信息的候選集。

需要說明的是，認(rèn)為搜索引擎返回的頁面摘要信息能夠正確反映原文的相關(guān)內(nèi)容，這也是進(jìn)行實驗的一個前提。

命題疑惑項與其疑惑項的各個候選項往往具有相同的詞性特征及命名實體特征。本系統(tǒng)采用哈工大社會計算與信息檢索研究中心語言技術(shù)平臺（LTP）的分詞、詞性標(biāo)注及命名實體識別模塊。通過文本處理，提取出頁面摘要中與質(zhì)疑項的詞性特征和命名實體特征相同的詞組，并去除噪音。在對其頻度進(jìn)行統(tǒng)計后，將頻度最高的五項作為可信信息的候選集。

2.2信息可信度的評估

本文從信息源可信度與信息在網(wǎng)絡(luò)的分布特點兩方面綜合評估信息的可信度。信息可信度評估流程如圖3所示。評估方法設(shè)計中，主要需要考慮兩方面：特征選擇和可信度評測方法。

第一層特征空間是信息源特征空間SF（Source Feature）。綜合考慮所有對網(wǎng)絡(luò)信息可信度有影響的因素，可以將其大致劃分為兩部分：顯性因素和隱性因素。顯性因素包括頁面信息本身顯性呈現(xiàn)的各種特征。比如，網(wǎng)頁創(chuàng)建時間、廣告量、網(wǎng)頁設(shè)計，拼寫錯誤等等。隱性因素包括隱藏在網(wǎng)頁信息背后的各種特征。比如，信息作者權(quán)威度，反向鏈接數(shù)，信息來源等。本文采用網(wǎng)站及網(wǎng)頁最具區(qū)分度的四個屬性特征作為信息源的特征

Pagerank值用于衡量特定網(wǎng)頁相對于搜索引擎索引中的其他網(wǎng)頁而言的重要程度，通過Google提供的API獲取。反向鏈接數(shù)是指該網(wǎng)站被其他網(wǎng)頁或網(wǎng)站鏈接的數(shù)目，在一定程度上能夠反映出該網(wǎng)站的受歡迎程度，也從一定程度反映了所提供信息的可信度。網(wǎng)頁廣告量能夠反映網(wǎng)頁創(chuàng)建的商用意圖，因此也是評估網(wǎng)頁信息可信度的一個因子。網(wǎng)頁創(chuàng)建時間則反映了網(wǎng)頁提供信息的時效性，時間越近的信息時效性越好。

第二層特征空間是可信信息候選集特征空間CF（Candidate Feature），其候選集合中某個詞條的特征為：

覆蓋率是在搜索引擎返回的頁面摘要信息中包含該候選信息的比例。用total表示總的搜索返回結(jié)果數(shù)目，pi表示搜索到的所有網(wǎng)頁，Contain（pi， aj）表示搜索到的網(wǎng)頁內(nèi)容pi中含有替換項aj，覆蓋率的計算公式如下：

RC（αj）=∑[DD（]total[]i=0[DD）]Contain（pi，αj）/total[JY]（1）

可信信息源數(shù)為包含某個可信信息候選信息的所有信息源經(jīng)過第一階段分類后，類別屬于可信信息源的數(shù)目。可疑信息源數(shù)為第一階段分類后屬于可疑信息源的數(shù)目。網(wǎng)頁平均創(chuàng)建時間是一個非常重要的特征，通過判斷信息的網(wǎng)絡(luò)出現(xiàn)時間，有助于甄別新舊信息。僅僅通過網(wǎng)絡(luò)流行度（即覆蓋率）來判斷，不易甄別出真實信息。搜索返回結(jié)果中的平均網(wǎng)頁排名說明了包含該候選信息的網(wǎng)頁集合在百度搜索引擎中的平均排名，此特征說明了包含確定項和候選信息的組合的網(wǎng)頁與確定項的相關(guān)程度。R（pi）表示網(wǎng)頁pi在搜索引擎返回結(jié)果中的網(wǎng)頁位置，故平均網(wǎng)頁排名如下：

信息可信度的計算使用以下公式，其中λi值由實驗確定。為了測試前面提出信息的各個特征對可信度計算的影響，對系數(shù)擇取不同數(shù)值進(jìn)行了測試，相應(yīng)的系數(shù)是根據(jù)研究者自身經(jīng)驗和一些測試確定的。

確定特征權(quán)重的過程是根據(jù)經(jīng)驗和測試實驗獲得。信息的可信度最主要的影響因素是網(wǎng)絡(luò)流行度，而替換項的第一個特征覆蓋率在本文中近似代表網(wǎng)絡(luò)流行度。所以覆蓋率作為網(wǎng)絡(luò)流行度的近似表示在可信度計算中的權(quán)重最大。可信信息源數(shù)的權(quán)重為正值，用以加強可信信息源對信息的有利支撐，而不可信信息源的權(quán)重為負(fù)值，則用以減弱不可信信息源在覆蓋率特征里對可信度計算的影響。

平均網(wǎng)頁時間和網(wǎng)頁排名也影響著替換項的可信度，并且平均網(wǎng)頁建立時間對可信度影響尤為顯著。當(dāng)一個替換項的平均網(wǎng)頁創(chuàng)建時間特征值小于候選答案集里此特征的最大值時（即該信息不是最新的消息，候選答案里有比該信息時間更新的信息），可信度的值將因此降低。

3實驗及分析

為了驗證本文設(shè)計研究的相關(guān)方法的有效性，本節(jié)對相關(guān)算法進(jìn)行了多個實驗：

（1）可信信息候選集獲取實驗；

（2）信息源可信度分類實驗；

（3）不同可信度評估方法對比實驗。

幾部分實驗的實驗數(shù)據(jù)及收集過程如下。在信息源可信度分類實驗中用到的50個已知答案的命題來自人工收集驗證。在另兩個試驗中使用的測試集是通過收集百度知道已經(jīng)解決的問題作為已知答案的命題答案對（疑惑命題，正確答案）集合，共4類200條數(shù)據(jù)。其中人物類50條，地理類50條，歷史類50條，時政類50條。

由于信息可信度評測技術(shù)研究還處于起步階段。還沒有一個公認(rèn)的信息可信度測試集以及評估方法。候選信息的抽取評估方法采用改進(jìn)的MRR（Mean Reciprocal Rank）標(biāo)準(zhǔn)評價抽取效果的準(zhǔn)確度，n為所有測試命題的數(shù)量，γi為第i命題的第一個正確答案的位置，m值為可信信息候選集的大小。計算公式為：

3.1可信信息候選集獲取實驗

從表1的實驗結(jié)果中可以發(fā)現(xiàn)，歷史類和人物類的準(zhǔn)確率最高，而時政類最低；按MRR標(biāo)準(zhǔn)評價，人物類的MRR值最高，而時政類最低。準(zhǔn)確率方面，因為歷史類測試數(shù)據(jù)主要關(guān)于歷史事件的時間，即測試命題中的質(zhì)疑項多數(shù)為時間，而時間的詞性和命名實體特征非常明顯，在搜索結(jié)果中易于辨別，所以準(zhǔn)確率高。人物類多為人名詞，性特征明顯，一段搜索摘要中涉及到的人名有限，易于辨認(rèn)抽取。而時政類的問題比較雜，而且涉及到的事件名不易辨別，在實驗中通過詞語結(jié)構(gòu)過濾器提取的替換項就不夠準(zhǔn)確應(yīng)對會出現(xiàn)最高頻的幾個替換項中沒有正確答案的情況。

就MRR標(biāo)準(zhǔn)而言，測試的是系統(tǒng)得出的替換項集中正確答案的平均排序位置。由實驗結(jié)果可以看出，人物類的MRR值最高，主要原因是事件中涉及到的人名往往不多，并且通過詞語結(jié)構(gòu)過濾器也易于辨別過濾；而時政類MRR值較低的原因主要來自詞語結(jié)構(gòu)過濾器未能將正確答案篩選出來。

3.2信息源可信度分類實驗

本實驗主要考察基于SVM的分類算法的性能。基于60個經(jīng)過人工搜集、驗證的命題（包括50個正確命題和10個網(wǎng)絡(luò)中高頻的錯誤命題），在網(wǎng)絡(luò)搜索到1 172個正例和102個反例，共1 272條數(shù)據(jù)。在實驗的過程中，采用了LibSVM進(jìn)行信息源的可信度分類。將采用SVM、Bayesian、KNN等算法進(jìn)行了實驗比較，實驗結(jié)果如表2所示。

SVM的效果明顯好于Bayesian和KNN，雖然訓(xùn)練語料相對比較少，但從實驗效果可以看出SVM分類效果還是相當(dāng)不錯，進(jìn)一步表明了支持向量機在解決小樣本、非線性及高維模式識別問題中具有許多獨特的優(yōu)勢，SVM不僅對兩分類問題具有良好的分類效果，在多分類問題上也表現(xiàn)良好，是目前文本分類效果最好的單分類器之一。

3.3不同可信度評估方法對比實驗

本實驗的基準(zhǔn)實驗為日本京都大學(xué)的“Honto？ Search”系統(tǒng)所采用的網(wǎng)絡(luò)覆蓋率來評估信息的可信度。實驗通過準(zhǔn)確度和MRR 值比較兩種評估方法的優(yōu)劣。實驗結(jié)果如表3所示。

本系統(tǒng)通過加入信息源的可信度評價并結(jié)合其他統(tǒng)計特征，將準(zhǔn)確度提高到89%。這說明本文的兩層特征空間能夠更好地為用戶提供可信度高的答案。MRR值也略有提高，但不夠理想，原因主要是實驗過程仍然會受到噪音信息的影響，在候選信息的提取部分和可信度計算部分都需要進(jìn)一步研究，提高最佳答案與非最佳答案的區(qū)分度。

4結(jié)束語

隨著網(wǎng)絡(luò)信息量的快速增長，不可信的信息也日益涌現(xiàn)，干擾誤導(dǎo)用戶對正確信息的獲取。信息可信度的評估就是為了解決這一社會問題。本文提出了利用詞語特征從網(wǎng)絡(luò)提取過濾有用信息，將信息源的可信度評測加入到信息可信度評測中來，構(gòu)造兩層特征空間計算信息可信度，從候選答案的獲取和可信度計算兩方面提高了實驗的準(zhǔn)確度。

智能計算機與應(yīng)用2013年5期

智能計算機與應(yīng)用的其它文章: RFID雙向安全認(rèn)證協(xié)議的設(shè)計及分析; 基于UML的工作流在線投稿系統(tǒng)的建模; 多品種變批量拉鏈生產(chǎn)計劃優(yōu)化方法研究; Sun v880雙機熱備份系統(tǒng)的技術(shù)維護(hù); 基于Windows注冊表的計算機取證研究; 基于微博社交網(wǎng)絡(luò)的信息傳播分析