摘 要:互聯網的飛速發展的今天,如何判斷信息的真假,快速準確地查找到用戶所感興趣及更有價值的信息是本文的研究重點。根據砂的篩析試驗,對現有的篩選方法進行層層遞進,并結合用戶對信息的興趣度,信息的類別等查找用戶感興趣的和真實消息。同時類比愛情模型評分標準觀測用戶對信息的興趣度,分數越高表明興趣度越大及用戶感興趣的模型。
關鍵詞:過濾篩查;認知;信息流;興趣模型
1 篩析模型
互聯網時代的到來,人們每天都接收著數以萬計的信息。本文假設初始互聯網網絡節點都是可信的。信息的分享只需要足夠的數據包傳輸就行了。然而隨著互聯網的迅速 發展,網絡節點的可信度有待考慮從而產生了大量的虛假信息,并被廣泛傳播。為提升真實信息的辨識度,本文借鑒砂的篩析實驗對信息的選擇同樣采取從上到下層層篩選將有害信息及干擾信息的影響降到最小,從而達到降低信息雜質并最大限度的得到最有價值。在信息流傳播的過程中,依次通過內容過濾,社會過濾,以及關鍵詞過濾,從小到大,層層篩選。
1.1 內容過濾
通過信息接受者和信息內容的特征人工智能的將兩者進行匹配,它是通過信息潛在接受者對信息需求的匹配。基于內容理解的過濾是對獲取的網絡信息內容進行識別、判斷、分類確定其是否為需過濾的目標內容并對已確定的目標內容進行過濾等檢測控制的技術。
1.2 社會過濾
通過個體和群體之間的聯系進行過濾。其是在存在與目標用戶興趣相似的其他用戶的基礎下,將其他興趣相似用戶的內容推薦給目標用戶。與基于內容的過濾的方式不同,它不需要任何文檔內容的信息數據,它基于相似興趣用戶的使用模式而不需要其他任何文檔內容的數據包傳輸。
所謂的興趣度指用戶對信息感興趣的程度。選擇0-10之間的整數,0表示完全沒有興趣,10表示特別感興趣。把用戶感興趣的信息具體化為其對某一信息的評分向量。通過具體分數的大小協作過濾信息。其具體實現方法是利用系統匹配技術找到當前用戶的相似其他鄰居用戶,然后以鄰居評分標準產生相關推薦。
假設有M個用戶和N項資源,則一個用戶對資源的興趣可以表示為一個M×N的矩陣R。其中每一項Rmn=r表示用戶m對資源n的評分為r,如果Rmn=NULL,則代表用戶m對資源n沒有評分。
1.3 關鍵詞過濾[ 1 ]
從信息中選取具有二值邏輯的特征變量來描述信息。特征變量之間用邏輯詞與、或、非連接。若倆關鍵詞同時包含在過濾文檔中則可通過布爾操作生成特征變量的表達式。反之,若兩關鍵詞用布爾操作符相關聯則表示兩者之中有一個包含在過濾文檔中。布爾操作就是用一系列的差與和來完成。
假設規則關鍵字集合為H=(a1,a2,…,an),則擴充后可表示為H=(H(a1),H(a2),…,H(an)),其中H(ai)(i=1,2,…,n)是詞典中與具有與a1相同語義的詞語集合。增加擴充項就增加了同義詞匹配的機會有利于截獲同義不同形的相關文本從而提高查全率。
1.4 信息過濾
針對以上幾種信息過濾的優缺點及信息可信度,為此我們結合幾種過濾方法即對過濾方式的權值求和。即:
N=α*I1+β*I2+γ*I3
其中I1是內容過濾的興趣預測值,I2是社會過濾內容預測值,I3關鍵字匹配預測值,其中α+β+γ=1。
其利用內容過濾的優點,使在沒有用戶或用戶很少的情況下,能夠向用戶推薦信息,同時也考慮社會過濾的優點,當用戶數和評價級別數很多時,提高過濾結果的準確度,并結合布爾過濾的優點對關鍵詞的內在聯系進行了加強。這樣通過這種綜合過濾可以提高整個過濾系統的性能。由于幾種過濾技術之間沒有很強大的內在的依賴性,尤其當某種過濾技術得到改進后,系統整體性能就會提高。另外,此方法具有健壯的擴展性,它綜合了傳統過濾系統的優點,只需預測時在原來加權項的基礎上進行累加,使過濾更準確。此外結合基于價值的過濾,可以使預測時間縮短,實時的反映用戶需求[ 2 ]。
2 興趣信息
互聯網時代的到來,用戶每天都接收著數以萬計的信息。互聯網網絡節點在初始都是可信的。所以信息的分享只需要足夠的數據包傳輸就行了。然而隨著互聯網的迅速 發展,網絡節點的可信度有待考慮從而產生了大量的虛假信息。
英國心理學家、數學家和人際關系專家提出了一個終極戀愛數學模型,讓男女推算自己和心儀的對象是否能讓愛情開花并結出幸福之果。這個由專家推導的愛情模型是:
愛情=[(F+Ch+P)/2+3(C+I)/10]/[(5-SI)2+2]
其中,Q自己對對方的好感,W對方的魅力,E吸引異性的內分泌物,C本人自信心,D親密度,H形象。
戀情測試者可對每個指標分別評分,自我形象SI評分為1至5,其它評分為1至10。將相應的值代入后,若總分介于8至10分之間,極有可能熱戀;6至7分感情平穩;4至5分感情冷淡;低于4分不大可能有愛情。
基于此,本文用愛情模型來模擬人類對信息興趣的模型,其中Q是信息的形式及種類,W是用戶初次印象,E用戶對其求知欲,C信息對用戶的重要度,D用戶與信息的關聯度,H是該地區或國家的的拓撲結構和力量。其評分標準與愛情模型中各項分值相同,若總分介于8至10分之間,用戶對該信息興趣極高;6至7分對該信息興趣一般;4至5分代表興趣冷淡;低于4分則代表該信息不會引起人類的注意,即該信息不會傳播廣泛。
3 評價
互聯網的使用根植于社會的各個角落,人們每天接受數以萬計的網絡信息。因此網絡信息深刻的影響人們對社會的認同感。提高信息查找的準確度以及信息傳播的真實信刻不容緩。對于信息查找的準確度篩析模型雖然能夠結合幾種傳統模型的優點,但其應用不夠靈活,極有可能過濾掉有效信息。而對于興趣信息的傳播,雖然類比了愛情模型,但是愛情模型是非線性的,兩者數據處理方法的差異太大。且該模型過于刻板,加權系數皆為整數。
參考文獻:
[1] 何靜,劉海燕,宮云戰.內容過濾中過濾模版的改進技術研究[D].2003,2:28.
[2] 王翠萍.基于用戶興趣度網絡信息過濾模型研究[D].2007:30-31.
作者簡介:吳娜(1995-),女,漢族,湖北黃岡人,西北民族大學數學與計算機科學學院,2104級本科生,研究方向:數學與應用數學。