摘要:針對(duì)適合互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)信息特點(diǎn)的過(guò)濾機(jī)制進(jìn)行研究,提出一種改進(jìn)的用戶興趣模型,在研究?jī)?nèi)容過(guò)濾和協(xié)作過(guò)濾的基礎(chǔ)上,建立適合互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)的多級(jí)混合過(guò)濾系統(tǒng)。通過(guò)對(duì)多級(jí)混合過(guò)濾模型的實(shí)驗(yàn),表明多級(jí)混合過(guò)濾模型克服了單獨(dú)使用內(nèi)容過(guò)濾或協(xié)作過(guò)濾方法的缺點(diǎn),提高了過(guò)濾的準(zhǔn)確度。
關(guān)鍵詞:互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò);多智能體;UCL標(biāo)引;混合過(guò)濾
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)25-1423-03
Research of Information Filtering Technologies Based on Multi-Agent in Complementary Architecture Network
XING Chao, WANG Ke
(College of Information Science and Technology, Henan University of Technology, Zhengzhou 450001, China)
Abstract: The paper focuses on mechanism of Information Filtering of the complementary architecture network.An improved user-profile model is proposed. This paper sets up a system of Information filtering based on multi-level and combination strategy in Complementary Architecture Network, on the basis of the content Filtering and Collaborative Filtering. This paper carries out experiments and simulation of the mechanism for the mixed model in Complementary Architecture Network. Laboratorial results show that the model based on multi-level Combination Filtering can overcome shortcomings and enhance the accuracy of the information.
Key words: Complementary Architecture Network; Multi-Agent; UCL Indexing; Combination Filtering
1 引言
現(xiàn)有互聯(lián)網(wǎng)的單一結(jié)構(gòu)形式不能適應(yīng)信息資源以幾何指數(shù)增長(zhǎng)的情況,通過(guò)在互聯(lián)網(wǎng)主結(jié)構(gòu)上增加“播存結(jié)構(gòu)”的次結(jié)構(gòu),通過(guò)廣播方式以最短路徑把網(wǎng)絡(luò)中的信息傳輸?shù)接脩舳耍@種形式稱為互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)。
在互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)中,需要對(duì)網(wǎng)絡(luò)信息進(jìn)行分析、組織,加入內(nèi)容標(biāo)引信息,根據(jù)信息熱度等特點(diǎn)選擇互聯(lián)網(wǎng)或廣播通道傳輸。對(duì)于終端用戶,互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)要解決如何能準(zhǔn)確快速找到所需信息,屏蔽不相關(guān)、有害信息的問(wèn)題,這需要一種適合互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)特點(diǎn)的高效信息過(guò)濾機(jī)制。
近年來(lái),文本過(guò)濾和智能代理過(guò)濾的研究得到了重視與發(fā)展,我國(guó)對(duì)信息過(guò)濾的研究起步較晚,代表性的研究是基于向量空間模型的文本過(guò)濾系統(tǒng),使用的主要技術(shù):引入偽反饋概念,在訓(xùn)練階段,通過(guò)特征抽取和偽反饋建立初始過(guò)濾模板和初始閥值;在過(guò)濾階段,根據(jù)用戶反饋,自適應(yīng)地調(diào)整閥值提高系統(tǒng)性能。
2 互補(bǔ)網(wǎng)絡(luò)的混合過(guò)濾機(jī)制
2.1 基于用戶的協(xié)作過(guò)濾算法
1) 用戶間相似度計(jì)算
為描述與指定用戶興趣相似性,用相似性方法度量,計(jì)算用戶間相似性主要有三種方法:
① 余弦相似性:把用戶評(píng)分看作n維信息空間上的向量,如果用戶對(duì)信息沒(méi)有評(píng)分,將用戶對(duì)該項(xiàng)目的評(píng)分設(shè)為0,用向量間的余弦?jiàn)A角度量用戶間的相似性。設(shè)用戶i和用戶j在n維信息空間上的評(píng)分分別是向量■,■,則用戶i和j之間的相似性Sim(i,j)為:
■(1)
② 相關(guān)相似性:設(shè)用戶i和用戶j共同評(píng)分過(guò)的信息集為Iij,則用戶i和用戶j間的相似性Sim(i,j)通過(guò)泊松相關(guān)系數(shù)度量:
■(2)
其中,Ri,c,Rj,c分別表示用戶i,j對(duì)信息項(xiàng)c的評(píng)分,Ri和Rj分別表示用戶i和用戶j對(duì)己評(píng)信息項(xiàng)的平均評(píng)分。
③修正的余弦相似性:在余弦相似性度量方法中沒(méi)有考慮不同用戶的評(píng)分尺度問(wèn)題,修正的余弦相似性度量方法通過(guò)減去用戶對(duì)信息的平均評(píng)分改善上述缺陷,設(shè)用戶i和用戶j共同評(píng)分過(guò)的項(xiàng)目集合為Iij,Ii和Ij分別表示用戶i和用戶j評(píng)分過(guò)的項(xiàng)目集合,則用戶i和用戶j之間的相似性用Sim(i,j)表示:
■(3)
其中,Ri,c,Rj,c分別表示用戶i,j對(duì)信息項(xiàng)c的評(píng)分,Ri和Rj分別表示用戶i和用戶j對(duì)己評(píng)信息項(xiàng)的平均評(píng)分。
2) 最近鄰策略
基于用戶協(xié)作過(guò)濾的核心是為當(dāng)前用戶尋找最相似的“最近鄰居集”,該算法的實(shí)現(xiàn)一般分為三步:
Step1:計(jì)算各用戶之間的相似度Sim(i,j);
Step2:選擇鄰居數(shù)量,形成最近鄰居集;
Step3:利用“最近鄰居集”為當(dāng)前用戶的未評(píng)信息項(xiàng)產(chǎn)生預(yù)測(cè)評(píng)價(jià);
設(shè)當(dāng)前用戶Ua己評(píng)分的項(xiàng)集Ia,任一用戶Ui,已評(píng)分項(xiàng)集Ii,其中Ua和Ui共同評(píng)分的項(xiàng)集記做Iai。計(jì)算用戶Ua與Ui的相似度;由此得到Ua與其它用戶間的相似度集合Sa={Sa,1, Sa,1 Sa,1…Sa,n}
其中Sa,aSa。n為信息項(xiàng)個(gè)數(shù),將相似度集合按照大小排列,形成Ua的鄰居集合,記做Na={Na1,Na2,Na3,…Nan}, NaaNa。
采用選擇前K個(gè)鄰居作為Ua的最近鄰居,得到最近鄰居集NBSa={NBa1,NBa2,...,NBak},在得到最近鄰居集合NBSa。之后,Step3的核心工作是利用預(yù)測(cè)函數(shù)為當(dāng)前用戶a對(duì)某一未評(píng)信息項(xiàng)j生成預(yù)測(cè)評(píng)價(jià)值。預(yù)測(cè)函數(shù)基于最近鄰居對(duì)該信息項(xiàng)的評(píng)分,以及當(dāng)前用戶與最近鄰居的相似程度:
■(4)
其中Sim(a,u)表示當(dāng)前用戶與鄰居用戶之間的相似性Ra,表示當(dāng)前用戶對(duì)信息項(xiàng)的平均評(píng)分。Ru,i表示任一鄰居u用戶對(duì)信息項(xiàng)i的評(píng)分,Ru表示用戶u對(duì)信息項(xiàng)的平均評(píng)分。
2.2 混合過(guò)濾算法
系統(tǒng)根據(jù)數(shù)據(jù)鏈路層的UCL信息將數(shù)據(jù)廣播網(wǎng)傳輸過(guò)來(lái)的信息進(jìn)行大類的過(guò)濾(即第一級(jí)過(guò)濾),然后使用本文提出的混合策略進(jìn)行二級(jí)過(guò)濾。
本文使用將二種過(guò)濾方式的加權(quán)值求和的方法:
I=α*I1+β*I2(5)
其中I1是內(nèi)容過(guò)濾的興趣預(yù)測(cè)值,I2是協(xié)作過(guò)濾的興趣預(yù)測(cè)值。
α+β=1,(1<α<1,0<β<1),α和β是調(diào)和參數(shù)。
系統(tǒng)運(yùn)行初期,用戶評(píng)價(jià)級(jí)別少,為用戶建立的網(wǎng)頁(yè)信息價(jià)值庫(kù)內(nèi)容少,加權(quán)因子α的值大于β;當(dāng)用戶數(shù)和評(píng)價(jià)級(jí)別數(shù)目很多時(shí),協(xié)作過(guò)濾更為準(zhǔn)確,此時(shí)可以讓?duì)碌闹递^大。如果選擇網(wǎng)頁(yè)信息的代價(jià)與不選擇此信息的代價(jià)大于某個(gè)設(shè)定值時(shí),直接向用戶推薦信息。
3 互補(bǔ)網(wǎng)絡(luò)中多級(jí)混合過(guò)濾系統(tǒng)的設(shè)計(jì)
3.1 系統(tǒng)總體結(jié)構(gòu)
根據(jù)互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)的特點(diǎn),搭建了互補(bǔ)網(wǎng)絡(luò)中多智能體的多級(jí)、混合過(guò)濾系統(tǒng)原型,如圖1所示:
在互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)中,Agent代表用戶或系統(tǒng)程序,根據(jù)用戶信息需要,以主動(dòng)服務(wù)的方式為用戶提供智能化、人性化的交互界面;將用戶感興趣的信息自動(dòng)的存入本地庫(kù)服務(wù)器中;由用戶行為捕獲Agent分析、跟蹤用戶瀏覽行為,挖掘出用戶興趣,進(jìn)行信息資源的智能下載,推薦和過(guò)濾條件,充分發(fā)揮互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)的優(yōu)勢(shì)。
3.2 系統(tǒng)各模塊的功能
從圖1中可以看出,系統(tǒng)分為以下兩部分:
3.2.1 服務(wù)器端
1) 信息宿源:www網(wǎng)絡(luò)的IP信息;單向數(shù)字廣播網(wǎng)傳輸?shù)慕?jīng)過(guò)UCL信息標(biāo)引的原信息和UCL字段信息。
2) 網(wǎng)頁(yè)信息處理Agent:實(shí)現(xiàn)網(wǎng)絡(luò)信息的獲取,抽取UCL信息,打上UCL信息標(biāo)簽,并進(jìn)行分詞、特征提取生成文檔的向量空間模型等處理。
3) 本地網(wǎng)站庫(kù):存放用戶感興趣的網(wǎng)頁(yè)文件,和廣播網(wǎng)傳輸?shù)挠脩艚诟信d趣的經(jīng)過(guò)標(biāo)引的文件以及用戶定制過(guò)的信息,以及存放信息的UCL信息索引表。
4) 用戶興趣模型庫(kù):存放用戶的興趣模型和用戶定制的UCL信息表,實(shí)時(shí)更新用戶興趣模型。
5) 過(guò)濾匹配Agent:實(shí)現(xiàn)網(wǎng)頁(yè)的文檔向量模型與用戶興趣模型的比較,推斷以獲取最大限度的接近用戶需求的信息。
6) 協(xié)作預(yù)測(cè)模型庫(kù):存放用戶-對(duì)網(wǎng)頁(yè)的評(píng)價(jià)信息,提高了過(guò)濾系統(tǒng)的主動(dòng)性。
7) 過(guò)濾引擎Agent:由用戶需求根據(jù)資源的UCL信息索引表首先搜索本地網(wǎng)站庫(kù)中的信息,若在本地庫(kù)中,按照相關(guān)度的大小呈現(xiàn)給用戶,如果沒(méi)有用戶所需信息,過(guò)濾引擎Agent則自動(dòng)調(diào)用其他的搜索引擎到www網(wǎng)絡(luò)上獲取信息并及時(shí)標(biāo)引、下載保存到本地庫(kù)中,同時(shí)把信息呈現(xiàn)給用戶。
3.2.2 客戶端
1) 用戶交互/顯示Agent:學(xué)習(xí)用戶直接輸入的文本信息,而用戶行為捕獲代理是對(duì)其用戶的訪問(wèn)行為的挖掘?qū)W習(xí),定位群體用戶的興趣點(diǎn)。
2) 用戶行為捕獲Agent:反映用戶正在瀏覽的信息,通過(guò)用戶興趣的變化反饋及時(shí)更新用戶興趣模型信息。
3) 已評(píng)價(jià)文本庫(kù):存放用戶評(píng)價(jià)過(guò)的文檔集合,用來(lái)生成協(xié)作預(yù)測(cè)模型或者通過(guò)反饋,刪除或者更新本地網(wǎng)站庫(kù)中的信息。
3.3 系統(tǒng)過(guò)濾算法
考慮到本地網(wǎng)站庫(kù)的存儲(chǔ)容量和系統(tǒng)效率等因素,要在數(shù)據(jù)鏈路層根據(jù)用戶的定制信息算法以及用戶興趣模型對(duì)比生成的過(guò)濾算法,過(guò)濾掉用戶不感興趣的大量信息,把與群體用戶興趣近似的信息保存于本地網(wǎng)站庫(kù),完成“第一級(jí)過(guò)濾”。根據(jù)用戶興趣模型和UCL標(biāo)引信息索引表信息進(jìn)行本地庫(kù)中的信息篩選(即基于UCL標(biāo)引信息的內(nèi)容過(guò)濾),分類成與各個(gè)用戶興趣模型相近的信息類,完成“第二級(jí)過(guò)濾”。最后根據(jù)協(xié)作過(guò)濾生成的協(xié)作預(yù)測(cè)模型,將第二級(jí)過(guò)濾后的信息類進(jìn)一步的分類、合并,生成備選推薦集,由過(guò)濾引擎Agent推薦給當(dāng)前用戶。本文設(shè)計(jì)的過(guò)濾系統(tǒng)是原型系統(tǒng),需要進(jìn)一步研究和完善,核心是過(guò)濾算法,算法流程圖如圖2所示。
4 互補(bǔ)網(wǎng)絡(luò)中多智能體過(guò)濾技術(shù)的實(shí)驗(yàn)
采用以太網(wǎng)環(huán)境下的互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)過(guò)濾技術(shù),開(kāi)展混合過(guò)濾方法的對(duì)比仿真實(shí)驗(yàn),軟件系統(tǒng)環(huán)境為VC++。
4.1 多級(jí)混合過(guò)濾
本文對(duì)內(nèi)容過(guò)濾和協(xié)作過(guò)濾及基于UCL的混合過(guò)濾方法進(jìn)行了對(duì)比仿真實(shí)驗(yàn),采用TREC 11提供的數(shù)據(jù),用1000篇HTML文檔作為訓(xùn)練集,獲取混合過(guò)濾預(yù)測(cè)公式中的最佳α和β值,把該值作為I的最佳加權(quán)因子,而I1和I2及I分別計(jì)算求出。再用200篇文檔作為測(cè)試集,在系統(tǒng)客戶端測(cè)試比較內(nèi)容過(guò)濾、協(xié)作過(guò)濾和結(jié)合過(guò)濾的推薦準(zhǔn)確率。
根據(jù)不同的α和β值,實(shí)驗(yàn)得到一組結(jié)果,如表1所示。
表1
■
據(jù)實(shí)驗(yàn)中α,β不同的取值得到的結(jié)果,可以看出取β為0.6,α為0.4時(shí),所有用戶的平均推薦準(zhǔn)確率最高,把此時(shí)的值作為最佳加權(quán)因子I,然后再比較內(nèi)容過(guò)濾、協(xié)作過(guò)濾和混合模式過(guò)濾的準(zhǔn)確率,最后計(jì)算所有用戶的平均準(zhǔn)確率。
仿真實(shí)驗(yàn)結(jié)果如圖3:
4.2 仿真結(jié)果
仿真結(jié)果表明:系統(tǒng)開(kāi)始時(shí)沒(méi)有用戶評(píng)價(jià)信息,內(nèi)容過(guò)濾準(zhǔn)確率高,隨著用戶的評(píng)價(jià)信息的增加,協(xié)作過(guò)濾與混合過(guò)濾的準(zhǔn)確率呈上升趨勢(shì),最終混合過(guò)濾的準(zhǔn)確率趨近并超過(guò)協(xié)作過(guò)濾與內(nèi)容過(guò)濾,證明在互補(bǔ)結(jié)構(gòu)網(wǎng)路中采用的混合過(guò)濾方法比單純的內(nèi)容過(guò)濾和協(xié)作過(guò)濾準(zhǔn)確率更高。
5 結(jié)束語(yǔ)
本文針對(duì)適合互補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)信息特點(diǎn)的過(guò)濾機(jī)制的研究,需要對(duì)現(xiàn)有技術(shù)、實(shí)現(xiàn)手段進(jìn)行改進(jìn),來(lái)滿足實(shí)用性需求。以下內(nèi)容是需進(jìn)一步研究的方向:
1) 深入研究基于UCL的檢索子系統(tǒng)的算法和實(shí)現(xiàn);
2) 更好的將內(nèi)容過(guò)濾、協(xié)作過(guò)濾結(jié)合,滿足互補(bǔ)結(jié)構(gòu)的需求;
3) 完善雙結(jié)構(gòu)Agent瀏覽器的功能。
參考文獻(xiàn):
[1] 張瓊,杜友福,彭烈慧. 智能Agent技術(shù)在Web信息檢索中的應(yīng)用[J].現(xiàn)代電子技術(shù),2006(16):75-77.
[2] 邢玲,馬建國(guó),李幼平. 一種基于UCL 的中文網(wǎng)頁(yè)信息過(guò)濾方法[J].電子學(xué)報(bào),2006(10):10-15.
[3] 孫鐵利,邱春艷,楊焱. 基于Agent的個(gè)性化信息過(guò)濾技術(shù)與實(shí)現(xiàn)方法[J].計(jì)算機(jī)科學(xué),2005,32(8):152-153.
[4] Mark C, David B, Phong Le, Makoto W. Inferring User Interest[J].IEEE Internet Computing,2001,5(6):32-39.