999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDAP的大數(shù)據(jù)瀏覽隱式反饋信息檢索仿真

2022-01-22 02:46:22葉承斌李宏亨
計(jì)算機(jī)仿真 2021年12期
關(guān)鍵詞:信息檢索特征用戶

葉承斌,李宏亨

(廣西醫(yī)科大學(xué)信息與管理學(xué)院,廣西 南寧 530021)

1 引言

現(xiàn)階段,所應(yīng)用的信息檢索技術(shù)使得用戶檢索質(zhì)量有所提高,但是對(duì)于用戶檢索結(jié)果的有效性以及準(zhǔn)確性卻沒(méi)有更深入的研究。因此,對(duì)于如何提高用戶檢索信息的有效性成為了亟待解決的難題之一。

為此,相關(guān)學(xué)者進(jìn)行了相關(guān)方面的研究。文獻(xiàn)[1]通過(guò)觀察用戶的網(wǎng)頁(yè)瀏覽習(xí)慣獲得用戶隱式反饋信息,根據(jù)這些信息建立用戶行為特征模型,利用向量為用戶瀏覽的每個(gè)網(wǎng)頁(yè)設(shè)置了權(quán)值,以此來(lái)推算用戶對(duì)某一類文檔的愛(ài)好程度,并對(duì)用戶行為特征模型進(jìn)行實(shí)時(shí)更新,以此來(lái)完成用戶瀏覽隱式反饋信息的檢索。但是該方法在查全率方面表現(xiàn)較差,需要進(jìn)一步深入研究。文獻(xiàn)[2]提出了一種基于分布式集群的網(wǎng)絡(luò)瀏覽行為大數(shù)據(jù)分析平臺(tái),通過(guò)大數(shù)據(jù)分析平臺(tái)將分布式計(jì)算機(jī)系統(tǒng)Spark與HDFS技術(shù)相結(jié)合,分布式用戶的網(wǎng)絡(luò)瀏覽數(shù)據(jù)被存儲(chǔ)到HDFS中,再利用Spark進(jìn)行數(shù)據(jù)挖掘,并結(jié)合決策樹(shù)ID3算法準(zhǔn)確計(jì)算出用戶的文檔愛(ài)好程度。但該方法對(duì)大數(shù)據(jù)的分析能力較差,對(duì)用戶的瀏覽行為管理效率較低。

為此,在LDAP的基礎(chǔ)上,提出了大數(shù)據(jù)瀏覽隱式反饋信息檢索仿真方法。為獲取到更精準(zhǔn)的用戶瀏覽行為特征信息,構(gòu)建了LDAP目錄服務(wù)架構(gòu)體系,為后續(xù)構(gòu)建用戶行為特征模型提供數(shù)據(jù)支持。用戶行為特征模型將元搜索引擎與Agent技術(shù)相結(jié)合,利用InfoAgent系統(tǒng)來(lái)實(shí)現(xiàn),最大限度地展現(xiàn)用戶需求。通過(guò)仿真結(jié)果表明,所提方法具有較高的檢索精度和查全率。

2 基于LDAP的大數(shù)據(jù)瀏覽隱式反饋信息檢索方法

2.1 LDAP目錄服務(wù)體系

LDAP通常被用作地址簿[3]來(lái)使用,支持用戶檢索信息,其中可有單個(gè)或多個(gè)服務(wù)器,它是在TCP/IP上運(yùn)行的一種應(yīng)用層協(xié)議,主要運(yùn)行過(guò)程是一個(gè)客戶機(jī)連接一個(gè)服務(wù)器,并向服務(wù)器發(fā)送指令[4],以此構(gòu)成的客戶機(jī)/服務(wù)器模式是LDAP目錄的基礎(chǔ),服務(wù)器在接收到指令后在目錄上完成指令上的操作。當(dāng)服務(wù)器完成指令操作后,將結(jié)果或錯(cuò)誤應(yīng)答反饋給LDAP客戶機(jī),或者采用Referral重定向機(jī)制向其它LDAP服務(wù)器發(fā)送請(qǐng)求以此來(lái)完成客戶機(jī)的指令,Referral可擴(kuò)大無(wú)法完成的目錄服務(wù)至最大范圍。無(wú)論客戶機(jī)與哪一個(gè)服務(wù)器連接,接收到的內(nèi)容都是一樣的。表1為L(zhǎng)DAP最常用的Web服務(wù),將LDAP應(yīng)用到Web已有的關(guān)系數(shù)據(jù)[5]中,實(shí)現(xiàn)其功能。

表1 LDAP在Web中實(shí)現(xiàn)的功能

LDAP客戶機(jī)可由LDAP服務(wù)器管控,或者由集成了LDAP的應(yīng)用程序管理。圖1為L(zhǎng)DAP的總體框架結(jié)構(gòu),展現(xiàn)了各類設(shè)備與服務(wù)器在LDAP服務(wù)目錄中進(jìn)行訪問(wèn)存儲(chǔ)的過(guò)程。

圖1 LDAP框架

對(duì)LDAP目錄服務(wù)器中存儲(chǔ)的信息進(jìn)行訪問(wèn)可通過(guò)LDAP協(xié)議相關(guān)的服務(wù)器和設(shè)備來(lái)實(shí)現(xiàn),通過(guò)分析該框架可知,目錄的主要功能是為數(shù)據(jù)提供存儲(chǔ)的地方,擔(dān)任著數(shù)據(jù)庫(kù)的角色,并可對(duì)存儲(chǔ)在LDAP目錄服務(wù)中的數(shù)據(jù)進(jìn)行管理,它與基于XML的數(shù)據(jù)表示是非常重要的兩個(gè)組件。

2.2 用戶瀏覽行為特征信息獲取

通過(guò)觀察用戶瀏覽網(wǎng)頁(yè)時(shí)的瀏覽習(xí)慣來(lái)獲取用戶瀏覽興趣信息,并根據(jù)這些信息建立用戶特征行為模型。

首先,對(duì)用戶建立各自的統(tǒng)計(jì)文檔,然后依次瀏覽每個(gè)文檔,以各個(gè)瀏覽文本描述的特定詞的集合方式建立文檔的索引方式。為了表示特定詞在文檔中所占比例的大小,將用戶瀏覽文本空間內(nèi)的所有詞添加一個(gè)數(shù)值權(quán)。數(shù)值權(quán)也可看作為文檔d中的詞在文檔空間[6]內(nèi)的坐標(biāo)信息,即將用戶瀏覽的某一個(gè)文檔d看作是文檔空間中的任意一個(gè)坐標(biāo)點(diǎn),這樣就可以將d描述為從文檔空間中初始點(diǎn)到任意一點(diǎn)的向量。對(duì)描述文檔的詞添加權(quán)值是文檔表示法中的關(guān)鍵。

目前比較常用的添加權(quán)值的方法是t*A加權(quán)方案。t表示某個(gè)特定詞在Web文檔中出現(xiàn)的次數(shù),因?yàn)槊總€(gè)文檔的內(nèi)容不同,所以t的值在每個(gè)文檔中也有所不同。t的主要作用是判定該特定詞在Web文檔中的重要程度。A表示全局統(tǒng)計(jì)數(shù)據(jù),參考A的值可以判斷出特定詞在整個(gè)Web文檔中的分布規(guī)律。A設(shè)定為In(N/n),N表示W(wǎng)eb文檔集合中包含的文檔數(shù)量,n表示含有某個(gè)特定詞的文檔數(shù)量[7]。含有某個(gè)特定詞的文檔數(shù)量與A的值呈負(fù)相關(guān),即含有特定詞的文檔數(shù)量越多,A的值則越小,當(dāng)Web文檔集合中的所有文檔都包含特定詞,則A的值為0。

對(duì)于用戶瀏覽的網(wǎng)頁(yè)文檔信息,采用基于向量的方法進(jìn)行描述,文檔d的描述向量V對(duì)應(yīng)的第i個(gè)元素可利用式(1)計(jì)算

w(d,i)=t(i,d)*A(i)

(1)

式(1)中,t(i,d)表示詞頻統(tǒng)計(jì)數(shù)據(jù)結(jié)果,即詞wi在網(wǎng)頁(yè)文檔d中出現(xiàn)的次數(shù)為

A(i)=In(N/n)

(2)

在網(wǎng)絡(luò)大數(shù)據(jù)系統(tǒng)中,如果直接獲取到用戶對(duì)檢索結(jié)果的評(píng)價(jià)反饋,稱之為顯式反饋。這種反饋結(jié)果獲取途徑較為廣泛,但是這種方法使用戶無(wú)法客觀[8]的評(píng)價(jià)網(wǎng)頁(yè)瀏覽結(jié)果,很難為后續(xù)構(gòu)建用戶行為特征模型提供客觀數(shù)據(jù),降低了整個(gè)網(wǎng)絡(luò)大數(shù)據(jù)系統(tǒng)的可用性。隱式反饋則只對(duì)用戶瀏覽過(guò)的文檔作出可用性評(píng)價(jià),這種方式不會(huì)影響用戶的網(wǎng)頁(yè)瀏覽行為,只根據(jù)用戶的瀏覽行為來(lái)判斷用戶的瀏覽習(xí)慣,所以結(jié)果精準(zhǔn)度較高。

用戶的瀏覽行為[9]體現(xiàn)了對(duì)目標(biāo)文檔的感興趣程度,可采集這些信息建立用戶行為特征模型。用戶的瀏覽行為分為:審查行為:滑動(dòng)滾動(dòng)條(s)、網(wǎng)頁(yè)瀏覽時(shí)間(r);參考類型:追隨超鏈接;存留類型:存留網(wǎng)頁(yè)文檔(g)、打印網(wǎng)頁(yè)文檔(b)、添加標(biāo)簽(p)等。通過(guò)分析以上幾種用戶的瀏覽行為,即可判定出用戶對(duì)當(dāng)前頁(yè)面的感興趣程度。為了更準(zhǔn)確的區(qū)分這些瀏覽行為體現(xiàn)的用戶的感興趣程度[10],對(duì)每一種瀏覽行為v都賦予一個(gè)相應(yīng)的權(quán)值Cv,通過(guò)計(jì)算權(quán)值的大小來(lái)推斷用戶對(duì)當(dāng)前頁(yè)面的感興趣程度,計(jì)算公式如式(3)所示

(3)

2.3 用戶瀏覽行為特征模型下隱式反饋信息檢索

2.3.1 InfoAgent特征模型整體架構(gòu)

InfoAgent是以VSN模型和用戶行為特征為依據(jù),將元搜索引擎和Agent技術(shù)相結(jié)合,共同開(kāi)發(fā)的用戶個(gè)人信息檢索系統(tǒng)。構(gòu)建用戶行為特征模型,確保該模型反映的信息最接近用戶的需求,從而提高整個(gè)特征模型提供的資料精度,加快檢索效率。具體如圖2所示。

圖2 InfoAgent整體架構(gòu)圖

InfoAgent實(shí)現(xiàn)精準(zhǔn)檢索的步驟:

1)根據(jù)用戶的瀏覽習(xí)慣創(chuàng)建用戶行為特征模型q并保存,根據(jù)用戶不同的瀏覽行為實(shí)時(shí)更新模型中的內(nèi)容。

2)將用戶行為特征模型q中所有權(quán)值不為零的特征項(xiàng)篩選出來(lái)并傳送給元搜索agent,作為檢索關(guān)鍵詞。

3)元搜索agent接收到特征項(xiàng)后,同時(shí)向其它信息搜索系統(tǒng)發(fā)出查詢請(qǐng)求,將所有符合條件的特征項(xiàng)添加到URL列表中。

4)對(duì)添加到URL列表中的所有文獻(xiàn)進(jìn)行特征項(xiàng)提取,以此構(gòu)成文獻(xiàn)的特征向量。

5)將提取出的特征向量與用戶行為特征模型q進(jìn)行模式匹配,并進(jìn)行相關(guān)度計(jì)算。

6)將特征向量與用戶行為特征模型q的相關(guān)度與規(guī)定的最小相關(guān)度Rmin進(jìn)行比較,如果相關(guān)度的值大于Rmin,則以URL為起點(diǎn),對(duì)機(jī)器人Rmin下達(dá)指令對(duì)模型進(jìn)行啟發(fā)式搜索,對(duì)所有文獻(xiàn)進(jìn)行模式匹配。

7)將搜索結(jié)果與用戶行為特征模型q最匹配的文獻(xiàn)d展現(xiàn)給用戶。

8)持續(xù)觀察用戶的瀏覽行為,并根據(jù)式(4)計(jì)算出用戶的相關(guān)反饋值

(4)

式(4)中,0≤fb(d)≤1,B={r,b,l,p,s},cb表示反饋行為的加權(quán)因子。

9)根據(jù)式(5),實(shí)時(shí)更新用戶行為特征模型。重復(fù)操作步驟2),直到用戶檢索完成為止。

wqk←wqk+β·f(d)·wik

(5)

式(5)中,f(d)表示用戶對(duì)d的反饋結(jié)果,wik表示i的第k個(gè)特征值的權(quán)值,wqk表示q中第k個(gè)特征值的權(quán)值,β為學(xué)習(xí)因子。

2.3.2 檢索參數(shù)調(diào)整

用戶行為特征模型是InfoAgent系統(tǒng)的重要組成部分,可對(duì)元搜索和機(jī)器人下達(dá)指令,并通過(guò)學(xué)習(xí)agent更新信息。q中包含了1~N個(gè)行為特征模型,每個(gè)行為特征模型都反映了一種用戶感興趣的內(nèi)容,可以表示為:Wq=(wq1,wq2,…,wqk,…,wqu),其中u表示用戶行為特征模型庫(kù)中特征項(xiàng)的個(gè)數(shù)。

InfoAgent系統(tǒng)在用戶的瀏覽頁(yè)面設(shè)置了Web瀏覽器窗口,用戶在瀏覽網(wǎng)頁(yè)時(shí)可獲得用戶的瀏覽行為信息。將這些信息提供給學(xué)習(xí)agent,學(xué)習(xí)agent,對(duì)這些信息進(jìn)行分析整理,并更新q中的內(nèi)容。隱式反饋值f(d)可以通過(guò)計(jì)算式(4)得到,q的特征項(xiàng)的權(quán)值wqk可通過(guò)式(5)進(jìn)行修改。為了將其它因素的影響降到最低,每完成一次信息反饋后,q自動(dòng)進(jìn)行歸一化處理,將所有d的特征項(xiàng)的權(quán)值小于閾值wmin的進(jìn)行歸零處理。

2.3.3 特征提取和模式匹配

在VSM模型中,d可以以向量的形式表示為

(6)

式(6)中,Z表示d中q的特征項(xiàng)出現(xiàn)的次數(shù),uk表示q的特征項(xiàng)在已經(jīng)完成檢索的d中出現(xiàn)的次數(shù)。

信息檢索系統(tǒng)通常處理的文檔為HTML文獻(xiàn),而HTML文獻(xiàn)中含有大量的標(biāo)記信息。這些標(biāo)記信息作為文獻(xiàn)的概括,可直接對(duì)標(biāo)記信息進(jìn)行特征提取,利用加權(quán)因子γc對(duì)HTML標(biāo)記信息中的q的特征項(xiàng)調(diào)整權(quán)值。

d與q的相關(guān)度計(jì)算如式(7)

(7)

2.3.4 基于強(qiáng)化學(xué)習(xí)算法的啟發(fā)式機(jī)器人智能檢索

由于機(jī)器人agent在文獻(xiàn)中的運(yùn)動(dòng)是沒(méi)有規(guī)律、沒(méi)有方向的,若用戶一直沒(méi)有檢索到滿意的文獻(xiàn),則會(huì)花費(fèi)大量的網(wǎng)絡(luò)資源來(lái)傳輸資源,降低了系統(tǒng)的有效性。因此需要對(duì)機(jī)器人agent做進(jìn)一步優(yōu)化,使檢索的目標(biāo)相關(guān)度更高。利用強(qiáng)化學(xué)習(xí)算法,對(duì)機(jī)器人agent的選擇路徑作出改進(jìn),使檢索的目標(biāo)更接近于用戶行為特征模型q。對(duì)匹配到的相關(guān)文獻(xiàn),進(jìn)行特征提取并與q進(jìn)行模式匹配,如果d相關(guān)度的值大于Rmin,將會(huì)加入推薦列表中。

3 仿真研究

3.1 查全率、穩(wěn)定性實(shí)驗(yàn)對(duì)比

為驗(yàn)證所提出的基于LDAP的大數(shù)據(jù)瀏覽隱式反饋信息檢索仿真方法是否合理,將所提方法與文獻(xiàn)[1]、文獻(xiàn)[2]方法在查全率、查準(zhǔn)率及穩(wěn)定性方面進(jìn)行仿真對(duì)比。實(shí)驗(yàn)環(huán)境為Windows10系統(tǒng),3.5GHz主頻,8GB內(nèi)存,借助ImageMatch軟件平臺(tái)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于中文文本信息資料集SPAN2012,從中抽取120個(gè)檢索信息構(gòu)成候選檢索信息集。

將所提方法與文獻(xiàn)[1]、文獻(xiàn)[2]方法在查準(zhǔn)率和穩(wěn)定性方面進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如圖3、圖4所示。

圖3 三種方法查準(zhǔn)率對(duì)比

圖4 三種方法穩(wěn)定性對(duì)比

從圖3和圖4中可以看出,由于所提方法根據(jù)用戶的瀏覽行為構(gòu)建了用戶行為特征模型,并通過(guò)計(jì)算特征項(xiàng)的權(quán)值調(diào)整了檢索參數(shù),使得在信息檢索查準(zhǔn)率和穩(wěn)定性方面均高于其它兩種方法。

3.2 檢索精度實(shí)驗(yàn)對(duì)比

還需對(duì)三種方法對(duì)文獻(xiàn)的檢索精度進(jìn)行仿真對(duì)比,建立了20個(gè)用戶行為特征模型,經(jīng)過(guò)用戶瀏覽行為的增加和時(shí)間的推移,三種方法的檢索精度如表2所示。

表2 三種方法檢索結(jié)果對(duì)比

從表中可知,在檢索初期,三種方法檢索精度相差不大,但是隨著時(shí)間的推移,用戶的瀏覽行為越來(lái)越多,用戶行為特征模型不斷被精化,檢索精度也參差不齊。由于所提方法將強(qiáng)化學(xué)習(xí)算法應(yīng)用其中,使推薦的文獻(xiàn)更接近于用戶的需求,所以在檢索精度上所提方法效果最優(yōu)。

4 結(jié)論

基于LDAP的大數(shù)據(jù)瀏覽隱式反饋信息檢索仿真方法。借助LDAP的目錄服務(wù),獲取到用戶的瀏覽隱式反饋信息,通過(guò)分析用戶對(duì)某一種類型文檔的感興趣程度來(lái)構(gòu)建用戶行為特征模型,通過(guò)不同的算法使得用戶行為特征模型能夠最大限度地滿足用戶需求。通過(guò)仿真結(jié)果表明,所提方法較傳統(tǒng)方法相比有著較高的準(zhǔn)確率和檢索效率,但是對(duì)于所提方法的信息檢索的性能還需做進(jìn)一步提高,以此為研究方向?qū)⒗^續(xù)更深層次的研究。

猜你喜歡
信息檢索特征用戶
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
如何獲取一億海外用戶
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧美翘臀一区二区三区| 扒开粉嫩的小缝隙喷白浆视频| 97人妻精品专区久久久久| 亚亚洲乱码一二三四区| 免费jjzz在在线播放国产| 免费人成黄页在线观看国产| 国产又粗又猛又爽视频| 亚洲欧州色色免费AV| 无码av免费不卡在线观看| 亚洲精品无码日韩国产不卡| 国内熟女少妇一线天| 日韩国产黄色网站| 亚洲综合二区| 女人18一级毛片免费观看| 在线观看热码亚洲av每日更新| 99精品国产自在现线观看| 97se亚洲综合在线天天 | 二级特黄绝大片免费视频大片| 日韩免费毛片视频| 亚洲色图综合在线| 国产最新无码专区在线| 久久久久国色AV免费观看性色| 伊人久久影视| 天堂在线视频精品| 国产成人精品一区二区免费看京| 日韩高清无码免费| 亚洲欧美日韩另类| 日韩欧美国产另类| 午夜a视频| 久久综合亚洲鲁鲁九月天| 国产成年女人特黄特色毛片免| 日a本亚洲中文在线观看| 97人人做人人爽香蕉精品| 国产精品亚洲日韩AⅤ在线观看| 99在线小视频| 亚洲精品无码久久毛片波多野吉| 国产精品大白天新婚身材| 国产精品视频系列专区| 国产不卡国语在线| 国产人前露出系列视频| 亚洲码一区二区三区| 国产00高中生在线播放| 亚洲欧美综合在线观看| 岛国精品一区免费视频在线观看| 亚洲日本中文字幕天堂网| 色悠久久综合| 茄子视频毛片免费观看| 啪啪免费视频一区二区| 国产你懂得| 一本一本大道香蕉久在线播放| 欧洲日本亚洲中文字幕| 欧美精品亚洲精品日韩专区va| 国产精品久线在线观看| 国产欧美成人不卡视频| 亚洲综合中文字幕国产精品欧美| 久久精品aⅴ无码中文字幕| 久久精品娱乐亚洲领先| 国内丰满少妇猛烈精品播| 国产美女自慰在线观看| av一区二区人妻无码| 美女视频黄又黄又免费高清| 91福利国产成人精品导航| 国产欧美日韩专区发布| 在线精品亚洲国产| 国产福利免费在线观看| 一边摸一边做爽的视频17国产| 国产午夜精品鲁丝片| 99在线视频免费| 4虎影视国产在线观看精品| 亚洲嫩模喷白浆| 91青草视频| 国产精品丝袜在线| 精品久久人人爽人人玩人人妻| 国产又黄又硬又粗| 一级毛片不卡片免费观看| 最新国产成人剧情在线播放| 永久免费av网站可以直接看的| 在线观看亚洲成人| 午夜电影在线观看国产1区| 极品av一区二区| 免费 国产 无码久久久| 99久久精彩视频|