劉海鷗 孫晶晶 蘇妍嫄 張亞明



〔摘 要〕大數(shù)據(jù)環(huán)境下,推薦系統(tǒng)項(xiàng)目評(píng)分的稀疏性問(wèn)題愈加突出,單興趣表示方法也難以對(duì)用戶多種情境興趣進(jìn)行準(zhǔn)確描述,導(dǎo)致推薦結(jié)果精度大大降低。鑒于此,提出一種多情境興趣表示方法,在此基礎(chǔ)上構(gòu)建面向圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)的多情境興趣推薦模型,通過(guò)對(duì)用戶多情境興趣的層次劃分,利用蟻群層次挖掘的優(yōu)勢(shì)來(lái)發(fā)現(xiàn)目標(biāo)用戶的若干最近鄰類簇,然后根據(jù)類簇內(nèi)相似用戶對(duì)目標(biāo)項(xiàng)目的評(píng)分對(duì)未評(píng)分項(xiàng)目進(jìn)行預(yù)測(cè),最后結(jié)合MapReduce化的大數(shù)據(jù)并行處理方法來(lái)進(jìn)行協(xié)同過(guò)濾推薦。實(shí)驗(yàn)結(jié)果表明,多情境興趣的建模方法改善了單興趣建模存在的歧義推薦問(wèn)題,有效緩解了大數(shù)據(jù)環(huán)境下項(xiàng)目評(píng)分的數(shù)據(jù)稀疏問(wèn)題,MapReduce化的蟻群層次聚類方法也大大改善了推薦系統(tǒng)的運(yùn)行效率。
〔關(guān)鍵詞〕大數(shù)據(jù)知識(shí)服務(wù);多情境興趣;蟻群層次聚類;協(xié)同過(guò)濾推薦
DOI:10.3969/j.issn.1008-0821.2018.06.009
〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2018)06-0062-06
〔Abstract〕Under the big data environment,the sparsity problem of recommendation system project becomes more and more serious.In addition,the traditional single interest representation method is difficult to accurately described,resulting in the reduced accuracy of recommendation result.In view of this,this paper put forward with a kind of multiple interest representation based on recommendation model for library big data knowledge service,by dividing the level of user interest more situations,using ant colony level mining advantage to some target users nearest neighbor cluster.According to the cluster within the same user rating to forecast the goal of the project not scored,this paper finally implemented parallel processing method for collaborative filtering with the MapReduce data.The experimental results showed that the modeling method generates new multiple item clustering interest tree by hierarchical partition mechanism,enhanced the mining depth of situational interest,and the MapReduced ant colony clustering method also greatly reduced the overall computation time,significantly improved the efficiency of the recommendation system.
〔Key words〕library big data knowledge service;multi contextual interest;ACO hierarchical clustering;CF recommendation
隨著圖書(shū)館海量數(shù)據(jù)服務(wù)資源的不斷涌現(xiàn),項(xiàng)目評(píng)分稀疏性[1]、信息語(yǔ)義復(fù)雜性與多重性[2]問(wèn)題大大增加了圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)個(gè)性化推薦系統(tǒng)實(shí)現(xiàn)的難度。圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)的個(gè)性化推薦是將讀者興趣、知識(shí)領(lǐng)域等關(guān)聯(lián)信息加工為能夠生動(dòng)描述讀者偏好的知識(shí)元,由此來(lái)支持?jǐn)?shù)字圖書(shū)館各種推薦服務(wù),最終為用戶提供滿足其個(gè)性化需求的知識(shí)資源。其中,項(xiàng)目評(píng)分的稀疏性問(wèn)題研究已久,在此不詳細(xì)贅述;信息語(yǔ)義的多重性是指推薦系統(tǒng)中的信息缺乏明確的情境語(yǔ)義,其內(nèi)容難以進(jìn)行精準(zhǔn)形式化的表示,沒(méi)有實(shí)現(xiàn)對(duì)推薦語(yǔ)義的細(xì)粒度關(guān)聯(lián)與挖掘,如圖書(shū)館推薦詞料庫(kù)中可能潛在的“一詞多義”、“多詞一義”現(xiàn)象。因此,推薦語(yǔ)料庫(kù)中語(yǔ)義表達(dá)的同義性、相關(guān)性、歧義性、可替代性大大降低了圖書(shū)館個(gè)性化推薦系統(tǒng)的精準(zhǔn)性,由此產(chǎn)生許多與現(xiàn)實(shí)差距甚遠(yuǎn)的推薦結(jié)果,出現(xiàn)“歧義推薦”問(wèn)題。
與傳統(tǒng)的用戶單興趣表示與挖掘模型相比,用戶多興趣表示模型在傳統(tǒng)單語(yǔ)義興趣建模的基礎(chǔ)上,針對(duì)興趣多語(yǔ)義、多樣性的特點(diǎn)進(jìn)行子類劃分和描述,以此降低不同子類興趣特征導(dǎo)致的語(yǔ)義分歧與相互干擾的影響,從而克服單興趣模型中各興趣特征主題間的影響問(wèn)題,提高推薦的準(zhǔn)確性。如余力、劉魯?shù)萚3]在探討用戶的多興趣推薦問(wèn)題時(shí),提出了融合用戶與項(xiàng)目評(píng)分的混合協(xié)同過(guò)濾推薦機(jī)制,同時(shí)給出了用戶的多興趣表示機(jī)制,這也是我國(guó)最早對(duì)用戶多興趣推薦進(jìn)行探討的學(xué)術(shù)文獻(xiàn),具有較強(qiáng)的理論指導(dǎo)意義,但該種方法難以對(duì)鄰居用戶與待預(yù)測(cè)項(xiàng)目的相關(guān)性進(jìn)行準(zhǔn)確描述。徐紅等[4]引入了基于時(shí)間的數(shù)據(jù)閾值、興趣類型以及用戶項(xiàng)目興趣權(quán)值的表達(dá)公式,以此探討用戶多興趣的表征問(wèn)題。馬健等[5]在推薦系統(tǒng)中引入了滑動(dòng)窗口與漸進(jìn)遺忘策略,由此提出一種融合多興趣特征的推薦方法,實(shí)驗(yàn)結(jié)果表明,該方法可保持對(duì)用戶興趣的持續(xù)更新,可為用戶提供符合其興趣特征的服務(wù)資源。楊長(zhǎng)春、孫婧[6]將傳統(tǒng)協(xié)同過(guò)濾方法與用戶信任度相結(jié)合,建立了用戶多面興趣信任度的協(xié)同過(guò)濾挖掘模型,但是該模型面臨著用戶打分積極性不高而可能導(dǎo)致信任評(píng)分稀疏的問(wèn)題。張富國(guó)等[7]在探討多興趣推薦過(guò)程中引入了用戶間的信任關(guān)系,基于信任視角分析用戶多興趣的協(xié)同過(guò)濾機(jī)制;模型不僅可以基于信任關(guān)系抵抗推薦過(guò)程中存在的“托”攻擊問(wèn)題,同時(shí)還能進(jìn)一步改善挖掘的性能與推薦的準(zhǔn)確性。需要指出的是,融合信任的多興趣推薦需要對(duì)用戶間存在的信任關(guān)系/信任度進(jìn)行準(zhǔn)確衡量,但大多數(shù)研究者采用的實(shí)驗(yàn)數(shù)據(jù)結(jié)構(gòu)難以定量描述用戶間的信任關(guān)系,因此給多興趣推薦帶來(lái)了較大的問(wèn)題。
鑒于多興趣建模與多興趣推薦存在的上述問(wèn)題,有學(xué)者通過(guò)研究[8-9]提出了融合情境的多興趣表示方法與推薦機(jī)制,在傳統(tǒng)的單興趣表征模型中引入用戶的情境語(yǔ)義信息,基于用戶的不同情境對(duì)其興趣類別進(jìn)行劃分,從而解決語(yǔ)義分歧挖掘的問(wèn)題[10]。如在圖書(shū)館推薦系統(tǒng)中,用戶檢索“蘋果”一詞,系統(tǒng)給出了《蘋果病蟲(chóng)害綜合防治》以及《蘋果故事:?jiǎn)滩妓沟暮?jiǎn)潔之道》兩個(gè)截然不同的推薦結(jié)果,這是因?yàn)闄z索詞的“一詞多義”(蘋果本身存在“水果”與“電子產(chǎn)品”兩種語(yǔ)義)造成的。但如果考慮特定的情境,如在“電子產(chǎn)品類數(shù)目”情境類別中進(jìn)行挖掘時(shí),就能剔除《蘋果病蟲(chóng)害綜合防治》的推薦結(jié)果,從而有效降低了不同類別興趣間同一語(yǔ)義相互干擾的問(wèn)題,避免了歧義推薦的發(fā)生。基于此,本文針對(duì)圖書(shū)館推薦系統(tǒng)傳統(tǒng)的“用戶——興趣描述”的單語(yǔ)義推薦模型,進(jìn)一步加大對(duì)圖書(shū)館用戶情境特征關(guān)聯(lián)的情境語(yǔ)義挖掘,提出“用戶——情境語(yǔ)義類別——興趣語(yǔ)義特征”的多級(jí)挖掘模式;同時(shí),為解決多興趣的層次劃分以及海量數(shù)據(jù)下的層次搜索問(wèn)題,本文在推薦模型中引入了蟻群算法與層次聚類方法,基于此提出一種面向圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)的多情境興趣推薦方法,通過(guò)對(duì)用戶情境興趣的多層次劃分,利用蟻群在搜索路徑上遺留的信息素來(lái)發(fā)現(xiàn)目標(biāo)用戶近鄰類簇,利用類簇內(nèi)其他用戶對(duì)目標(biāo)項(xiàng)目的評(píng)分來(lái)預(yù)測(cè)未評(píng)分項(xiàng)目的評(píng)分,以此解決圖書(shū)館協(xié)同過(guò)濾推薦系統(tǒng)面臨的數(shù)據(jù)稀疏以及歧義推薦問(wèn)題。
1 多情境興趣的蟻群層次聚類
在面向圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)的多情境興趣推薦過(guò)程中,為了獲得全局最優(yōu)的精準(zhǔn)推薦結(jié)果,本文引入了蟻群層次聚類方法,基于蟻群優(yōu)化算法對(duì)層次聚類進(jìn)行優(yōu)化,基于此生成新的項(xiàng)目聚類興趣樹(shù),然后經(jīng)過(guò)蟻群算法的信息素反饋機(jī)制進(jìn)行層次搜索,從而提高多興趣推薦的精度。
1.1 蟻群算法與層次聚類
聚類是數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)關(guān)注問(wèn)題,成功應(yīng)用于用戶行為統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域。但是聚類方法也存在其自身的局限性,即在進(jìn)行層次劃分時(shí)由于缺乏全局待優(yōu)化的目標(biāo)函數(shù)而加大選擇的難度,退而求其次的局部合并效果難以實(shí)現(xiàn)全局聚類的效果。為了保障大數(shù)據(jù)多情境語(yǔ)義挖掘方法在多層次挖掘過(guò)程中獲得全局最優(yōu)的高質(zhì)量聚類結(jié)果,本文在改進(jìn)過(guò)程中引入了蟻群優(yōu)化與層次聚類算法,提出蟻群多情境語(yǔ)義挖掘方法,對(duì)情境語(yǔ)義的層次劃分與挖掘機(jī)制進(jìn)行了改進(jìn),利用蟻群多路徑信息素反饋及其揮發(fā)機(jī)制來(lái)進(jìn)行全局路徑尋優(yōu),從而實(shí)現(xiàn)全局最優(yōu)的高質(zhì)量聚類。蟻群多情境語(yǔ)義挖掘的具體步驟包括:
Step 1:對(duì)本文蟻群聚類涉及到的參數(shù)進(jìn)行設(shè)置,給定實(shí)驗(yàn)的必要條件。
Step 2:對(duì)螞蟻群進(jìn)行啟動(dòng)。假設(shè)初始時(shí)刻存在n座城市、h只螞蟻,螞蟻根據(jù)所經(jīng)過(guò)的覓食路徑上遺留下的信息素來(lái)選擇合適的路徑,由此得到的路徑轉(zhuǎn)移概率設(shè)為pkij(t):
Step 3:對(duì)信息素進(jìn)行更新。如某一時(shí)刻螞蟻實(shí)現(xiàn)了一次路徑轉(zhuǎn)移,則需對(duì)路徑上該螞蟻的信息素?cái)?shù)量進(jìn)行更新,計(jì)算公式為:
1.2 蟻群層次聚類方法
1.2.1 距離標(biāo)準(zhǔn)與簇心選擇
距離標(biāo)準(zhǔn)與簇心選擇是進(jìn)行蟻群層次聚類的第一步,本文采用廣泛使用的歐氏距離來(lái)衡量興趣屬性的相似度:
1.2.2 目標(biāo)函數(shù)選擇
本文在選擇目標(biāo)函數(shù)時(shí)主要采用了Chaimontree的內(nèi)部指標(biāo)計(jì)算方法[11]:
1.2.3 蟻群算法的優(yōu)化
鑒于蟻群算法會(huì)因?yàn)閱l(fā)式信息而導(dǎo)致其收斂速度上升,因此,本文在計(jì)算路徑選擇的轉(zhuǎn)移概率時(shí)引入了基于環(huán)境效應(yīng)的信息素以及基于距離的啟發(fā)式信息:
1.2.4 蟻群層次聚類方法
1.3 算法的Mapreduce化
大數(shù)據(jù)環(huán)境下,蟻群層次聚類在計(jì)算過(guò)程中具有較高的并行性,當(dāng)其求解規(guī)模較大時(shí),會(huì)嚴(yán)重降低蟻群系統(tǒng)的收斂速度,從而影響多情境興趣的推薦效果以及推薦的實(shí)時(shí)性。利用Hadoop分布式與跨異構(gòu)平臺(tái)優(yōu)勢(shì),可有效提高推薦的深度和精度,保障推薦的實(shí)時(shí)性。如文獻(xiàn)[12]基于MapReduce框架構(gòu)建了云環(huán)境下個(gè)性化數(shù)字電視節(jié)目推薦模型;文獻(xiàn)[13]與文獻(xiàn)[14]分別提出了MapReduce處理的多文本聚類模型與圖書(shū)館個(gè)性化服務(wù)推薦算法。因此,本文使用云計(jì)算MapReduce處理工具對(duì)蟻群算法的并行運(yùn)算進(jìn)行處理,通過(guò)大數(shù)據(jù)MapReduce并行挖掘機(jī)制來(lái)改善算法的收斂速度。大數(shù)據(jù)的并行處理流程為:在推薦系統(tǒng)文件中輸入蟻群優(yōu)化算法的信息素、城市間距離以及其他參數(shù)數(shù)據(jù),每個(gè)又包括兩個(gè)階段。在蟻群算法的階段,在每一個(gè)上分配一定數(shù)量的蟻群,由此可獲取相關(guān)的參數(shù)數(shù)據(jù),經(jīng)過(guò)多次運(yùn)算得出算法中各個(gè)螞蟻歷遍各城市的可行解,將這些可行解作為Map階段的輸出,同時(shí)也是Reduce階段的輸入;在Map階段,更新全局信息素,由此得出最優(yōu)解并作為該階段的輸出。蟻群算法經(jīng)過(guò)多次的迭代后,可得出算法的最優(yōu)解。具體而言,MapReduce化的蟻群算法過(guò)程如下。
1.3.1 Map階段
1.3.2 Reduce階段
接收Map階段的相關(guān)輸出,以此作為Map的輸入〈key2,value2〉,對(duì)蟻群信息素進(jìn)行更新,并行處理計(jì)算得出的最優(yōu)值和最優(yōu)解,得出〈key3,value3〉。如〈key3,value3〉滿足求解條件,則運(yùn)算結(jié)束,否則繼續(xù)按照上述步驟循環(huán)進(jìn)行。
2 多情境興趣的蟻群層次聚類推薦
按照前文蟻群層次聚類方法對(duì)情境相似的用戶進(jìn)行聚類,聚類結(jié)果記為C={c1,c2,…,cn},其中n為聚類的個(gè)數(shù)。通過(guò)聚類,可以得出與目標(biāo)用戶最近的鄰類簇,再用類簇內(nèi)其他用戶對(duì)目標(biāo)項(xiàng)目的評(píng)分來(lái)預(yù)測(cè)未評(píng)分項(xiàng)目的評(píng)分,從而進(jìn)行過(guò)濾推薦。
2.1 項(xiàng)目評(píng)分預(yù)測(cè)
3.3 聚類實(shí)驗(yàn)
在進(jìn)行蟻群層次聚類的過(guò)程中,鑒于蟻群算法中存在多組不同的參數(shù),為保證聚類效果達(dá)到最佳,在運(yùn)算過(guò)程中首先需要調(diào)試參數(shù)。經(jīng)過(guò)多次對(duì)本文蟻群聚類算法進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)聚類實(shí)驗(yàn)過(guò)程中的螞蟻數(shù)量為100,λ取值0.5,且經(jīng)過(guò)1 000次最大迭代次數(shù)時(shí),蟻群的聚類效果較為理想,由此得出的偏離誤差較小。當(dāng)螞蟻數(shù)=100時(shí),運(yùn)算得出的最小偏離誤差=28 795,此時(shí)的蟻群聚類效果如圖1(a)所示。經(jīng)過(guò)進(jìn)一步的實(shí)驗(yàn),當(dāng)MIN=19 854,實(shí)驗(yàn)的聚類效果達(dá)到最佳,如圖2(b)所示。
3.4 并行處理的性能分析
為了測(cè)試環(huán)境下本文多興趣推薦算法的性能,本部分采用加速比S與相對(duì)加速比指標(biāo)S相對(duì)進(jìn)行實(shí)驗(yàn)分析。首先,以用戶為單位從該校數(shù)字圖書(shū)館借閱系統(tǒng)數(shù)據(jù)庫(kù)中分別抽取100個(gè)用戶、200個(gè)用戶、500個(gè)用戶和1 000個(gè)用戶,分別定義為數(shù)據(jù)集D1、D2、D3、D4,4個(gè)數(shù)據(jù)集中包含了若干種知識(shí)服務(wù)應(yīng)用以及用戶對(duì)服務(wù)資源的評(píng)分(評(píng)分高低不同且評(píng)價(jià)服務(wù)資源的數(shù)量也不相同)。算法的聚類個(gè)數(shù)設(shè)定為10個(gè),基于此測(cè)試Hadoop環(huán)境下上述數(shù)據(jù)集的并行運(yùn)行時(shí)間,Hadoop運(yùn)行的節(jié)點(diǎn)數(shù)量分別選擇2、4、6、8四種不同的情況,由此記錄下D1~D4數(shù)據(jù)集在不同數(shù)目節(jié)點(diǎn)下的運(yùn)行時(shí)間,詳見(jiàn)圖2所示(橫坐標(biāo)為節(jié)點(diǎn)數(shù),縱坐標(biāo)為加速比)。
從圖2的測(cè)試結(jié)果可以看出,在使用D1測(cè)試數(shù)據(jù)集時(shí),本文推薦模型在Hadoop環(huán)境下運(yùn)行的加速比曲線小于1,且會(huì)隨著節(jié)點(diǎn)數(shù)的增加而呈現(xiàn)出先降后升的變化;而當(dāng)測(cè)試數(shù)據(jù)集為D2~D4時(shí),在節(jié)點(diǎn)數(shù)量相同情況下,測(cè)試得出的加速比S會(huì)隨著數(shù)據(jù)量的變大而迅速增長(zhǎng),而在數(shù)據(jù)量相同的情況下,測(cè)試得出的加速比會(huì)隨節(jié)點(diǎn)數(shù)的增加而不斷上升。為了進(jìn)一步對(duì)比Hadoop環(huán)境下不同數(shù)目節(jié)點(diǎn)對(duì)并行計(jì)算結(jié)果的影響,圖3對(duì)Hadoop分布式環(huán)境下算法執(zhí)行的相對(duì)加速比S相對(duì)進(jìn)行了對(duì)比(橫坐標(biāo)為節(jié)點(diǎn)數(shù),縱坐標(biāo)為加速比)。根據(jù)圖3的比較結(jié)果可以看出,在D1數(shù)據(jù)集情況下,本實(shí)驗(yàn)測(cè)試出的S相對(duì)曲線下降趨勢(shì)非常明顯,而對(duì)D2~D4數(shù)據(jù)集來(lái)說(shuō),雖然其S相對(duì)曲線也呈現(xiàn)出下降的趨勢(shì),但隨節(jié)點(diǎn)數(shù)的增加,其S相對(duì)曲線的下降趨勢(shì)趨于平穩(wěn)。從圖3的對(duì)比結(jié)果還可以看出,在小數(shù)據(jù)量如D1的測(cè)試情況下,推薦模型在Hadoop環(huán)境下的運(yùn)行效率較低,沒(méi)有很好地體現(xiàn)并行計(jì)算的優(yōu)勢(shì),究其原因,主要是Hadoop環(huán)境下推薦系統(tǒng)的作業(yè)啟動(dòng)時(shí)間以及交互時(shí)間較長(zhǎng),而真正用于并行計(jì)算的時(shí)間則相對(duì)較短,因此綜合在一起的最終運(yùn)行時(shí)間較長(zhǎng),很難體現(xiàn)Hadoop集群并行計(jì)算的優(yōu)勢(shì)。但隨著測(cè)試數(shù)據(jù)量的不斷增加,大數(shù)據(jù)環(huán)境下推薦系統(tǒng)用于啟動(dòng)以及交互的時(shí)間占比逐步變小,而更多的比例則主要用于系統(tǒng)的并行計(jì)算。因此,測(cè)試數(shù)據(jù)集越大(推薦算法處理的數(shù)據(jù)量越多),本文算法并行計(jì)算的速度優(yōu)勢(shì)就越明顯,推薦系統(tǒng)的并行處理效率也就越高。
3.5 推薦結(jié)果分析
為了驗(yàn)證多興趣推薦方法的推薦性能,本文引入了Item-Based CF、User-Based CF以及Model-Based CF 3種傳統(tǒng)的推薦算法與其進(jìn)行比較[18]。實(shí)驗(yàn)過(guò)程中,分別賦予了最近鄰居(Nearest Neighbors)不同數(shù)值,通過(guò)對(duì)Nearest Neighbors數(shù)目的變化對(duì)上述3種算法MAE值的變化情況進(jìn)行比較,最終得出的推薦結(jié)果如圖4、圖5所示。
值逐漸減小,且該值減小的幅度趨于增大;而與Item-Based CF、User-Based CF以及Model-Based CF推薦算法的比較結(jié)果也顯示,本文算法的MAE值明顯小于上述3種傳統(tǒng)推薦方法,表明本文推薦算法比傳統(tǒng)推薦算法的誤差更小,推薦結(jié)果更為準(zhǔn)確。圖5表明,與3種傳統(tǒng)推薦算法(Item-Based CF、User-Based CF、Model-Based CF)相比,本文多情境興趣的圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)推薦方法可在較大程度上有效緩解傳統(tǒng)CF推薦的數(shù)據(jù)稀疏性問(wèn)題,這是因?yàn)樵诖髷?shù)據(jù)環(huán)境下,圖書(shū)館用戶成員評(píng)分?jǐn)?shù)據(jù)的稀疏性會(huì)導(dǎo)致許多用戶沒(méi)有或極少有共同評(píng)分的項(xiàng)目,在使用傳統(tǒng)的協(xié)同過(guò)濾推薦算法時(shí),就很難做出有效的挖掘,推薦的準(zhǔn)確性大大降低。面向圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)的多情境興趣推薦算法通過(guò)對(duì)用戶情境興趣進(jìn)行層次劃分,使用改進(jìn)的層次聚類算法和新的目標(biāo)函數(shù)生成聚類的興趣樹(shù),然后通過(guò)蟻群算法中的信息素反饋機(jī)制進(jìn)行層次搜索,由此得出與目標(biāo)用戶最近的鄰類簇,再用類簇內(nèi)其他用戶對(duì)目標(biāo)項(xiàng)目的評(píng)分來(lái)預(yù)測(cè)未評(píng)分項(xiàng)目的評(píng)分,因此有效緩解了大數(shù)據(jù)環(huán)境下用戶評(píng)分?jǐn)?shù)據(jù)極端稀疏的問(wèn)題,取得了較好的推薦效果。
4 結(jié) 論
針對(duì)大數(shù)據(jù)環(huán)境下協(xié)同過(guò)濾面臨的評(píng)分稀疏與單興趣建模問(wèn)題,提出一種面向圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)的多情境興趣推薦方法。實(shí)驗(yàn)結(jié)果表明,本文方法有效解決了單興趣建模存在的歧義推薦問(wèn)題,緩解了傳統(tǒng)協(xié)同過(guò)濾推薦的數(shù)據(jù)稀疏性問(wèn)題,取得了更低的誤差值,MapReduce化的蟻群層次聚類方法也大大提高了系統(tǒng)的運(yùn)行效率。本文貢獻(xiàn)主要包括以下3個(gè)方面:①提出一種圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)的多情境興趣模型的表示方法,通過(guò)對(duì)圖書(shū)館用戶多情境興趣的層次劃分生成新的項(xiàng)目聚類興趣樹(shù),基于蟻群算法的信息素反饋機(jī)制進(jìn)行層次搜索,以此解決單興趣建模存在的歧義推薦問(wèn)題,提高多興趣推薦的寬度。②本文改進(jìn)的蟻群層次聚類算法利用蟻群層次挖掘的優(yōu)勢(shì)來(lái)發(fā)現(xiàn)目標(biāo)用戶的若干最近鄰類簇,然后根據(jù)類簇內(nèi)相似用戶對(duì)目標(biāo)項(xiàng)目的評(píng)分預(yù)測(cè)未評(píng)分項(xiàng)目的評(píng)分,有效緩解了大數(shù)據(jù)環(huán)境下項(xiàng)目評(píng)分的數(shù)據(jù)稀疏問(wèn)題,提高了推薦系統(tǒng)的精度。③面向大數(shù)據(jù)知識(shí)服務(wù)的蟻群層次聚類求解規(guī)模較大,嚴(yán)重影響蟻群系統(tǒng)的收斂速度與推薦系統(tǒng)的實(shí)時(shí)性,通過(guò)處理工具對(duì)蟻群算法的并行運(yùn)算進(jìn)行處理,大大減小了全局計(jì)算時(shí)間,顯著改善了推薦系統(tǒng)的運(yùn)行效率。需要指出的是,本文實(shí)驗(yàn)部分以某高校數(shù)字圖書(shū)館數(shù)據(jù)為例,其借閱系統(tǒng)的數(shù)據(jù)量還不夠大,雖然在一定程度上體現(xiàn)了大數(shù)據(jù)知識(shí)服務(wù)的特點(diǎn),但還難以稱得上是真正意義上的大數(shù)據(jù)。擬在今后的實(shí)驗(yàn)中進(jìn)一步加大數(shù)據(jù)集的容量,深入分析大數(shù)據(jù)知識(shí)服務(wù)并行挖掘與協(xié)同推薦背后的內(nèi)在規(guī)律。
參考文獻(xiàn)
[1]程芳,沈紅巖,趙艷.一種有效緩解數(shù)據(jù)稀疏問(wèn)題的協(xié)同過(guò)濾推薦算法[J].現(xiàn)代情報(bào),2017,37(3):76-79.
[2]韓璽,何秀美,張玥,等.基于語(yǔ)義關(guān)聯(lián)的圖書(shū)館移動(dòng)視覺(jué)搜索資源與服務(wù)聚合研究[J].現(xiàn)代情報(bào),2017,37(10):3-7.
[3]余力,劉魯,李雪峰.用戶多興趣下的個(gè)性化推薦算法研究[J].計(jì)算機(jī)集成制造系統(tǒng),2004,10(12) :1610-1615.
[4]徐紅,彭黎,郭艾寅.基于用戶多興趣的協(xié)同過(guò)濾策略改進(jìn)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(4) :73-76.
[5]馬健,杜澤宇,李樹(shù)青.基于多興趣特征分析的圖書(shū)館個(gè)性化圖書(shū)推薦方法[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2012,(6) :1-8.
[6]楊長(zhǎng)春,孫婧.用戶多興趣信任度的個(gè)性化推薦[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(32) :80-84.
[7]張富國(guó),徐升華.基于信任的電子商務(wù)推薦多樣性研究[J].情報(bào)學(xué)報(bào),2010,29(2):350-355.
[8]陳晶.圖書(shū)館大數(shù)據(jù)知識(shí)服務(wù)情境化推薦系統(tǒng)[J].圖書(shū)館理論與實(shí)踐,2018,(6):181-187.
[9]張亞明.面向云環(huán)境的移動(dòng)信息服務(wù)情景化協(xié)同過(guò)濾推薦[J].情報(bào)學(xué)報(bào),2014,33(5):508-519.
[10]蔡肖紅,劉培玉,王智昊.基于語(yǔ)境情感消岐的評(píng)論傾向性分析[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2017,49(2) :48-53.
[11]Chaimontree S,Atkinson K,Coenen F.Best Clustering Configuration Metrics:Towards Multi-Agent Based Clustering[C].Proc of the 6th Int Conf Advanced Data Mining and Applications.Chongqing:Springer,LNAI,6440,2010:48-59.
[12]Chin-Feng Lai,Jui-Hung Changa,Chia-Cheng Hu,Yueh-Min Huang,Han-Chieh Chao.CPRS:A Cloud-Based Program Recommendation System for Digital TV Platforms[J].Future Generation Computer Systems,2011,27(6):823-835.
[13]杜秀英.基于聚類與語(yǔ)義相似分析的多文本自動(dòng)摘要方法[J].情報(bào)雜志,2017,36(6):167-172.
[14]何勝,馮新翎,武群輝,等.基于用戶行為建模和大數(shù)據(jù)挖掘的圖書(shū)館個(gè)性化服務(wù)研究[J].圖書(shū)情報(bào)工作,2017,61(1):40-45.
[15]劉海鷗.面向大數(shù)據(jù)知識(shí)服務(wù)推薦的移動(dòng)SNS信任模型[J].圖書(shū)館論壇,2014,(10):68-75.
[16]宓翠.融合云環(huán)境用戶情境興趣的移動(dòng)SNS信任推薦模型[J].小型微型計(jì)算機(jī)系統(tǒng),2018,38(3):630-634.
[17]劉海鷗.云環(huán)境用戶情境感知的移動(dòng)服務(wù)QoS混合推薦[J].情報(bào)雜志,2016,35(4):183-189.
[18]何軍,劉業(yè)政,王錦坤.基于社會(huì)選擇和社會(huì)影響的社交網(wǎng)絡(luò)社群分類與群推薦策略研究[J].現(xiàn)代情報(bào),2018,38(1):92-99.
(責(zé)任編輯:郭沫含)