999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向?qū)W術(shù)社區(qū)的專家推薦模型

2012-09-24 13:45:24李春英湯庸陳國華湯志康
智能系統(tǒng)學報 2012年4期
關(guān)鍵詞:用戶模型

李春英,湯庸,陳國華,湯志康

(1.肇慶學院計算機學院,廣東 肇慶 526061;2.華南師范大學 計算機學院,廣東 廣州 510631;3.廣東技術(shù)師范學院計算機學院,廣東廣州 510665)

學術(shù)合作研究越來越受到人們的重視[1].在學術(shù)研究領(lǐng)域有相同研究興趣或者工作在不同學科、領(lǐng)域的科研人員常常組成一個團隊進行合作,顯然這使得更多的問題得到了解決.比如一篇電子商務(wù)方面的論文,可能是從事計算機研究、經(jīng)濟學研究和管理學研究的學者共同的智慧結(jié)晶.實際上,學者間高水平的合作具備更強的生產(chǎn)力.因此,找到潛在的成功合作者對于研究者特別是青年研究者來說是倍受歡迎的.然而,團隊合作常常局限于同一學科、同一科研院所的內(nèi)部.對于我國大多數(shù)二三類院校的研究者而言,因缺乏學術(shù)帶頭人導(dǎo)致眾多研究者特別是青年研究者無法超越現(xiàn)實的距離而徘徊不前.而國內(nèi)外大多數(shù)學術(shù)搜索引擎,如中國知網(wǎng)、萬方數(shù)據(jù)知識服務(wù)平臺、維普資迅、Scirus、Google Scholar、CiteSeer、CiteULike、DBLP、C-DBLP等都具備了文獻檢索的功能,但他們都沒有對有著相似研究興趣和潛在合作關(guān)系的學者進行有效地挖掘和推薦.

為了有效地挖掘潛在的合作者并進行推薦,本文提出了一個面向?qū)W術(shù)社區(qū)的專家推薦系統(tǒng)模型.在這個學術(shù)社區(qū)內(nèi),用戶可以按照關(guān)鍵字搜索相關(guān)論文;系統(tǒng)可以根據(jù)用戶的研究興趣,為用戶自動推薦最新的相關(guān)論文;另外還可以自動管理用戶的學術(shù)資料,如果用戶有新論文發(fā)表出來,當用戶登錄時,系統(tǒng)將會提醒用戶將該論文收藏到自己的主頁中,這樣就極大地方便了用戶對自己資料的管理,同時可以讓其他用戶及時地了解到自己的最新工作進展[2].除常規(guī)功能外,本文著重論述學術(shù)專家推薦模型的設(shè)計及實驗測評.該模型包括3個部分:1)通過分析學者公開發(fā)表的論文被引用的次數(shù)、錄用期刊的影響因子以及發(fā)表論文的數(shù)量3個方面對學者的學術(shù)價值進行量化;2)利用主題模型提取學者的研究方向;3)對搜索關(guān)鍵詞進行查詢擴展,并計算其與作者主題詞之間的相關(guān)度,按相關(guān)度排序在推薦系統(tǒng)中給出用戶需要的學者專家列表,其中用戶可按影響力進行排序.

1 專家推薦模型的相關(guān)工作

專家推薦模型是一種面向?qū)W術(shù)領(lǐng)域的學術(shù)推薦搜索引擎.對于學術(shù)推薦,近年來人們開展了大量的研究工作并取得了豐碩的研究成果.文獻[3]在CiteULike社區(qū)結(jié)合了傳統(tǒng)的協(xié)同過濾的優(yōu)點和概率主題模型進行建模,為用戶推薦論文.文獻[4]提出一個基于合作發(fā)現(xiàn)的搜索引擎,為學者推薦潛在的學術(shù)研究合作伙伴.對于學術(shù)搜索引擎,文獻[2]已經(jīng)做了非常詳盡的闡述,在此不再贅述.

總之,在目前提供學術(shù)信息服務(wù)的所有中文搜索引擎中,都沒有提供推薦用戶感興趣的領(lǐng)域?qū)<曳?wù).如果結(jié)合學術(shù)社區(qū)提供一個易于使用的專家推薦服務(wù),一定能使科研工作者特別是青年科研工作者感興趣,并可能給他們未來的研究工作帶來極大方便.下面將分別闡述面向?qū)W術(shù)社區(qū)的專家推薦模型的詳細設(shè)計和實驗評估,系統(tǒng)的整體架構(gòu)如圖1所示.

圖1 系統(tǒng)的整體架構(gòu)Fig.1 The system architecture

2 模型的詳細設(shè)計

2.1 成果量化

對于獲得諾貝爾獎的科學家而言,他們研究工作的影響和主題相關(guān)性是毋庸置疑的.但對于大多數(shù)的研究人員而言,該如何量化個人科研成果累積的影響和相關(guān)性?科研人員公開發(fā)表的論文記錄顯然是對量化有用的信息.各個科研機構(gòu)往往是利用科研人員有限的成果資源,進行比較和評價.雖然這種量化可能使人反感,但在高校、科研院所,它是科研人員職務(wù)招聘、晉升職稱和補助獎勵的有效依據(jù).J.E.Hirsch在文獻[5]中提出利用個人在過去 n年時間內(nèi)發(fā)表的論文數(shù)量p、論文被引用的次數(shù)c和錄用期刊的影響因子去評估個人的科研成果,即所謂的 H 參數(shù).J.E.Hirsch的 H 參數(shù)在物理學科[6-7]和在科學計量學[8]方面得到了驗證并獲得了廣泛的認同,表明該參數(shù)對于量化個人的科研成果是有效的.J.E.Hirsch提出 H 參數(shù)的具體量化公式[5]如式(1)所示.

式(1)中未直接考慮期刊的影響因子對H參數(shù)的影響.因此對其加以改進,使其能夠更加準確地量化個人的科研成果.

2.2 概率主題模型

概率主題模型越來越多地應(yīng)用于圖像處理和自然語言處理領(lǐng)域.在自然語言處理領(lǐng)域中,主題可以看成是詞項的概率分布.主題模型通過詞項在文檔級的共現(xiàn)信息抽取出語義相關(guān)的主題集合,并能夠?qū)⒃~項空間中的文檔變換到主題空間,得到文檔在低維空間中的表達.這為語料庫挖掘、文檔分類和信息檢索工作提供了極大的便利.本文將使用主題模型抽取作者全部文章的主題信息,進而形成作者研究方向的主題集合.

使用主題模型對文檔的生成過程進行模擬,再通過參數(shù)估計得到各個主題.最簡單的主題模型是LDA(latent Dirichlet allocation)[9].假定 φt表示主題t中的詞項概率分布;θj表示第j篇文檔的主題概率分布;φt、θj又作為多項式分布的參數(shù)分別用于生成單詞和主題,服從Dirichlet分布;T代表主題數(shù)目;M代表文檔數(shù)目;Nj表示第j篇文檔的長度;ωjn和Zjn分別表示第j篇文檔中第n個單詞及其主題;α和β是Dirichlet分布的參數(shù),通常是固定值且是對稱分布的[10].

則對于語料庫中的每一篇文檔ωj,LDA的生成過程如下:

1)對主題采樣 φt~Dir(β),t∈[1,T];

2)采樣主題概率分布θj~Dir(α);

3)采樣文檔的單詞數(shù)目N~Poiss(ξ);

4)對文檔j中的每個單詞n:

①選擇隱含主題Zjn~Multinomial(θj);

②生成一個單詞ωjn~Multinomial(φZjn).

這個過程表明了從每一篇文檔中提取主題詞的過程.對于給定的語料庫,根據(jù)給定的最優(yōu)化目標函數(shù),使用Gibbs參數(shù)估計方法得到對參數(shù)的估計值.利用訓(xùn)練好的模型對新文檔進行推斷,發(fā)現(xiàn)T個主題,進而將指定的詞項空間表達的文檔分解降維,得到所需要的主題集合.

2.3 查詢擴展

查詢擴展是查詢優(yōu)化的一個分支研究方向,也是目前改善信息檢索中查全率和查準率的關(guān)鍵技術(shù)之一.查詢擴展是指為了保證用戶搜索時使用的關(guān)鍵詞和作者主題詞相關(guān),需將用戶搜索時使用的關(guān)鍵詞進行語義擴展,把與原關(guān)鍵詞語義相關(guān)的詞或詞組添加到原查詢中,得到比原查詢更長的新查詢,以便更完整、更準確地描述原查詢所隱含的語義,幫助其提供更多有利于判斷文檔相關(guān)性的信息,提高檢索的查全率和查準率.

隱性語義索引(latent semantic indexing,LSI)[11]用于發(fā)現(xiàn)文本中詞項-文檔之間的語義關(guān)系.在LSI模型中,詞項-文檔矩陣C用于表示詞項和文檔之間的關(guān)系,C=(Cij),其中Cij表示第i個詞項在第j篇文檔中的權(quán)重值,即第i個詞項在第j篇文檔中出現(xiàn)的次數(shù).

LSI通過奇異值分解對高維稀疏的詞項-文檔矩陣構(gòu)造低階最佳近似,以減輕計算的復(fù)雜度.適用奇異值分解降維的基本思想為:假設(shè)Cm×n是詞項-文檔矩陣;m是詞項空間的維度,n是文檔個數(shù),則CCT是m階對稱方陣,其元素(i,j)代表了詞項i和詞項j的共現(xiàn)次數(shù),反映了任意2個詞項(i,j)之間的相似度.則

2)存在正交矩陣 Um×r、Vm×r和廣義對角陣 Σr×r(其 中 Σii= σi)使 得 C=UΣVT,則 CCT=UΣVTVΣUT=UΣ2UT.

2.4 相關(guān)度計算

當用戶進行查詢請求時,首先將關(guān)鍵詞經(jīng)過中文分詞處理,然后對其分詞結(jié)果進行查詢擴展,并將所有結(jié)果作為查詢關(guān)鍵詞向量U的分量,個數(shù)作為關(guān)鍵詞向量空間的維數(shù).最后使用Salton的TF-IDF公式計算向量U中每個關(guān)鍵詞分量的權(quán)值,詳見式(3).

式中:tik表示關(guān)鍵詞分量Uk在主題向量Tid中出現(xiàn)的次數(shù),N表示主題詞庫中主題向量的總數(shù),nk表示主題詞庫中含有關(guān)鍵詞Uk的主題向量數(shù).因此,查詢關(guān)鍵詞被擴展為一個查詢關(guān)鍵詞向量:向量的維數(shù)就是分詞后的中文詞語個數(shù),向量每一維分量的大小就是每個分量的權(quán)值.對每一個主題向量Tid,每個主題分量的權(quán)值取文檔主題的概率分布值.因此主題向量分量的權(quán)值可用其對應(yīng)的概率分布值表示即Pid=[Pid1Pid2…Pidn].此時,要計算關(guān)鍵詞和主題向量的相關(guān)度,可以認為是向量U和向量Tid之間的相關(guān)度,而計算向量之間的相關(guān)度,可以使用向量夾角余弦系數(shù)進行衡量,如式(4)所示,最后按相關(guān)度大小進行排序并將結(jié)果頁面推薦給用戶.

3 實驗評估

3.1 成果量化實驗

量化計算關(guān)鍵在于數(shù)據(jù)庫的設(shè)計和查詢算法.論文和作者是多對多的關(guān)系,為了分擔部分計算壓力、提高查詢性能,需提前計算好部分數(shù)據(jù)結(jié)果.因此,需將SCHOLAT數(shù)據(jù)集中的數(shù)據(jù)分成3個部分.

1)論文信息表:論文ID(主鍵)、論文名稱、作者、作者單位、發(fā)表刊物、影響因子、出版年份、參考文獻、引用次數(shù).

2)論文作者關(guān)系表:論文ID(外鍵)、作者.

將論文信息表中的作者(合作者)、作者單位進行分詞處理并將結(jié)果存入論文作者關(guān)系表、作者信息表.當有信息更新時,系統(tǒng)將論文信息處理后分別存入論文信息表、論文作者關(guān)系表和作者信息表,并更新C值和IF值字段,進而更新作者信息表的H值.

從學者網(wǎng)(SCHOLAT)數(shù)據(jù)集中選取湯庸等100位學者在2006年1月1日—2010年12月31日5年共2 513篇論文進行量化,從中剔除了引用次數(shù)為0的論文373篇,實際參加測試的論文數(shù)目為2 140篇,實驗所需期刊影響因子數(shù)據(jù)來源于中國科技期刊引證報告(核心版)和維普資訊網(wǎng).實驗結(jié)果顯示量化模型有效.因SCHOLAT數(shù)據(jù)集目前不包括英文文獻,導(dǎo)致總體量化值偏低,但與期望值相似.按職務(wù)量化求均值后的結(jié)果如表1所示.

表1 學者成果量化值Table 1 Quantify the achievements of a scholar

3.2 概率主題模型實驗

實驗中,設(shè)定 Gibbs算法的迭代次數(shù)是1 000次,經(jīng)多次實驗,Dirichlet的先驗參數(shù)α和β取值為α=20/K,β=0.01,起到了平滑數(shù)據(jù)的作用.采用Perplexity評估方法(如式(5)所示)確定最佳主題個數(shù)T=200,如圖2所示.在SCHOLAT數(shù)據(jù)集上將作者全部文章的標題和摘要合并后分詞,將分詞后的詞項集合和最佳T值作為LDA算法的輸入項,得到每個作者論文的潛在主題集合,將每個潛在主題下概率最大的詞項提取出來構(gòu)成每個作者研究方向向量Tid,并將每個主題的概率分布值作為其在向量Pid中的權(quán)值.

式中:Nd為文本d的長度,p(dd)是待測試模型產(chǎn)生文檔dd的概率.

圖2 主題個數(shù)與困惑度的變化關(guān)系Fig.2 Relation of number of topics and perplexity

3.3 查詢擴展及相關(guān)度計算實驗

從論文庫中抽取成果量化值大于5的計算機相關(guān)研究方向的100個作者的2 513篇論文,將每一個作者名下的文章標題和摘要合并成一篇文檔,則參與測試的文檔數(shù)目為100,然后對100篇文檔進行分詞,去掉停用詞等沒有實際意義的信息后,共175 910個詞項參與實驗,編寫實驗源程序建立詞項-文檔共生矩陣C,使用Lanczos算法計算SVD,對所建立的高維稀疏的詞項-文檔矩陣分解降維.實驗取得最佳K值,K=53 853,計算并輸出Ck,進而輸出A=CkCTk,則矩陣A為詞項-詞項的相關(guān)度矩陣,Auv表示詞項u和詞項v的相關(guān)度權(quán)值.查詢時將與用戶關(guān)鍵詞相關(guān)度最大的前200個詞項作為擴展詞項加入到用戶的查詢中,其中用戶的原始查詢詞項最能直接反映用戶查詢意圖,其權(quán)值置為最大.在相關(guān)度計算方面,以單個詞項查詢作為測試條件,選擇查詢擴展向量與作者主題向量進行向量夾角余弦系數(shù)計算時,系統(tǒng)的響應(yīng)時間為132 ms.這顯然比設(shè)計成與矩陣Ck中的每一列列向量進行向量夾角余弦系數(shù)計算的方案的系統(tǒng)響應(yīng)時間要少很多.因此,在查全率和查準率近似的情況下,前者大大降低了計算的復(fù)雜度,提高了系統(tǒng)的響應(yīng)時間.

4 結(jié)束語

提出了一個面向?qū)W術(shù)社區(qū)的專家推薦系統(tǒng)模型,給出了系統(tǒng)的總體架構(gòu)及各個部分的詳細設(shè)計方案,在SCHOLAT數(shù)據(jù)集上做實驗驗證了模型的有效性.其中,成果量化模型和概率主題模型部分均為離線運算,降低了系統(tǒng)的壓力.不足之處是成果量化模型中選擇參與計算的成果時間跨度較小且沒有考慮合作者的權(quán)重問題,主要原因是目前SCHOLAT數(shù)據(jù)集有些數(shù)據(jù)不夠充分,以及無法批量獲得論文的通信作者信息,下一步應(yīng)用時將主要解決這些問題.

[1]HUANG J,ZHUANG Z,LI J,et al.Collaboration over time:characterizing and modeling network evolution[C]//Proceedings of the International Conference on Web Search and Web Data Mining.Palo Alto,USA,2008:107-116.

[2]陳國華,湯庸,彭澤武,等.基于學術(shù)社區(qū)的學術(shù)搜索引擎設(shè)計[J].計算機科學,2011,38(8):171-175.CHEN Guohua,TANG Yong,PENG Zewu,et al.Design of an academic search engine based on the scholar community[J].Computer Science,2011,38(8):171-175.

[3]WANG Chong,BLEI D M.Collaborative topic modeling for recommending scientific articles[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA,2011:448-456.

[4]CHEN H H,GOU Liang,ZHANG Xiaolong,et al.Collabseer:a search engine for collaboration discovery[C]//Proceedings of JCDL.Ottawa,Canada,2011:231-240.

[5]HIRSCH J E.An index to quantify an individual’s scientific research output[J].The National Academy of Sciences of the USA,2005,102(46):16569-16572.

[6]POPOV S B.A parameter to quantify dynamics of a researcher’s scientific activity[EB/OL].[2011-11-03].http://arxiv.org/abs/physics/0508113.

[7]BATISTA P D,CAMPITELI M G,KINOUCHI O,et al.A complementary index to quantify an individual’s scientific research output[J].Scientometrics,2006,68(1):179-189.

[8]BORNMANN L,DANIEL H D.Does the h-index for ranking of scientists really work?[J].Scientometrics,2005,65(3):391-392.

[9]BLEI D,NG A,JORDAN M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[10]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計算機學報,2011,34(8):1423-1436.

XU Ge,WANG Houfeng.The development of topic models in natural language processing[J].Chinese Journal of Computers,2011,34(8):1423-1436.

[11]DEERWESTER S,DUMAIS S T,LANDAUER T K,et al.Indexing by latent semantic analysis[J].Journal of The American Society for Information Science,1990,41(6):391-407.

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
Camera360:拍出5億用戶
100萬用戶
主站蜘蛛池模板: 就去吻亚洲精品国产欧美| 欧美成人午夜在线全部免费| 97se亚洲| 中文无码日韩精品| 99热这里只有精品免费国产| 久久国产精品波多野结衣| 欧美特黄一级大黄录像| 精品无码一区二区三区在线视频| 女人毛片a级大学毛片免费| 91亚洲国产视频| 伊人久热这里只有精品视频99| 国产美女精品在线| 四虎成人在线视频| 亚洲动漫h| 曰韩人妻一区二区三区| 国产在线视频福利资源站| 天堂va亚洲va欧美va国产| 伊伊人成亚洲综合人网7777| 色一情一乱一伦一区二区三区小说| 欧美精品另类| 中文字幕丝袜一区二区| 农村乱人伦一区二区| 国语少妇高潮| 久久综合一个色综合网| 国产爽爽视频| 国产人免费人成免费视频| 天天躁日日躁狠狠躁中文字幕| 国产粉嫩粉嫩的18在线播放91| 色综合狠狠操| 夜精品a一区二区三区| 午夜国产大片免费观看| 国模在线视频一区二区三区| 色偷偷男人的天堂亚洲av| 久久久四虎成人永久免费网站| 亚洲成人在线网| 日本一区高清| 欧美成人精品一级在线观看| 青青青国产免费线在| aaa国产一级毛片| 国产真实乱了在线播放| 精品国产三级在线观看| 高清码无在线看| 国产免费高清无需播放器| 国产精品专区第一页在线观看| 亚洲精品日产精品乱码不卡| 黄色一及毛片| 亚洲乱亚洲乱妇24p| 91外围女在线观看| 九九香蕉视频| 国产麻豆va精品视频| 亚洲人成色在线观看| 91精品啪在线观看国产| 国产成人亚洲无吗淙合青草| 欧美综合在线观看| 午夜日本永久乱码免费播放片| 亚洲成年人网| 欧美激情福利| 日韩中文无码av超清| 亚洲第一色网站| 精品无码一区二区三区电影| 国产成人精品高清不卡在线| 五月天综合婷婷| 国产浮力第一页永久地址| 亚洲午夜天堂| 日韩欧美国产区| 国产精品成人免费综合| 视频国产精品丝袜第一页| 日韩麻豆小视频| 亚洲成aⅴ人在线观看| 国产精品污视频| 国产一在线观看| 亚洲日韩日本中文在线| 免费a级毛片视频| 九九视频在线免费观看| 国产午夜无码片在线观看网站 | 99热在线只有精品| 日本道综合一本久久久88| 狠狠亚洲五月天| 亚洲综合色区在线播放2019 | 国产中文一区a级毛片视频| 亚洲国产精品无码AV| 国产你懂得|