蔡 芳,沈 一,南 凱
(1. 中國科學院計算機網絡信息中心,北京100190;2. 中國科學院大學,北京 100049)
基于科研在線文檔庫平臺的標簽推薦系統
蔡 芳1,2,沈 一1,2,南 凱1
(1. 中國科學院計算機網絡信息中心,北京100190;2. 中國科學院大學,北京 100049)
科研在線文檔庫是一個面向團隊的文檔協同與管理工具,為虛擬團隊提供合作平臺。它采用標簽系統的方式組織其中的所有文檔。在文檔庫的使用過程中,出現了無標簽文檔數量的累積以及用戶為文檔添加的標簽質量偏低問題,影響文檔的分類和共享。針對該問題,采用適用于科研在線文檔庫平臺的標簽推薦方法,包括協同過濾以及關鍵詞抽取2個部分,促使用戶為文檔添加合格的標簽,提高文檔系統的使用效率。協同過濾推薦部分的實驗采用準確率和召回率衡量標準,關鍵詞抽取部分采用用戶調查的實驗方式,實驗證明為每個文檔提供3個候選標簽能夠得到理想效果。在實際使用環境中,該系統具有較高的精確度和可靠性,簡單易于實現。
標簽推薦;標簽系統;協同過濾;關鍵詞抽??;冷啟動;文檔協同
Web2.0下,用戶行為由Web1.0中獲取信息轉變為以交互為主的方式,信息發布的來源轉向Web用戶。相對于傳統的基于網站預先設定的分類體系的信息分類方法,標簽系統的開放性、簡單性、標簽由資源共享者提供等特點[1],使得它成為Web2.0網站的重要信息分類和索引方式。用戶生成內容(User Generated Content, UG C)標簽系統,通過讓用戶對信息打標簽,將具有相同標簽的信息進行分類歸納整理,形成以標簽為中心的信息分類系統[2]。2004年,標簽系統領域的信息架構專家,提出分眾分類法的概念,指群眾自發性定義的平面非等級標簽分類,用于信息的分類和共享。目前比較流行的UGC標簽系統有書簽類站點Delicious、論文書簽網站CiteULike、相片分享網站Flickr等。
科研在線文檔庫(Duckling D ocument L ibrary, DDL)是一個面向虛擬組織的協作式、文檔共享和管理工具[3]。系統利用用戶添加的標簽對團隊中所有的文檔進行分類。其中未打標簽的文檔被放置于無標簽文檔類。一方面,隨著團隊成員和文檔數量的增加,無標簽文檔的數量開始累積,這些文檔處于一種平行無清晰組織結構的狀態,當用戶需要在其中尋找某一特定類別的信息時,比較耗時,這種情況不利于DDL文檔的高效利用和管理,所以為無標簽文檔推薦標簽成為一種需求。另一方面,由于用戶可以任意地為文檔添加標簽,而用戶自身對信息和詞匯的理解存在不準確性,使系統中的標簽存在一定程度的冗余性、不一致性和不完備性[4]。這些問題都會影響到標簽系統在進行文檔組織、分類時的性能,所以提升標簽的質量成為標簽系統中核心的問題。當用戶想為文檔添加標簽時,為用戶提供高質量的標簽備選,可以有效地緩解上述問題。
本文基于協同推薦的方式,為無標簽頁面提供高質量候選標簽。如傳統的協同推薦一樣,對于一個新的團隊文檔集合,存在數據稀疏的冷啟動問題。針對這種現象,系統采用關鍵詞抽取的方式,利用文檔自身的內容信息提取候選標簽集合。當系統中的標簽積累到一定質量和數量之后,再采取協同過濾的方式進行標簽推薦。
本文利用文檔內容信息和文檔與標簽之間的關系進行標簽的推薦,而傳統的標簽推薦系統,基本都是基于用戶、標簽、資源3個對象之間的關系[5-6],較少考慮資源自身的內容特征。當用戶在DDL中對某一文檔進行添加標簽的操作時,系統會提供相關的推薦標簽集合,此時,用戶可以直接選擇相關的標簽進行添加,也可以在候選標簽的提示下,添加自己的語義層面標簽,這樣可以有效地提升用戶打標簽的質量,降低打標簽的難度。
標簽推薦可以有效地提高系統標簽質量,減少用戶打標簽的難度,近年來成為學術界和工業界關注研究的重點。在傳統的標簽推薦系統中,比較簡單的標簽推薦方法包括4種(統稱為基于最流行的推薦法):為用戶推薦整個系統最熱門的標簽,為用戶推薦他自己經常使用的標簽,為用戶推薦資源上最熱門的標簽。通過系數將前面2種方式的推薦結果進行線性加權的簡單混合推薦[2]。
這4種方式不用進行復雜的模型訓練和計算,實現成本低,在商業系統中較常使用。例如豆瓣,用戶可以為一本書或者是一部電影添加標簽,此時,標簽系統會為用戶提供2類標簽,一類是用戶自己的標簽,另一類是此書籍或者電影上經常被標記的標簽。對于商業產品,此類方法效果較好而且實現簡單快速。但是這些算法對于新用戶或者是不太熱門的物品,存在冷啟動問題,很難有較理想的推薦效果。
圖模型也可以用于標簽推薦系統。先根據用戶對資源打標簽這種行為,生成用戶-資源-標簽無向圖?;诖藞D的相關算法有FolkRank算法[7],此算法認為一個標簽如果標記重要資源,而且是重要的用戶進行的標注,那么這個標簽就更重要。經過迭代計算,得到標簽的得分排名,然后為資源提供topN標簽推薦。另外一類是采用基于隨機游走的PersonalRank算法[8],此算法基本思路是:從用戶U對應的節點VU出發進行隨機游走,游走到任何一個節點時,按照概率選擇繼續游走或者是返回節點VU開始重新游走,經過迭代計算,使各個節點被訪問的概率收斂到一個值,該概率就是推薦列表中標簽的權重。這些算法都存在要進行模型訓練、計算復雜、時間復雜度高等問題,在實際系統中應用起來還有很多實際的困難需要解決。
本文提出了一種綜合協同過濾推薦以及關鍵詞抽取的標簽推薦方式。在DDL平臺上,由于文檔上被標記的標簽都是共享的,即只存在文檔、標簽二維空間,而不是圖模型中的三維空間,這樣前文所說的一些推薦方式并不適合DDL實際環境,在此情況下本文提出一種不考慮用戶的協同推薦方式,簡單高效,易于實現?,F在主流的標簽推薦研究都是在Delicious、Bibsonomy等公開的數據之上進行的[9],標簽數據量有一定的基礎,不用考慮冷啟動的問題。在DDL中,若成立一個新的科研團隊,其中基本沒有標簽,此時,采用第2種推薦方法:基于內容的關鍵詞抽取標簽推薦方法。
Delicious、豆瓣等系統中,用戶和資源之間是多對多的關系,用戶U1和U2都可以對資源I添加標簽,并且他們添加的標簽集合S1、S2是獨立的。而在DDL中,由于DDL的宗旨是團隊協作和共享,團隊成員之間的關系是十分親密的,因此所有用戶對于一個文檔添加的標簽都屬于一個集合S。由于不存在完整的用戶-資源-標簽三維空間,本文第2節中提到的主流標簽推薦方式并不適合DDL,從可用性、實用性、易于實現等方面考慮,提出一種綜合協同過濾和關鍵詞抽取的標簽推薦方法。
當團隊中已打標簽的文檔數目占所有文檔的比例超過一個閾值時,采用協同過濾標簽推薦方式,當小于這個閾值時,采用關鍵詞抽取方式。
傳統的協同過濾中,通過用戶對資源的評分矩陣計算資源相似度或者是用戶相似度。例如電子商務網站中當2個物品被同一個用戶喜歡,那么它們的相似度加一。在DDL中,文檔的協作分享面向科研團隊,在一個團隊中,用戶和文檔之間關系的黏度是比較強的,即一個用戶訪問某2個頁面的可能性很大,并不能代表這2個頁面的相似度關系,因此,使用傳統的相似度判斷方法并不適合DDL?;诖?,本文采用基于內容判斷文檔相似度的方法。
3.1.1 文檔特征向量
對于DDL團隊中的文檔,在對其文檔內容分詞之后,利用TF-IDF模型計算文檔中每個關鍵詞的權重,然后構建文檔特征向量:

其中,Di表示文檔i的特征向量;termij(j=1,2,…,n)表示將文檔i的特征詞按照權重由大到小排序之后的第j個特征詞;wij是其對應的tf-idf權重。
3.1.2 相似文檔集合
目標是計算目標文檔的相似文檔集合。在構建了團隊文檔向量空間模型之后,利用余弦定理計算2個文檔特征向量之間的距離:

其中,分子代表特征向量Di和Dj中相同的特征詞對應的權重乘積求和。
在DDL團隊中,對于目標頁面d,計算它與團隊中其他文檔的相似度,選取前30個頁面形成d的相似頁面集合Nd:

其中,Ntop30表示與目標文檔d相似度最大的前30個文檔集合;Di表示第i個文檔向量;simid表示文檔i與目標文檔d的相似度權重。
3.1.3 推薦標簽集合
在DDL中,對于目標文檔d,其相似文檔集合為Nd,對于其中的每個文檔i,其上有一些已經被標記上的標簽t,將對應于i的已有標簽集合記為Ti。對頁面d的推薦標簽集合如下:Trec- d={(td1,wtd1),(td2,wtd2),…,(tdk,wtdk)}。其中,tdi∈T1∪T2∪…∪T30(i=1,2,…,k)是為目標文檔d推薦的第i個標簽;wtdi是標簽tdi對應的排名權重,由如下公式計算:

其中,Tk代表文檔k上已有的標簽集合;Ntdi代表在目標文檔d的相似文檔集合Nd中包含標簽tdi的所有文檔的集合;Trec-d按照標簽權重wtdi進行排序。
用TF-IDF度量關鍵詞的權重。采用公式tf-idft, d= tft, d×idft,tft,d表示詞項頻率,idft表示逆文檔頻率。在詞袋模型[10]的文檔視圖下,TF-IDF模型能夠表示文檔中詞項的區分度和重要度[11]。TF-IDF被公認為信息檢索中最重要的發明,常用于搜索引擎排名中確定網頁和查詢的相關性、自底向上文檔分類等問題中[12]。
對于一個全新的團隊,系統中基本沒有標簽,在協同過濾方式中會出現冷啟動的問題,本文采用關鍵詞抽取的方式來解決。具體做法如下:采用IKAnalyzer中文分詞器的智能切分方式對文檔分詞,將DDL中已經存在的標簽作為自定義的擴展詞典,過濾單個漢字詞項和數字,然后統計文檔中詞項的TF-IDF值,選取topK作為推薦集合:

其中,關鍵詞按照權重由大到小排名,推薦文檔的前K個最大TF-IDF權重的關鍵詞集合。
4.1 基于內容的協同過濾標簽推薦
4.1.1 實驗數據及度量方法
為驗證算法的性能,本系統采用DDL中某一團隊的部分數據集合。這個數據集合包含3 000個頁面。隨機選取所有頁面的20%作為測試集合,即訓練集合頁面數目為600。
由于系統屬于TopN推薦,即為用戶提供一個推薦列表。TopN推薦的預測精度一般通過準確率和召回率來度量。這里,采用這2種傳統的度量方式:

其中,p表示測試頁面集合;R(p)表示給頁面推薦的標簽集合;T(p)表示測試集中的頁面實際被標記上的標簽。
通過選取不同的列表長度N,計算出一組準確率和召回率,以此判斷最佳的推薦長度。為了保證測試實驗的準確性,重復實驗5次,每次用于測試的600個頁面都是隨機選擇的不同頁面。
4.1.2 結果分析
選取N={3,4,5,6}進行實驗,每次進行5次重復實驗。圖1代表取不同的N值時的準確率,圖2是對應的召回率。

圖1 N取不同值時的準確率

圖2 N取不同值時的召回率
從圖1中可以看出,準確率相對于召回率處于一個較小的取值空間,因為準確率代表的是頁面推薦集合和原有標簽集合的交集C與推薦標簽集合的總數目R的比例。當N變大時,R增長較快,例如N為3時,推薦總數為3×600= 1 800,N為4時推薦總數為4×600=2 400,而選用的團隊頁面集合基本上每個頁面的標簽數目在1個~2個之間,而集合C受到原有標簽集合的數目限制,C與R的數量差距較大,這也就解釋了精確率都在較小數據區間內的現象。
而準確率隨著N的增長呈現下降的趨勢,主要是由于N的增長導致R顯著增大,但是對于C的提升沒有很明顯的效果,出于實際DDL中頁面的標簽基本上是在3個以內,此處認為選擇N為3時,比較理想。
召回率代表了集合C與頁面原有標簽集合T的比例。對于隨機選擇的600個測試頁面集合,T的數量基本穩定,但是當增大推薦數目N時,如同在分析精確度時所描述的,N對于推薦效果的提升雖然沒有很顯著的影響,但是當推薦的候選集合增大,交集C還是會有小幅度的增加,因此,也就表現為召回率的小幅度增大變化,但是這個增長幅度太小,故認為N為3時的召回率已經是比較理想了。
綜合上述原因,采用推薦標簽集合長度N為3較理想。
4.2 關鍵詞抽取推薦
本文是基于TF-IDF進行關鍵詞提取,所得到的關鍵詞推薦集合是基于分詞結果。例如頁面“試用期/實習期管理”,得到的推薦集合是{實習期,試用期,轉正};頁面“考勤公示說明”,推薦集合{缺勤,考勤,公示};頁面“2010級碩士生開題答辯”,推薦集合{開題,碩士生,2010級}??梢钥闯?,內容抽取的方式能夠得到一些比較好的代表文檔內容的關鍵詞,這樣能夠方便用戶對文檔添加標簽。內容抽取方式得到的是詞粒度的標簽。而當DDL團隊被使用一段時間之后,部分頁面會被添加上一些語義層面的標簽,例如“科研與教育”、“全室共享”,這樣在基于內容的協同推薦方式下,就會為頁面提供一些語義層面的標簽推薦,例如上面提到的頁面“2010級碩士生開題答辯”,得到推薦集合{科研與教育,分享與研究,默認集合 }。
對于該推薦方式采用用戶調查的方式進行實驗。由于對于已有標簽的頁面,其上的標簽可能會影響用戶對推薦結果的主觀判斷。因此,隨機選擇團隊中個300個未打標簽頁面,選擇5個用戶參加調查,評價分為3個等級。重復實驗5次結果如表1所示。其中數據分別代表300個頁面中用戶滿意、感覺一般和不滿意頁面的數目所占的比例。

表1 用戶調查滿意度
隨著使用時間的增長,標簽數量和質量會逐步的積累和改善,從而標簽推薦系統的效果也會穩步上升。
本文綜合協同過濾方法和關鍵詞抽取方法對DDL團隊文檔推薦標簽。在解決標簽推薦冷啟動問題的同時能夠為用戶提供高質量的候選標簽集合,方便用戶對頁面添加具有代表性的標簽。提升了DDL的標簽系統,使得文檔的組織、管理和分享更加高效有序。實驗結果證明,該系統能夠為文檔提供較高精度的標簽推薦,有利于DDL標簽系統的有效構建和發展。下一步工作著重于提高標簽推薦的精度,同時在關鍵詞抽取方面,利用主題模型進行實驗,和TF-IDF方法進行對比。
[1] Golder S A, Huberman B A. The Structure of Collaborative Tagging System[J]. Journal of Information Science, 2006, 32(2): 198-208.
[2] 項 亮. 推薦系統實踐[M]. 北京: 人民郵電出版社, 2012.
[3] 南 凱, 董科軍, 謝建軍, 等. 面向云服務的科研協同平臺研究[J]. 華中科技大學學報: 自然科學版, 2010, 38(1): 14-19.
[4] Guy M, Tonkin E. Folksonomies: Tidying up Tags?[J]. D-Lib Magazine, 2006, 12(1): 1-15.
[5] 許棣華, 王志堅, 林巧民, 等. 一種基于偏好的個性化標簽推薦系統[J]. 計算機應用研究, 2011, 28(7): 2573-2575.
[6] G emmell J, Schimoler T, Mobasher B, et al. Hybrid Tag Recommendation for Social A nnotation Systems[C]//Proc. of the 19th ACM International Conf erence on Information and Knowledge Management. New York, USA: ACM Press, 2010: 829-838.
[7] Hotho A, J?schke R, Schmitz C, et al. Information Retrieval in Folksonomies: Search and Ranking[C]//Proc. of the 3rd European Sema ntic W eb Conference. Berlin, Germany: Springer-Verlag, 2006: 411-426.
[8] Haveliwala T H. T opic-sensitive PageRa nk[C]//Proc. of the 11th International Conference on World Wide Web. New York, USA: ACM Press, 2002: 517-526.
[9] 勒延安, 李玉華, 劉行軍. 不同粒度標簽推薦算法的比較研究[J]. 計算機應用研究, 2012, 19(2): 504-509.
[10] Lewis D D. Naive(Bayes) at Forty: The Independenc e Assumption in Information Retrieval[C]//Proc. of the 10th European Confer ence o n Mac hine Le arning. Lo ndon, UK: Springer-Verlag, 1998: 4-15.
[11] Manning C D, Rag havan P, Schütze H. 信息檢索導論[M]. 王 斌, 譯. 北京: 人民郵電出版社, 2010.
[12] 吳 軍. 數學之美[M]. 北京: 人民郵電出版社, 2012.
編輯 顧逸斐
Tag Recommendation System Based on Duckling Document Library Platform
CAI Fang1,2, SHEN Yi1,2, NAN Kai1
(1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China)
Duckling Document Library(DDL) is a tool for document collaboration and management among research teams. It provides a cooperation platform for virtual teams. T ag system is used to manage all the documents on it. During the use of the lib rary, the number of documents without any tags is gradually accumulating and the quality of tags labeled by users to some documents is not so good. All these troubles impede the effective control of the documents. In order to solve these problems, this paper proposes a tag recommendation method suitable for the document library of research onl ine platform, which includes collaboration filterin g recommendation and keywor ds extraction recommendation, in this way users are prompted to ad d qualified tags and improve the efficiency of the document libr ary. Precision and recall rate metrics are used in the collaboration filtering recommendation and user survey in the keyw ords extraction recommendation. Experimental results show that a recommended list of three tags can get desired effect. In production environment, this tag recommendation system has qualified accuracy, reliability and is easy to be implemented.
tag recommendation; tag system; collaborative filtering; keywords extraction; cold-start; document collaboration
10.3969/j.issn.1000-3428.2014.05.061
中國科學院十二五信息化基金資助項目“科研信息化應用推進工程(XXH12503)。
蔡 芳(1990-),女,碩士研究生,主研方向:網絡協同,推薦系統;沈 一,博士研究生;南 凱,研究員。
2013-03-05
2013-05-03E-mail:caifangzky@sina.cn
1000-3428(2014)05-0295-04
A
TP39