王凱++孫濟慶++李楠



〔摘要〕學術文獻中包含的大量有價值的知識往往無法在摘要中體現(xiàn)出來。本文提出一種基于位置加權的核心知識挖掘方法,旨在以句為知識處理粒度,抽取正文中的核心句子作為獨立的知識單元。該方法通過量化句子間的關聯(lián),將正文表示成一個以句子為節(jié)點,句子間關聯(lián)為邊的文本關系網(wǎng)絡,提出基于章節(jié)的位置加權算法,結合社會網(wǎng)絡分析方法,挖掘出文本中核心知識單元部分的句子。實驗結果表明,該方法可以實現(xiàn)對文章核心章節(jié)中重要句子的抽取,達到初步預期效果。
〔關鍵詞〕學術文獻;知識挖掘;方法;位置加權;知識抽取;文本網(wǎng)絡;社會網(wǎng)絡分析
DOI:10.3969/j.issn.1008-0821.2017.05.009
〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821(2017)05-0047-05
Research on Method of Knowledge Minning in Academic DocumentsWang KaiSun JiqingLi Nan
(Institute of Science and Technology Information,East China University of
Science and Technology,Shanghai 200237,China)
〔Abstract〕There is abundant valuable knowledge inside academic documents that is not revealed in abstracts.This paper promoted a method of core knowledge discovery based on position weights,aiming to extract the core sentences as separated knowledge units in the main text with the processing size of sentence.By measuring the connection between sentences,the paper transformed main text into a text network that considers sentences as dots and connection between sentences as sides.An algorithm to compute position weights based on chapters was promoted in this paper.With the help of social network analysis,the paper could find sentences that revealed the core knowledge of the text.The result of the experiment showed that this method could realize the extraction of key sentences in the core chapter from the text,which is primarily expected.
〔Key words〕academic documents;knowledge minning;method;position weight;knowledge extraction;text network;social network analysis
互聯(lián)網(wǎng)技術的發(fā)展使得信息,尤其是文本信息呈爆炸式的發(fā)展,在海量的文本信息面前,人們希望可以從中抽取出最關鍵最有價值的信息,并轉化成知識進行存儲應用。學術文獻中包含大量有學術價值的知識,特別是期刊論文,凝聚著科學家的研究成果與智慧,論文中知識點非常豐富,而且比較新穎,實現(xiàn)自動對學術文獻中的關鍵知識進行提取并利用是一個研究趨向。學術文獻與其他類型的文獻,如新聞、博客、網(wǎng)頁等文獻不同,學術文獻具有獨特的結構化特性,其基本形式為標題、摘要、關鍵詞、正文、參考文獻組成;而正文又通常包括引言、相關研究、方法、實驗、結論幾大部分。早期的研究主要是針對學術文獻的題錄信息來研究學術文獻中所包含的主題內容,利用標題、關鍵詞、參考文獻以及摘要作為研究對象。摘要和關鍵詞雖然可以對文獻的內容進行高度概括和總結,但是卻往往沒有體現(xiàn)文獻中的核心知識,這些核心知識往往包含在正文之中。為更好地挖掘文獻中內涵的知識,本文提出一種位置加權的方法,以句子為粒度,將學術文獻正文表達成一個句子為節(jié)點的文本網(wǎng)絡,通過句間關系來抽取出學術文獻中的核心知識。
1相關研究
知識抽取(Knowledge Extraction)是對蘊含于文獻中的知識經(jīng)識別、理解、篩選、格式化,從而把文獻中的各個知識點抽取出來,是信息抽取的升華和深化[1]。溫有奎,朱曉蕓,文孝庭等人在國內較早提出了知識元的概念,表示知識單元是文章中可以表達知識且可以獨立使用的最小單位,并對其的抽取規(guī)則進行了描述[2-5]。知識抽取的方法可以分為3大類:基于模式匹配的抽取方法、基于本體的抽取方法以及基于語義的抽取方法。
1)基于模式匹配的抽取方法主要用于實體和屬性的抽取,適用于有一定規(guī)則可循的抽取對象。Chunxia Zhang和Peng Jiang研究了如何對漢語語料進行定義抽取。他們通過設定句子模式,然后利用模式的匹配進行抽取;溫有奎等利用學術文獻中創(chuàng)新點表述的句子結構特點對創(chuàng)新點進行抽取[6-7]。這種方法要求所抽取的知識表述具有一定的規(guī)則和模式,對于那些大量無規(guī)則的非結構化文本無法很好地完成抽取工作。
2)基于本體的抽取方法是通過建立本體描述概念與概念之間的關系,再基于建立好的本體在文檔中抽取相匹配的知識內容。車海燕等提出基于本體主題的屬性識別方法和基于本體屬性約束的三元組元素識別方法,抽取出非結構化文本中隱含的知識元素,并找出元素間的屬性關系[8]。本體是一個理想的可以表達領域內所有語義及語義關系的一種語料庫,基于本體的抽取方法的效果好壞完全取決于本體建立的完善程度。基于語義的抽取方法是結合自然語言處理技術(Nature Language Processing,NLP)、語義Web、文本挖掘、機器學習、句法分析以及圖論等理論與技術,深入到組成文檔的詞句和語法結構來理解文本所包含的語義。Dingding Wang等人指出常用的給句子打分的方法只把句子當作獨立的對象研究而忽略了上下文中隱含的主題,而且打分的方法缺少清晰嚴格的概率解釋,并提出一種使用貝葉斯算法的基于句子的主題模型進行多文檔的自動摘要研究[13]。Rada Mihalcea結合基于圖論的網(wǎng)頁信息組織的3種常用算法:HITS、Positional Power Function和谷歌的PageRank算法,提出了以句子為節(jié)點、句子之間的關聯(lián)為邊的文本關系圖方法,不僅考慮到句子內容的特征還考慮了句子之間的相互影響[14]。Dingding Wang等人提出了一種自動文檔摘要方法,以詞共現(xiàn)計算句子間的相似度,構建相似矩陣,再基于對稱矩陣因式分解法對文本的句子進行聚類并從每類中抽取出目標句子組成摘要[15]。
3)基于語義的抽取方法研究著重關注文本的語義,試圖讓計算機能夠像人類一樣理解文本,但是目前尚且沒有一個可行且效果理想的抽取方法,但是對于文獻中基于句子粒度的抽取方法從只考慮句子本身,慢慢發(fā)展到從文獻整體研究句子與句子之間的聯(lián)系來考量句子的重要程度。本文所采用的研究方法正是將正文看作是由句子構成的一個復雜文本網(wǎng)絡,通過句子之間的聯(lián)系去尋找文獻中的核心模塊。
2核心知識抽取方法
每一篇學術文獻都有其核心的知識點,是其文章的學術價值所在,而這些核心知識往往沒有在摘要中全面體現(xiàn)出來,僅從摘要無法反映文獻的內含的所有知識。為能充分挖掘文獻中包含的各知識點,本文提出了一種以句子為粒度的基于章節(jié)位置加權的核心知識抽取方法,抽取出學術文獻中能反映文章核心知識的核心句子。
21基礎知識抽取
211構建復雜句子網(wǎng)絡
以文獻中的句子為粒度是本方法研究的核心。構建復雜句子網(wǎng)絡是以句子為網(wǎng)絡中的節(jié)點,以句子之間的關聯(lián)度為節(jié)點間的邊,連接構成一個網(wǎng)絡結構。因此,計算句子之間的關聯(lián)度是構建復雜句子網(wǎng)絡的關鍵,句子關聯(lián)度的計算效果如何直接決定了構成的句子網(wǎng)絡所能反映的文本內容的質量。
句子是學術文本中表達一個完整語義內容的最小單位,而句子從形式上是由詞和語法結構組成。通過句子與句子之間復雜的關聯(lián)關系可以反映出整個文本網(wǎng)絡的關聯(lián)情況,并且找出網(wǎng)絡中核心的區(qū)塊。本文采用在統(tǒng)計自然語言處理中被廣泛接受和采用的方法,以詞耦合數(shù)來計算兩個句子之間的簡單關聯(lián)度。這種方法中,在對句子Si進行分詞、過濾停用詞等操作之后,每個句子Si被處理成由若干實義詞組成的詞集Si(W1,W2,…,Wn),若兩個句子Sj和Sk的詞集中都出現(xiàn)了相同的詞W,那么這兩個句子之間就出現(xiàn)了一個詞耦合對,只要兩個句子之間出現(xiàn)了至少一個詞耦合對,就在Sj和Sk兩個句子節(jié)點之間形成一條邊。將文章中的句子兩兩進行如此處理計算,最終可以形成一個以句子為節(jié)點、句子相似度為邊的句子網(wǎng)絡。但是,這樣方法形成的句子網(wǎng)絡中每條邊的價值都是相等,句子之間要么相似要么不相似,而在實際應用中,文本中句子間的相似度是有很大差異的。因此,在計算句子間相似度的時候,使用兩個句子之間出現(xiàn)的詞耦合對的次數(shù)作為句子間的相似度,若句子Sj和Sk之間有n個詞耦合對,則Sj和Sk之間的相似度為n,由此形成的句子網(wǎng)絡是帶有權重的復雜句子網(wǎng)絡[18]。
句子之間的關聯(lián)度除了用詞關系進行描述,句子的語法結構也起著很大的作用。在學術文本中,兩個句子之間的語義關聯(lián)絕不僅僅由詞來表現(xiàn),句子內部以及句子之間還有語法結構來表現(xiàn)句子的語義。如“雖然…但是…”、“如果…就…”等復句結構,同樣的詞出現(xiàn)在從句和主句從能反映句子內容的程度并不一樣。而句子之間往往會有類似“基于該理論,…”、“因此……”、“…該方法…”等代詞和連詞來表現(xiàn)句子之間緊密的聯(lián)系,而這樣的關聯(lián)通過詞耦合對的方法是很容易被削弱或忽略。
212社會網(wǎng)絡分析
通過上述方法構成的復雜句子網(wǎng)絡類似于一個社會網(wǎng)絡,可以使用社會網(wǎng)絡分析中對節(jié)點重要性的評價方法來尋找句子網(wǎng)絡中的核心句子。常用的社會網(wǎng)絡分析方法被稱為度分析方法,以計算節(jié)點的中心度來評價節(jié)點的重要性,常用的中心度計算方法有點度中心度、中介中心度和接近中心度[20]。點度中心度用網(wǎng)絡中與某節(jié)點有聯(lián)系的節(jié)點的數(shù)量來衡量該節(jié)點在網(wǎng)絡中的中心地位,如果一個節(jié)點與其他節(jié)點之間有直接的聯(lián)系,則該節(jié)點就居于中心位置,有較大的“權力”;中介中心度通過某節(jié)點出現(xiàn)在其他兩點之間的路徑上的數(shù)目來衡量該節(jié)點的控制能力,如果一個節(jié)點出現(xiàn)在其他兩個節(jié)點的路徑上,則認為該節(jié)點處在網(wǎng)絡中的重要地位;接近中心度通過某節(jié)點與其他節(jié)點的最短路徑來反映該節(jié)點不受控制的能力[21-23]。
學術文本中的核心句子是文章的敘述核心知識,應該處在網(wǎng)絡關聯(lián)的中心,其他句子通過核心句子相互產(chǎn)生關聯(lián)。因此,本文使用中介中心度來尋找學術正文中的核心句子。
22位置加權
學術文獻是結構性比較強的文獻類型,作者在撰寫的時候通常會按照章節(jié)把文章的內容分為幾個部分。常見的學術文獻的結構有引言、相關研究、方法、實驗以及結論,但是不同學科不同類型的學術文獻所包含的結構并不相同,理論性研究或綜述一般沒有方法和實驗部分。
本文基于復雜句子網(wǎng)絡提出了一種基于章節(jié)網(wǎng)絡位置加權方法。學術文獻正文按照一級章節(jié)劃分為N個部分,在構建正文的復雜句子網(wǎng)絡時,對每個句子進行章節(jié)區(qū)分,比如第一部分的第10個句子序號為1010。最終在形成復雜句子網(wǎng)絡的同時,也形成了以章節(jié)為節(jié)點的網(wǎng)絡,章節(jié)之間也以詞耦合對的形式聯(lián)系著,章節(jié)之間聯(lián)系的程度由詞耦合對的數(shù)目決定。但是由于章節(jié)有長度的區(qū)別,篇幅越大,出現(xiàn)重復詞耦合對的可能性越大,為了消除篇幅的影響,去掉章節(jié)之間的重復詞耦合對。由于章節(jié)的網(wǎng)絡只有4~5個節(jié)點,且各個章節(jié)之間都會有不同程度的聯(lián)系,因此不適用社會網(wǎng)絡分析方法計算中心度,本文提出一種計算章節(jié)重要性的方法來確定正文第i章節(jié)的權重wi:
wi=∑j=iNiN-1·Lij∑i,jLij(1)
其中,wi代表文章第i部分應賦予的權重,N為一級章節(jié)的數(shù)目,Ni為與第i部分直接連接的一級章節(jié)數(shù),Lij為章節(jié)i與章節(jié)j間出現(xiàn)的詞耦合對數(shù)。計算出各個一級章節(jié)的權重之后再對相應章節(jié)的句子的中介中心度進行加權,得到位置加權后的中介中心度WCij:
WCij=wi×Cij (2)
其中,WCij為位置加權后的第i部分的第j個句子的中介中心度,wi是第i部分的權重,Cij是未加權的第i部分第j個句子的中介中心度。根據(jù)加權后的中心度后由高到低進行排序,得到文章的關鍵句子。
3實驗及分析
31數(shù)據(jù)準備
本文的實驗數(shù)據(jù)選取10篇情報學領域的學術文獻,所選的文獻類型各有不同但均來自同一期刊,且為了方便對比權值計算的效果,所選文獻都包含5個章節(jié)。
32實驗過程
321建立句子網(wǎng)絡
以一篇“基于商品屬性與用戶聚類的個性化服裝推薦研究”的文章[26]為例進行說明。首先要對原始數(shù)據(jù)進行預處理,將每篇學術文獻以一級章節(jié)標題分隔,再對具體的每句話以句號為分隔符進行分隔,對文章正文的每句話進行標識。標識的方法按照“章節(jié)序號+句子序號”進行,例如,第一章節(jié)中的第三個句子編號為1003,第三章節(jié)中的第48個句子的編號為3048,以此類推。第二步對正文進行分詞處理,篩除停用詞,把每個句子轉換成了一個詞袋。第三步通過計算句子與句子之間的詞耦合對來表示句子間的相似度,最終形成了一個句子相似矩陣,矩陣中的每一個值都代表著兩個句子之間的聯(lián)系,從而形成了一個句子網(wǎng)絡,利用UCINET可視化出每篇文獻正文的句子網(wǎng)絡,如圖1所示。利用UCINET可以直接計算出每個句子的中介中心度。
322基于章節(jié)的位置權重
類似于句子間的相似度,現(xiàn)在將范圍擴大到章節(jié),把正文分為以章節(jié)為單位,而每個章節(jié)又都可以表示成一個大詞袋,為了消減章節(jié)長度的影響,每個詞袋中1個詞只出現(xiàn)1次。類似地,計算章節(jié)與章節(jié)之間的詞耦合對,形成一個相似矩陣,如表1所示,矩陣中的每個值表示兩個章節(jié)之間的詞耦合對數(shù)。
3結果及分析
對比這篇文章的加權前后的中介中心度句子抽取結果,各取排序前10的句子,如表3所示。
從表中可以看出,總體上,加權后的抽取結果可以提升文章核心部分的內容的排序,從而把文獻中核心的知識塊抽取出來,所抽取出的句子相對于未加權的抽取結果更加詳細與具體符合初步預期。但是也可以看出,由于本
表3加權前后排名前十的句子對比
對比序號句子內容加權前3001鑒于上述對推薦算法的研究分析,針對服裝商品,本文提出基于商品屬性內容與用戶聚類的混合推薦模式。2030溫廷新、唐小龍等提出基于商品內容與基于用戶協(xié)同過濾的混合模式網(wǎng)絡超市商品推薦(2013)[12],其中商品的內容特征提取太過寬泛,只有商品的外在屬性值如價格、重量、銷售量等。4001本文的研究對象為特定用戶推薦個性化的服裝商品,目前淘寶網(wǎng)也有類似的功能推薦,如“看了又看”、“掌柜推薦”等,個性化不夠明顯,只是根據(jù)關鍵詞的簡單關聯(lián)推薦,推薦結果不夠精確。3005實現(xiàn)混合推薦模式的過程如下圖:1)對于任何一個進入店鋪的用戶,根據(jù)用戶瀏覽的商品,基于商品屬性利用KNN函數(shù)找到最相近的TOP-N推薦候選集;1012針對商品的個性化推薦問題,很多學者進行了研究,基于客戶聚類的商品推薦[3],根據(jù)客戶的瀏覽、點擊、收藏行為進行聚類,實現(xiàn)推薦;或是根據(jù)用戶對商品的評分矩陣,進行協(xié)同過濾推薦[4]。4034432評估絕大數(shù)的推薦系統(tǒng)都利用準確度評價推薦算法的好壞,假設用戶可以對商品反饋喜歡或是不喜歡,那么準確度可以定義為推薦算法中預測的商品,用戶喜歡的商品數(shù)所占比例。4021通過分析服裝消費者在選購服裝時注重的服裝屬性特征,我們從評價中提取用戶所購買商品的尺寸顏色信息,以及店鋪中用戶對商品的評價信息,包括評價等級、評價內容,如寶貝有無色差、是否合身等。5001采用基于商品內容與用戶聚類的混合推薦,能夠很好地解決推薦中的冷啟動問題。30073)求出該用戶與類中其他用戶之間的相似度,將相似度作為權重值賦給用戶對商品的評分,綜合用戶的評分與權重值,對推薦候選集商品,進行喜好排序,得到最終的推薦列表;2008根據(jù)用戶過去選擇過的商品,從推薦商品中選擇屬性值相近的商品作為推薦結果。表3(續(xù))
對比序號句子內容加權后4001本文的研究對象為特定用戶推薦個性化的服裝商品,目前淘寶網(wǎng)也有類似的功能推薦,如“看了又看”、“掌柜推薦”等,個性化不夠明顯,只是根據(jù)關鍵詞的簡單關聯(lián)推薦,推薦結果不夠精確。4034432評估絕大數(shù)的推薦系統(tǒng)都利用準確度評價推薦算法的好壞,假設用戶可以對商品反饋喜歡或是不喜歡,那么準確度可以定義為推薦算法中預測的商品,用戶喜歡的商品數(shù)所占比例。4021通過分析服裝消費者在選購服裝時注重的服裝屬性特征,我們從評價中提取用戶所購買商品的尺寸顏色信息,以及店鋪中用戶對商品的評價信息,包括評價等級、評價內容,如寶貝有無色差、是否合身等。4038準確率是指在系統(tǒng)的推薦列表中,用戶喜歡的商品數(shù)所占的比率;而召回率是指推薦列表中用戶喜歡的商品數(shù)占用戶所有喜歡的商品數(shù)量的比率。4004針對服裝這一特定推薦對象,查找服裝行業(yè)相關的類目信息,不同類目下的服裝商品屬性特征具有一定的差別。2030溫廷新、唐小龍等提出基于商品內容與基于用戶協(xié)同過濾的混合模式網(wǎng)絡超市商品推薦(2013)[12],其中商品的內容特征提取太過寬泛,只有商品的外在屬性值如價格、重量、銷售量等。4025根據(jù),前面提取的商品、用戶特征屬性,進行數(shù)據(jù)處理,可以將數(shù)據(jù)存儲為三張數(shù)據(jù)表:商品信息表、用戶信息表和用戶評分表。4028取K=10,輸出10件與該商品最相近的商品,也就是初始的推薦列表。4031用戶對商品會有一個評分,將用戶相似度作為權重值賦給商品評分,計算得到加權后的商品評分。3001鑒于上述對推薦算法的研究分析,針對服裝商品,本文提出基于商品屬性內容與用戶聚類的混合推薦模式。
文計算句子間的關聯(lián)度使用的是簡單的詞耦合數(shù)方法,導致句子間的關聯(lián)無法更完整地表達,大大影響了句子抽取結果的準確率。
為了對比權值計算方法的效果,本文將10篇學術文獻所計算出的各章節(jié)權值進行對比,綜合各章節(jié)所包含的詞量來探討權值與章節(jié)長度之間的關系,從表4中可以看出,權值最高的章節(jié)大多分布在第三和第四章節(jié),符合常理認識,不同類型的文獻各個章節(jié)之間權值的分配也各不相同,初步符合本文的預期目標。但是不難發(fā)現(xiàn),盡管權值大小與章節(jié)詞量并不是完全正相關,但不可否認,章節(jié)的詞量在一定程度上影響了權值的大小,這是使用詞統(tǒng)計方法時很難避免的問題。
4總結與展望
本文針對學術文獻中摘要與正文所反映的核心知識不對等的現(xiàn)象,提出了一種基于位置加權的核心知識抽取方法,將學術文獻正文看作是一個以句子為節(jié)點,句子間的關聯(lián)度為邊的文本網(wǎng)絡,并對基于章節(jié)的位置權重的賦值進行了探討。從實驗結果來看,該方法可以提高核心章節(jié)句子的重要程度,并且權值的分配也較為合理,達到了初步的預期效果。但是本文中所使用的方法也有其局限性,基于詞統(tǒng)計的方法來量化句子之間的關聯(lián)度無法表達句子之間復雜的語義關聯(lián),且所計算得出的權值一定程度上受到詞數(shù)量的影響。因此下一步研究將著重關注句子與句子之間更為深入復雜的語義關聯(lián),嘗試構建更為完整的文本語義網(wǎng)絡。
參考文獻
[1]化柏林.國內外知識抽取研究進展綜述[J].情報雜志,2008,27(2):60-62.
[2]文庭孝.知識單元的演變及其評價研究[J].圖書情報工作,2007,51(10):72-76.
[3]溫有奎,徐國華.知識元鏈接理論[J].情報學報,2003,22(6):665-670.
[4]朱曉蕓,陳奇,楊棖,等.決策支持系統(tǒng)中的廣義知識元及模型庫[C]∥1993中國控制與決策學術年會論文集,1993.
[5]溫有奎,溫浩,徐端頤,等.基于知識元的文本知識標引[J].情報學報,2006,25(3):282-288.
[6]Zhang C,Jiang P.Automatic extraction of definitions[C]∥Computer Science and Information Technology,International Conference on.IEEE,2009:364-368.
[7]溫有奎,溫浩,徐端頤,等.基于創(chuàng)新點的知識元挖掘[J].情報學報,2005,24(6):663-668.
[8]車海燕,馮鐵,張家晨,等.面向中文自然語言文檔的自動知識抽取方法[J].計算機研究與發(fā)展,2013,50(4):834-842.
[9]Luhn H P.The Automatic Creation of Literature Abstracts[J].Ibm Journal of Research & Development,1958,2(2):159-165.
[10]王洋洋.基于海量學術資源的知識元抽取研究[D].寧波:寧波大學,2014.
[11]Sekine S,Nobata C.Sentence Extraction with Information Extraction technique[C]∥2002.
[12]Shen D,Sun J T,Li H,et al.Document Summarization Using Conditional Random Fields[C]∥IJCAI 2007,Proceedings of the,International Joint Conference on Artificial Intelligence,Hyderabad,India,January.DBLP,2007:2862-2867.
[13]Wang D,Zhu S,Li T,et al.Multi-document summarization using sentence-based topic models[C]∥Acl-Ijcnlp 2009 Conference Short Papers.Association for Computational Linguistics,2009:297-300.
[14]Mihalcea,Rada.Graph-based ranking algorithms for sentence extraction,applied to text summarization[J].Unt Scholarly Works,2004:170-173.
[15]Wang D,Li T,Zhu S,et al.Multi-document summarization via sentence-level semantic analysis and symmetric matrix factorization[C]∥International ACM SIGIR Conference on Research and Development in Information Retrieval,SIGIR 2008,Singapore,July.DBLP,2008:307-314.
[16]Li X,Zhu S,Xie H,et al.Document Summarization via Self-Present Sentence Relevance Model[M]∥Database Systems for Advanced Applications.Springer Berlin Heidelberg,2013:309-323.
[17]陶余會,周水庚,關佶紅.一種基于文本單元關聯(lián)網(wǎng)絡的自動文摘方法[J].模式識別與人工智能,2009,22(3):440-444.
[18]劉紅紅,安海忠,高湘昀.基于文本復雜網(wǎng)絡的內容結構特征分析[J].現(xiàn)代圖書情報技術,2011,27(1):69-73.
[19]Su G C,Kim S B.Summarization of Documents by Finding Key Sentences Based on Social Network Analysis[M]∥Current Approaches in Applied Artificial Intelligence,2015:285-292.
[20]張瑞.基于復雜網(wǎng)絡技術的社會網(wǎng)絡結構分析[D].濟南:濟南大學,2015.
[21]朱慶華,李亮.社會網(wǎng)絡分析法及其在情報學中的應用[J].情報理論與實踐,2008,31(2):179-183.
[22]Freeman L C.Centrality in Social Networks:IConceptual Clarification[J].Social Networks,1979,1(3):215-239.
[23]Wasserman S,F(xiàn)aust K.Social network analysis:Methods and applications[J].Contemporary Sociology,1994,91(435):219-220.
[24]陸偉,黃永,程齊凱.學術文本的結構功能識別——功能框架及基于章節(jié)標題的識別[J].情報學報,2014,(9):979-985.
[25]黃永,陸偉,程齊凱.學術文本的結構功能識別——基于章節(jié)內容的識別[J].情報學報,2016,35(3):293-300.
[26]艾黎.基于商品屬性與用戶聚類的個性化服裝推薦研究[J].現(xiàn)代情報,2015,35(9):165-170.
(本文責任編輯:郭沫含)