999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新興趨勢探測研究綜述

2018-01-02 15:43:54鐘輝新
現代情報 2017年12期
關鍵詞:文本挖掘綜述

鐘輝新

〔摘 要〕介紹了新興趨勢等基本概念,在國際國內文獻調研和分析的基礎上,揭示了基于文獻計量學、文本挖掘結合計量學、復雜網絡理論在新興趨勢探測研究中的進展,最后總結了新興趨勢研究走向與存在問題。

〔關鍵詞〕新興趨勢探測;文獻計量;文本挖掘;復雜網絡;綜述

DOI:10.3969/j.issn.1008-0821.2017.12.027

〔中圖分類號〕G257.3 〔文獻標識碼〕A 〔文章編號〕1008-0821(2017)12-0162-06

〔Abstract〕Firstly,the paper introduced basic concepts such as emerging trends.Secondly,based on the investigation and analysis on the domestic and international literature ,the paper revealed research progress on emerging trend detection which include bibliometrics,text mining combined with bibliometrics,complex network.Finally,the paper summarized the research trends and problems.

〔Key words〕emerging trend detection;bibliometrics;text mining;complex network;research review

在知識爆炸式增長、老化加速,科技競爭日趨激烈的背景下,從海量數據中探測出特定領域新興趨勢的方法和技術日益受到各界的重視。新興趨勢探測研究有利于發現領域研究方向、制定科研政策,深化情報服務和完善科學計量學與情報學相關理論,具有重要的理論意義和現實意義。

新興趨勢并沒有統一概念,Kontostathis A等[1]認為新興趨勢就是隨著時間的推移能逐漸引起人們的興趣并被越來越多的學者討論的主題領域;劉玉仙等[2]認為新興趨勢是一個新興的值得深入研究并日趨重要的研究主題,它在科學前沿中形成并通過研究人員的相互引用表現出來;殷蜀梅[3]認為新興趨勢是在某個科學研究領域中備受研究者關注并且代表未來方向的一組主題領域。因此,新近出現、具有發展潛力、高速增長的主題是新興趨勢的主要組成部分。

探測(Detection)是從中探尋、測度、發現的意思,新興趨勢探測就是在特定領域中進行探尋、測度、發現新的新興研究趨勢。Kontostathis A等[1]認為新興趨勢探測(Emerging Trend Detection,ETD)就是發現某個特定領域中熱點信息的動態趨勢,并在探測到最新發展動態時進行提示的過程。Le M H等[4]把新興趨勢探測過程分為3個主要階段:主題描述(Representation)、主題識別(Identification)、趨勢判斷(Verification)。因此,特定領域的新興趨勢探測一般需要解決3個核心問題:一是如何表示領域內主題;二是用什么樣的指標來測度主題;三是采用什么標準來判斷新興趨勢。

1 總體研究情況

隨著互聯網技術的不斷發展,大量的科技文獻被數字化并在網絡上傳播,大型數據庫收錄的文獻數量越來越多,覆蓋面越來越廣,相應地基于文獻語料的新興趨勢探測研究也將越來越多。為了從總體上掌握國際國內的研究現狀,本研究選擇Web of Science 和CNKI等典型代表數據庫作為文獻調研的對象。

1.1 國際新興趨勢研究的基本情況

本研究于2016年12月18日利用Web of Science 的核心合集數據庫,選擇時間區間為1986-2016年,檢索出“新興趨勢(Emerging Trend)”相關論文418篇。從學科分布看,研究“新興趨勢”最多的學科是INFORMATION SCIENCE LIBRARY SCIENCE,即信息科學與圖書館科學,有56篇;從國家分布看,研究最多的國家是美國,有155篇,其次是中國,有55篇;從文獻類型分布看,在418篇文獻中有255篇ARTICLE,占比超過50%;從時間分布看,新興趨勢探測研究起步于1991年,在2000年以前的年均發文量一直低于3篇,未成為有效的研究主題,但在2000年以后呈現穩步增長的勢頭,尤其是近幾年發表的文章越來越多,這說明新興趨勢探測研究已經成為學者們高度關注的主題,是國際上的研究熱點或前沿。

1.2 國內新興趨勢研究的基本情況

本研究于2016年12月18日利用CNKI進行跨庫檢索,結果為20篇論文。從檢索結果看,國內有關新興趨勢的研究并不多,在2012年以前每年的發文量未超過3篇。因為CNKI沒有收錄像《情報學報》這樣的重要期刊,本研究利用萬方數據知識服務平臺作進一步的文獻補充調研。整合CNKI和萬方數據,經過閱讀摘要后,篩選出國內與新興趨勢探測密切相關的文獻32篇,其中有1篇博士論文、6篇碩士論文、26篇期刊論文。研究機構主要特點是:大連理工大學的WISE實驗室與陳超美博士聯合開發了Citespace,有著穩定的研究團隊,該大學的劉則淵教授是中國知識圖譜研究的先驅之一,指導了不少學生在該領域進行系統研究,因此該大學是國內“新興趨勢”研究主要陣地之一;中國科學院有著較為龐大的圖書情報導師團隊,而且在主題演化、識別方面有持續研究傳統,指導完成該領域的博士論文較多,研究實力較強;另外,山東理工大學的白如江在該領域深耕多年,也發表不少相關論文,并在2016年申請到國家社科規劃項目“未來新興科學研究前沿識別研究”。因此,以上3個機構未來有可能出現新的研究成果。endprint

2 相關研究進展

2.1 基于文獻計量學方法的相關研究進展

文獻計量學方法是通過對文獻作者、引文、期刊來源、機構等屬性的統計分析,利用這些屬性及它們之間的關系隨時間的變化來追溯特定學科領域的研究動向,從而有效地探測新興趨勢。盡管新興趨勢探測的方法已經越來越多,但是通過文獻計量特征的統計來探測新興趨勢的方法仍然被最普遍采用。

2.1.1 文獻外在特征計量分析

利用文獻外在特征計量指標來判斷知識的增長是一種簡單而實用的方法,如期刊數量的增長、相對于年齡的論文被引次數、自引率等。通過一些簡單的文獻計量學指標的歷時變化就可以判別新興研究領域及其趨勢,例如普賴斯指數(Price Index)、引文半衰期(Median Citation Age)和即年指標(Immediacy Index),其中普賴斯指數與引文半衰期可以用來衡量文獻老化的速度,一個研究領域內文獻的普賴斯指數越高,引文半衰期越小,表明該研究領域就越“年輕”[5];同樣地,即年指標也可以用來反映論文的被引速度,即年指標值越大,說明論文的被引速度越快,相關的研究內容獲得關注度就越大。Tu Yining等[6]利用知識老化理論,提出了新穎指數(NI) 和已發表量指數(PVI) 兩個新型指標,以它們的負相關性判斷新興主題。

利用文獻外在特征統計方法簡單實用,數據容易獲取,指標容易理解,標準單一,決策成本比較低,但由于忽略了文獻外在特征與內容的相關性以及文獻之間的知識傳遞關系,其精準度會受到一定影響,比較適合低成本快速決策的新興趨勢探測。

2.1.2 詞頻分析

詞頻分析法是利用能夠揭示或表達文獻核心內容的關鍵詞或主題詞在某一研究領域文獻中出現的頻次高低來確定該領域研究熱點和發展動向的文獻計量方法[7]。例如,馬費成等[8]利用文獻的關鍵詞詞頻揭示知識管理的新興主題;鞏永強等[9]通過國內情報學領域的詞頻分析歸納出增長型、平穩型和下降型3種研究變化趨勢,從而揭示該領域熱點遷移和發展趨勢;Ito E等[10]利用關鍵詞的時間系列分析,開發出一種網絡小說趨勢分析工具作為網頁CGI,該工具不僅顯示查詢詞的發展趨勢,也顯示了相似詞的發展趨勢。詞頻是新興趨勢探測中表示主題的常用指標,目前比較流行的ETD系統如ThemeRiver、TOA(Technology Opportunities Analysis)、Timemines、PatentMiner等都采用該指標。

利用詞頻的統計來探測特定研究領域的新興趨勢,簡單直接,通過歷時的可視化圖形直觀顯示出來,使科研人員能夠快速地掌握特定領域的主題演變。但是,這些指標之間缺乏關聯,并且對那些低頻的關鍵詞難以識別,而新興趨勢一般是剛剛出現的,相關主題詞的詞頻也許并不高,因此詞頻分析比較適合研究熱點識別,對于新興趨勢探測則要通過詞頻變化率來實現。

2.1.3 引文分析

引文分析一般分為共被引分析、文獻耦合分析以及直接引用分析3種。3種引文生成知識網絡都可用以探測研究前沿和新興趨勢。Small等利用通過同被引網絡的時間切片和簇演變鏈(Clustering String),將高被引的文獻集合代表關鍵概念(Concept Symbol)識別各種特定領域的突現和結構的演化;后來又利用隨時間變化共被引簇(Co-citation Clusters)跟蹤研究領域的突現和成長,并預測領域最近屬性的變化[11]。Chen C[12]將知識基礎與研究前沿相結合,以同被引論文簇作為知識基礎、突發詞匯表示研究前沿來研究一個領域新興的趨勢、瞬時的概念和潛在的研究問題。韓濤[13]利用潛在知識(Latent Knowledge)演化理論,提出了采用不同閾值層聚類結構間差異性的自動檢測方法,以揭示同被引分析中隱藏在低閾值層的有重要意義的潛在知識簇,從而實現了對研究領域潛在演變趨勢的識別。Morris[14]在文獻耦合聚類的基礎上引入時間軸,以炭疽病的研究為例,利用可視化工具揭示了研究領域主題的產生、發展和消亡。Shibata N[15]等利用直接引用網絡的拓撲結構演化結合時間線可視化的方法,對氮化鎵(Gallium Nitride)、復雜網絡(Complex Networks)兩個領域的主題演化進行分析,從中探測這兩個領域的新興趨勢。

3種引文分析方法在學科前沿和新興趨勢探測上有一定的差異性。Shibata N等[16]比較了這3種引文分析方法用于研究前沿識別時的性能和特點,結果發現直接引用關系可以識別大而且新的研究領域,同時,直接引文網絡獲得的聚集系數最大,這表明通過直接引文網絡獲得的文獻簇的文獻相似度最大,因此,利用直接引文網絡識別研究前沿的風險性最小。Small H等[17]比較了科技文獻新興趨勢探測中的直接引文網和共引兩種模型,發現采用直接引文網更具有時效性和選擇性。鑒于3種引文分析方法各有優缺點,有學者提出發揮各種引文網絡的優勢,把多種引文分析方法結合起來共同探測新興趨勢的想法。Boyack K W等[18]將當前文獻加入共引網絡中生成聚類,認為混合引文網絡如有向引用和共被引共存的引文網絡可用于識別新興主題。

為了克服引文分析忽視內容關聯的缺點,不少學者將其與引文分析結合起來應用在新興趨勢探測中。Glenisson P等[19]利用文本內容分析結合計量學指標對 SCIENTOMETRICS 的文章進行分析時,發現內容詞分析和引文分析相結合的混合方法將會成為未來研究科學結構演化的一種有價值的工具。張琳等[20]利用基于引文和內容詞混合的分析方法在“心理學、社會學和教育學領域”進行新興主題的識別。Besselaar等[21]利用詞語—參考文獻的共現,以論文的參考文獻做語境來考察從標題中抽取的詞語,揭示研究領域的結合演化。

引文分析的方法能有效揭示知識結構的演化,而且可以通過可視化的知識圖譜生動顯示文獻之間的關聯和變化,通過聚類方法識別主題,從而推演知識的產生、發展、成熟和消亡的過程。但是引文分析是對內容的一種間接揭示方式,而引文動機多樣化,施引文獻和被引文獻之間的知識關聯與引用內容有很多不同,因此缺乏語義關聯。同時因為引文的產生需要一段時間,滯后性是其明顯的缺點。引文和內容詞結合的分析方法既能揭示科學知識結構變化過程,又能精確揭示知識內容之間的關聯性。但是這種混合方法缺乏有效理論的支撐,操作上主觀性強,在某個領域能有效識別出新興趨勢,而用同樣的方法在其他領域卻不適合。endprint

2.2 基于文本挖掘結合計量相關研究進展

單純通過文獻的特征計量分析而忽略文獻的內容,顯然已經無法滿足新興趨勢探測的需求,因此通過文本挖掘結合計量的方法就誕生了,比如突發詞檢測、共詞分析、主題模型等。

2.2.1 突發詞檢測

突發詞(Burst Word),也稱為爆發詞,是指在某一時間內被大量提及,使用頻次上出現較大跳躍的詞,是知識增長最為顯著的表現。特定領域的文獻流中有關某一主題的內容詞突然出現爆發式、跳躍式增長,意味著該主題突現增長的勢頭,這對探測特定領域內新興趨勢具有重要的意義。Kleinberg J在2002年提出了突發檢測算法(Burst Detection Algorithm),也被稱為Kleinberg算法。他認為詞的重要性體現在詞出現的密度上而不是在詞出現的時間長短上,即出現頻次的增長率突然加大的詞顯得十分重要[22]。突發詞側重的是領域內詞之間的增長的比較,隱含了特定領域主題的突發和增長,能從語義上揭示知識的進化,并且在一定程度上克服常用詞的干擾,無需進行太多詞的預處理。突發詞也可以反映研究領域局部熱點的變化,揭示領域內有潛力的影響因素,有助于發現推動特定領域發展的微觀因素[23]。

Chen C[12]利用Kleinberg算法探測代表研究前沿的專業術語,并將其融入追蹤科技前沿的可視化軟件Citespace中,該軟件可以從題目、摘要,關鍵詞和文獻記錄的標識符中提取突變專業術語,從而確定科學前沿。隨著Citespace軟件的廣泛應用,許多學者利用該軟件的突發詞檢測來研究特定領域的研究前沿和新興趨勢。我國也有不少學者在這方面進行了探索和研究,魏建香[24]利用突現詞發現交叉學科的研究熱點和前沿動態,王莉亞[25]提出了基于信息熵的時間序列中突變點識別方法,對流域水資源管理領域的不同階段關鍵詞進行突變檢測,以發現研究領域主題突變和結構演化。

突發詞檢測能從微觀層面發現特定領域潛在的研究主題的變化,而不是熱點主題,這一點明顯優于詞頻分析,而且考慮到領域內所有詞之間變化的比較而不是單個詞的變化,這對新興趨勢的探測有積極意義。但是突發詞檢測仍需要時間的積累,其閾值的設置對結果影響較大,而且對詞的來源要求較高,需要通過預處理的突發檢測才會比較有意義,同樣突發詞之間也缺乏語義關聯。Kleinberg算法雖然能比較有效對一定時間跨度的語料進行突發詞檢測,但是算法中最優序列的參數k、s、γ需要主觀確定,這將對檢測效果造成較大的影響;同時,Kleinberg算法利用平滑窗口來定義時間區間,可能會導致割裂某些主題隨時間成長變化的發展過程,形成虛假的突發詞或者主題;另外,Kleinberg算法是基于時間段檢測方法,一般情況下分析時間切片不能小于2,同樣需要時間的積累,具有一定的時滯。

2.2.2 共詞分析

共詞分析法主要是統計一組詞在同一篇文獻中出現的次數,一組詞兩兩出現在同一篇文獻的次數越多,那么這組詞主題關系就越緊密,在此基礎上進行聚類分析,進而分析這些詞所代表的學科和主題變化。Ding Y等[26]從關鍵詞字段、題目和摘要字段抽取術語,通過詞匯控制工具進行規范化處理,利用共詞分析揭示了信息檢索領域知識結構,發展模式與趨勢。Pottenger等[27]利用數據挖掘技術和神經網絡模型從文本數據集中自動分析與識別新出現的概念或主題。Kontostathis A等[28]在Pottenger研究的基礎上,利用潛在語義索引和共詞聚類分析明顯地增加了識別新突現概念的效率。

共詞分析克服了詞頻獨立性的缺點,考慮到了詞與詞之間親疏遠近關系,能直接揭示文獻主題之間的相關性,針對性和準確度都更高。但是,目前共詞分析大部分采用從題目、摘要、關鍵詞字段直接抽取術語的方法,抽取術語與作者的取詞習慣有很大關系,可能存在不規范的表述,或者存在同義詞和近義詞大量并存的情況,而且沒有考慮到詞的層級,大量的上位詞和下位詞并存,因此對詞的預處理要求較高。為了達到較好的聚類效果,通常選用高頻詞作為分析對象,無法發現尚處于低頻潛在主題。

2.2.3 主題模型

共詞聚類的方法主要根據主題詞之間的關聯強度或者隨時間的演化,要么形成主題與詞之間的聚類關系,要么形成主題與文獻之間的聚類關系,缺乏對主題詞、主題、文獻三者間的關系揭示。為了克服這一缺陷,2013年BLei D M[29]在概率隱性語義索引模型(Probabilistic Latent Semantic Indexing,PLSI)的“潛在主題”基礎上提出了LDA(Latent Dirichlet Allocation))模型,利用Dirichlet概率分布和Gibb抽樣,從而實現了詞、主題、文獻三層結構的貝葉斯概率分布。LDA模型克服了PLSI過度擬合的缺點,并能很好地模擬文檔的生成過程,對新興主題識別以及預測有很好的效果,因此得到廣泛應用和不斷改良。

為了讓LDA模型主題形成動態演化,需要通過相似性將相鄰時間點的主題關聯起來, 2006年Blei D M等[30]提出了動態主題模型(Dynamic Topic Models,DTM),可用于處理文檔流,從而實現話題的分布強度和話題的內容都在隨時間而演化。2006年Wang X等[31]在LDA模型的基礎上加入“主題—時間”分布,提出了主題隨時間變化而變化的主題模型(Topic Over Time,TOT)。除了TOT和DTM模型外,很多學者將計量指標與LDA結合起來,提出層次LDA主題模型HLDA、OLDA、CTM、ATM、OLDA 。這些模型被廣泛應用到科技文獻、新聞、論壇、博客等領域的主題識別之中。目前,國外有不少研究機構開發了應用工具,有些還是免費的開源工具,如斯坦福大學開發的開源話題建模工具TMT以及GibbsLDA++,這些工具極大地方便了科研人員的研究。endprint

主題概率模型LDA模擬文檔生成的機器學習技術,能有效實現分類和降維,采用詞、主題和文檔三層貝葉斯概率模型識別文檔集中潛在的主題詞信息,直接利用文獻中的詞來生成主題的分布,對揭示主題內容有非常大的優勢,而且相關模型非常多,應用也非常廣泛,是目前新興趨勢探測主要方法之一。雖然LDA不需要專門的詞表,但是對詞的依賴仍然很強,核心詞的確定成為難點之一,如果不經過詞的預處理,很多高頻但意義不強的詞就會影響分類的效果。同時在分類數目的確定上存在一定難度和主觀性,相似度閾值的設定需要較強的專業知識。

2.3 基于復雜網絡理論的相關研究進展

文獻計量學的分析方法主要通過對文獻及文獻之間的關系的計量來揭示科學結構。隨著社會網絡、復雜網絡研究的不斷發展,研究人員發現同被引網絡、共詞網絡、引文網絡、耦合網絡、合著網絡等都是在科學交流過程中自組織形成的復雜網絡,因此可以在文獻計量學的基礎上應用網絡分析方法來揭示科學結構。

2.3.1 優先鏈接

優先鏈接(Preferential Attachment)也叫優先連接、擇優連接或優先粘貼,是指擁有更多財富或信譽的個體將優先得到財富或信譽。文獻引用中也存在優先連接的現象,即引用次數越多的文獻被再次引用的概率越大,因此,引文網絡中的引文分布呈冪律分布。Price D J S[32]在1976年建立的Price模型可用來解釋引文網絡具有無尺度特性的成因,Price認為,是引用的累計增長(Cumulative Advantage)效應導致了引文網絡具有無尺度特性,累計增長效應就是基于優先粘帖的現象。如果將鏈接分布機制移植到引文分析研究中,將有助于篩選核心文獻,考查引文分布機制,解釋引文網絡中的睡美人現象、冪律分布現象、無標度現象等[33]。李粵[34]在優先連接模型的基礎上提出可調優先連接模型(Adjustable Preferential Attachment,APA),并利用此模型分別進行優先粘貼現象、節點老化現象、無尺度特性、睡美人現象和高聚集性的一致性分析,結果顯示APA模型在5個結構特性上符合真實引文網絡。

優先鏈接是一種基于現有網絡關系對未來鏈接的預測,顯然不受到引文滯后的影響,這對預測和探測特定領域的新興趨勢有重要的意義。但是引文網絡優先鏈接都是間接揭示研究內容和主題的演化,而知識具有進化和創新特性,主題在不斷演化,鏈接可能意味關聯,但是內容可能已經發生突變,因此優先鏈接機制比較復雜,判讀計算難度比較大,探測的效果尚不明確,目前在新興趨勢探測的應用并不多。

2.3.2 社團結構

網絡社團(Network Community)是指由網絡結點組成的一個個結點子集合,子集合內部結點之間邊的連接很稠密,各子集合結點之間邊的連接則很稀疏。隨著復雜網絡理論不斷成熟,有人將其研究方法應用到引文網絡和共詞網絡之中,利用網絡社團來識別特定領域的主題演化。東京大學工程創新研究所在利用引文網絡進行新興主題識別上有較多的研究。Shibata N等[35]以鎵化氮和復雜網絡兩個研究領域為例,利用Newman提出的社團結構識別算法對科學引文網絡進行聚類分析,分析聚類結果中論文簇的平均年(Average Age)指標和不同時間片的論文簇之間的父子關系,從中識別研究前沿的突現。他們同時采用模塊度值(Q值)衡量社團結構之間的關系,Z-Value衡量社團內部及密度,然后根據他們組合判斷不同主題的演化階段,明確給出了量化的判斷標準[36]。2010年我國學者王凌燕等[37]引入社會網絡中的弱連接概念并分析弱連接的特點,利用Q測度法識別生物領域的新興研究趨勢。

復雜網絡領域的社團結構識別算法不需要依賴分析對象相似關系計算,可以通過網絡結構的特性直接獲取最優化的聚類結果,從而克服了閾值主觀調整的問題,這明顯優于傳統的聚類方法。但是從網絡視角判斷不同時間的兩個研究主題之間演化關系的影響因素較多,比如節點、邊、結構等,目前相似度是最為直接和有效的判斷方法,但是閾值的選擇同樣具有主觀性。

2.3.3 傳播動力學

動力學研究是復雜網絡的研究重點之一,其本質上是探討網絡結構與功能關系的復雜網絡的動力學行為,涉及傳播動力學、動力學同步化等多方面的內容。越來越多的學者將復雜網絡的傳播模型運用于分析知識傳播和創新擴散的網絡結構和功能,相關研究表明社會網絡結構的存在可以顯著提高知識的增長率。Cowan R等[38]發現“小世界網絡”結構下的知識擴散速度是最快的。Liu X等[39]利用群體動力學原理和社團之間關系,通過關鍵詞運動矢量研究知識網絡,包括引文網絡和關鍵詞網絡的動態演化,識別了新興研究趨勢的形成,并識別了特定領域的新興趨勢的演化過程。

知識網絡是天然的復雜網絡,傳播動力學考慮到知識網絡的生長動力和機制,從系統生長視角考察知識的涌現,是一種最為接近現實的研究方法。但是,知識創造活動的創新要求、不同觀點和求異的思維使得知識在傳播過程中的“感染者”將會出現變異,不可能達到完全一致,只是一種相關性的協同創造。基于以上原因,目前利用復雜網絡的動力學理論進行新興趨勢探測的應用研究并不多。

3 結 語

目前新興趨勢探測在國際上已成為研究前沿和熱點,但在國內仍處于跟蹤發展的醞釀階段,通過對比國際國內相關研究的梳理,發現國內新興趨勢探測存在以下幾個問題:

1)缺乏理論與實踐相結合的研究。目前國內新興趨勢探測的研究主要在參考國外理論和方法的基礎上進行改進和應用,雖然國內有些學者提出了理論層面的假設,但沒有將理論分析與實證研究結合,因此真正理論創新并不多,更沒有形成完善的理論體系。

2)指標通用性不足,評價標準不一,方法可復制性不強。新興趨勢指標大部分依據具體應用來設計,通用性不強,也沒有建立指標的評價體系和方法,主題確認與趨勢判斷主要依靠專家來進行定性判斷,主觀性很強。雖然也有研究機構和學者從不同的角度來制定評價標準,但大部分都是采用監測文獻隨著時間的變化計量學指標,而且各側重點不同,因此統計的方法各式各樣,可復制性不強。endprint

3)主題趨勢預測研究不足,有待突破。雖然領域新興主題趨勢的預測極其重要,但是這方面的研究非常缺乏,只有少數的研究利用多元回歸方法對主題特征指標未來趨勢進行預測,有個別的學者提出了用優先鏈接模型來預測未來的核心文獻,但是只考慮文獻在知識網絡的中重要性,沒有考慮到文獻衰老和異質性,也缺乏從信息不完全的視角去對缺失信息(或缺失關系)的預測,因此主題趨勢預測研究的理論和方法有待于突破。

4)研究視角較為單一,難于發現主題演化的動因。目前對于新興主題趨勢探測的研究,主要基于單一維度/網絡(關鍵詞維度、作者維度、引文維度)分析,缺乏多維度或者網絡之間關聯分析。個別研究雖然考慮到網絡維度之間的關系,但沒有考慮網絡之間的前后演化關系,也缺乏探究網絡之間的相互關系,因此難于從深層次揭示主題的成因、發展的動力和未來趨勢。

5)缺乏對用戶行為研究。目前新興趨勢探測主要從文獻特征歷時變化、文獻關聯和內容關聯等視角進行分析,鮮有人將學術群體的行為考慮在內,隨著各種數據庫的不斷完善和Almetrics的興起,用戶行為數據將成為新興趨勢探測和研究前沿識別的重要支撐。

參考文獻

[1]Kontonstathis A,Galistsky L M,Porttenger W M,et al.A Survey of Emerging Trend Detection in Textual Data Mining[C]// A Comprehensive Survey of Text Mining.New York:Springer,2004:185-224.

[2]劉玉仙,Rousseau R.新出現趨勢識別和分析方法引介[J].科學學研究,2009,(7):994-998.

[3]殷蜀梅.判斷新興研究趨勢的技術框架研究[J].圖書情報知識,2008,(3):76-80.

[4]Le M H,Ho T B,Nakamori Y.Detecting Emerging Trend from Science scientific Corpora[J].International Journal of Knowledge and systems sciences 2005,2(2):53-59.

[5]陳立新,劉則淵.引文半衰期與普賴斯指數之間的數量關系研究[J].圖書情報知識,2007,(1):25-28.

[6]Tu Yining,Seng Jialang.Indices of novelty for emerging topic detection[J].Journal of Information Processing and Management,2012,48( 2) :303-325.

[7]安興茹.基于正態分布的詞頻分析法高頻詞閾值研究[J].情報雜志,2014,(10):129-136.

[8]馬費成,張勤.國內外知識管理研究熱點——基于詞頻的統計分析[J].情報學報,2006,25(2):163-171.

[9]鞏永強,劉莉.基于詞頻分析法的情報學研究熱點透析[J].圖書館學研究,2011,(13):9-13.

[10]Ito E,Urakawa T,Flanagan B,et al.Keywords Frequency Trend Analysis of Online Novels[J].China Modern Doctor,2013:68-73.

[11]Small H,Upham P.Citation structure of an emerging research area on the verge of application[J].Scientometrics,2009,79(2):365-375.

[12]Chen C.CiteSpace ⅡI:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[ J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.

[13]韓濤.知識結構演化深度分析的方法及其實現[D].北京:中國科學院研究生院,2008.

[14]Morris S A,Yen G,Wu Z.Time Line Visualization of Research Fronts[J].Journal of American Society for Information Science,2003,54(5):413-422.

[15]Shibata N,Kajikawa Y,Takeda Y,et al.Detecting emerging research fronts based on topological measures in citation networks of scientific publications[J].Technovation,2008,28(11):758-775.

[16]Shibata N,Kajikawa Y,Takeda Y,et al.Comparative study on methods of detecting research fronts using different types of citation[J].Journal of the Association for Information Science and Technology,2009,60(3):571-580.endprint

[17]Small H,Boyack K W,Klavans R.Identifying emerging topics in science and technology[J].Research Policy,2014,43(8):1450-1467.

[18]Boyack K W,Klavans R,Small H,et al.Characterizing emergence using a detailed micro-model of science:Investigating two hot topics in nanotechnology[C]// Technology Management for Emerging Technologies (PICMET):2012 Proceedings of PICMET12.Vancouver,Canada:IEEH Conference Publications,2012:2605-2611.

[19]Glenisson P,Glnzel W,Janssens F,et al.Combining full text and Bibliometric Information in Mapping Scientific Disciplines[J].Information Processing and Management,2005,(41):1548-1572.

[20]張琳,梁立明,Janssens F,等.混合聚類方法用于科學結構研究——“心理學、社會學和教育學”領域為例[J].科學學研究,2010,28(6):837-845.

[21]Van D,Besselaar P,Heimer G.Mapping Research Topics Using Word-reference Co-occurrences:a Method and an Exploratory case Study[J].Scientometrics,2006,68(3):377-393.

[22]Kleinberg J.Bursty and hierarchical structure in streams[J].Data Mining and KnowledgeDiscovery,2003,7(4):373-397.

[23]王孝寧,崔雷,劉剛,等.突發監測算法用于共詞聚類分析的嘗試[C]// 中華醫學會第十五次全國醫學信息學術會議.2009:104-107.

[24]魏建香.學科交叉知識發現及其可視化研究[D].南京:南京大學,2010.

[25]王莉亞.基于關鍵詞突變的主題突變研究[J].情報理論與實踐,2013,(11):45-48.

[26]Ding Y,Chowdhury G G,Foo S.Bibliometric Cartography of Information Retrieval Research by Using Co-word Analysis[J].Information Processing and Management,2001,(37):817-842.

[27]Pottenger W M,Yang T.Detecting Emerging Concepts in Text Data Mining[C]// Berry M.Computational Information Retrieval.Philadelphia,USA:Society for Industrial and Applied Mathematics,2001:89-105.

[28]Kontostathis A,De I,Holzman L E,et al.Use of term clusters for emerging trend detection[EB/OL].http://citeseer.uark.edu:8080/citeseerx/viewdoc/summary?doi=10.1.1.81.4196,2013-07-28.

[29]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.

[30]Blei D M,Lafferty J D.Dynamic topic model[C]// Proceedings of the 23rd International Conference on Machine Learning.Pittsburgh,Pennsylvania,2006:113-120.

[31]Wang X,Mccallum A.Topics over time:a non-Markov continuous-time model of topical trends[C]// Twelfth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Philadelphia,Pa,Usa,August.DBLP,2006:424-433.

[32]Price D J S.A general theory of bibliometric and other cumulative advantage processes[J].Journal of the American Society for Information Science,1976,27:292-306.

[33]蘇芳荔,李江.鏈接分布機制評述——優先連接與均勻連接[J].情報雜志,2010,(10):167-171.

[34]李粵.引文網絡的可調優先粘貼模型及其應用[D].北京:清華大學,2007.

[35]Shibata N,Kajikawa Y,Takeda Y,et al.Detecting emerging research fronts based on topological measures in citation networks of scientific publications[J].Technovation,2008,28(11):758-775.

[36]Shibata N,Kajikawa Y,Takeda Y,et al.Detecting Emerging Research Fronts in regenerative medicine by the citation Networks of Scientific Publications[J].Technological Forecsting & Social Change,2011,(78):274-282.

[37]王凌燕,方曙.Q測度法對探測新興研究趨勢作用的探討[J].情報理論與實踐,2010,33(11):61-65.

[38]Cowan R,Jonard N.Network Structure and the Diffusion of Knowledge[J].Journal of Economic Dynamics and Control,2004,28(8):1557-1575.

[39]Liu X,Jiang T,Ma F.Collective dynamics in knowledge networks::emerging trends analysis[J].Journal of Informetrics,2013,7(2):425-438.

(本文責任編輯:孫國雷)endprint

猜你喜歡
文本挖掘綜述
SEBS改性瀝青綜述
石油瀝青(2018年6期)2018-12-29 12:07:04
NBA新賽季綜述
NBA特刊(2018年21期)2018-11-24 02:47:52
近代顯示技術綜述
電子制作(2018年14期)2018-08-21 01:38:34
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
慧眼識璞玉,妙手煉渾金
JOURNAL OF FUNCTIONAL POLYMERS
文本觀點挖掘和情感分析的研究
主站蜘蛛池模板: 色哟哟精品无码网站在线播放视频| 亚洲国产看片基地久久1024| 青青青伊人色综合久久| 午夜精品区| 国产亚洲欧美日本一二三本道| 久久网欧美| 亚洲国产成人超福利久久精品| 99久久99视频| 波多野结衣在线一区二区| 久久99精品久久久久纯品| 日本久久免费| 伊人久久大香线蕉综合影视| 亚洲国产日韩在线成人蜜芽| 久久精品无码专区免费| 色综合天天综合| 日韩中文字幕亚洲无线码| 国产99视频精品免费视频7| 久久这里只有精品国产99| 国产女人综合久久精品视| 日韩国产精品无码一区二区三区 | 亚洲国产一区在线观看| 日本午夜精品一本在线观看| 欧美影院久久| 激情综合激情| 欧美成人免费午夜全| 国产视频一区二区在线观看| 国内自拍久第一页| 色综合五月| 精品视频一区在线观看| 久久一色本道亚洲| 日韩欧美色综合| 亚洲精品午夜无码电影网| 精品国产成人国产在线| 精品久久国产综合精麻豆| 美女亚洲一区| 一本二本三本不卡无码| 国产精品一区不卡| 性欧美久久| 亚洲经典在线中文字幕| 国产成年女人特黄特色大片免费| 亚洲AⅤ永久无码精品毛片| 国产视频一二三区| 免费av一区二区三区在线| 青青热久麻豆精品视频在线观看| 久久久久久久久久国产精品| 九九热视频精品在线| 综合五月天网| 欧美69视频在线| 欧美日本二区| 青青草原国产精品啪啪视频| 午夜少妇精品视频小电影| 欧美激情第一欧美在线| 一本大道香蕉中文日本不卡高清二区| 久久国产精品嫖妓| 国产人碰人摸人爱免费视频| 丁香综合在线| 一本综合久久| 免费女人18毛片a级毛片视频| 久久精品无码国产一区二区三区 | 国内精品久久九九国产精品| 亚洲人成网址| 67194成是人免费无码| 高清不卡毛片| 成人在线不卡视频| 无码在线激情片| 99久视频| 亚洲最大情网站在线观看| 日韩美女福利视频| 成人毛片免费观看| 日韩欧美在线观看| 亚洲久悠悠色悠在线播放| 久久精品丝袜| 91亚洲免费| 国产va免费精品观看| 91视频免费观看网站| 久久久久久高潮白浆| 久夜色精品国产噜噜| 国模粉嫩小泬视频在线观看| 人妖无码第一页| 无码有码中文字幕| 福利姬国产精品一区在线| 国产极品美女在线|