董麗 安璐
摘 要:新興主題目前沒有明確統(tǒng)一的定義,它表述為近幾年來逐漸引起人們興趣,并被越來越多的學者研究的主題領域,也可以理解為發(fā)現(xiàn)某一特定領域中的焦點、熱點,并挖掘最新的變化趨勢時主動提示的過程。文章對新興主題的研究主要集中在兩點:一是研究主題的探測方法,如分類與聚類、可視化等,二是關于特定學科的新興主題實證分析,通過總結現(xiàn)有研究中的不足,指出未來研究新興主題的研究方向。
關鍵詞:新興主題 分析方法 分類和聚類 前沿
中圖分類號:G353 文獻標識碼:A 文章編號:1674-098X(2013)03(c)-00-03
從海量的科技信息中探測新興主題是科技創(chuàng)新的關鍵任務之一,科研人員及其管理者在進行科學研究前必須要充分了解其研究領域的前沿熱點,把握新興趨勢,從而提出有創(chuàng)新性的研究方向和主題。近年來,新興主題吸引著越來越多的國內外科研組織及研究者討論研究,關于新興主題的概念解析、探測方法、分析工具等方面國內外科研組織都相繼做出了卓越貢獻,但總的說來研究相對孤立和分散,分析總結新興主題研究成果還不夠成熟和完善,因此,對于新興主題的探測研究和實證分析已是十分迫切與必要。
隨著信息時代的發(fā)展,2002年Naohiro等人在海量的數(shù)據(jù)中發(fā)掘出新出現(xiàn)的主題,提出新興主題(Emerging Topics)的概念[1],是指在某個當前正在研究的特定科學領域中,研究者發(fā)現(xiàn)新的一組由多個關鍵詞或詞組來表示的一組主題領域簇,代表著科學研究中極具發(fā)展?jié)摿Φ难芯糠较蚧蜈厔荨.Kontostathis等學者在2003年提出新興研究趨勢(Emerging Trend):隨著時間推移逐漸引起人們興趣、并被越來越多的學者討論的主題領域,也可以理解為發(fā)現(xiàn)某一特定領域中的焦點、熱點,并挖掘最新的變化趨勢時主動提示的過程。新興研究趨勢是目前文獻挖掘中一個新興的研究方向,它能夠揭示某個特定領域在一定時間內顯示出來的研究方向的變化情況。深入挖掘文獻集合中包含的時間相關信息具有重要的意義,借助計算機技術去主動探測emerging trend[2]可以提高科研人員和情報人員對科學研究動態(tài)及時把握和處理的能力,提示他們注意某些外部事件或者新興的技術對研究領域的影響,幫助他們快速的探詢研究方向的進展情況,有利于其確定或修改研究計劃。
Le Minh Hoang[3]引用了Kontostathis對新興研究趨勢的定義,對新興研究趨勢的判斷過程分為Topic Representation(主題描述)、Topic Identification(主題界定)、Topic Verfication(主題判斷)三個部分,并加入了對關注主體(研究人員、研究機構、文獻來源等)的專業(yè)性的考慮。他賦予每個主題6個屬性值,根據(jù)這6個屬性值來確定每個主題的受注意程度以及有用性,其中屬性值1、3、5、6的平均值衡量受注意程度,屬性值2、4、5、6的平均值衡量有用性。屬性值依據(jù)文獻計量學的統(tǒng)計結果和挖掘法計算得出。主題根據(jù)受注意程度和有用性屬性值可分為:受注意程度和有用性的屬性值均大于0為新興主題;受注意程度大于0 而有用性小于等于0則為潛在的新興研究趨勢(Potentially Emerging Trends);受注意程度和有用性的衡量值均小于等于0 為陳舊的趨勢(Obsolete Trends);受注意程度小于等于0而有用性大于0則為不顯著但對研究有用的趨勢(Creative Trends)。普賴斯認為一個研究前沿大概由40~50篇最近發(fā)表的文章組成[4]。
國內研究者對新興主題概念的理解與國外觀點基本一致。楊良選等人認為研究前沿(research fronts,RF),又稱科學研究前沿,是指某一時點上某一焦點領域和出現(xiàn)的具有發(fā)展?jié)摿Φ难芯糠较颍芯口厔荩强茖W演講中最先進的、最有發(fā)展?jié)摿Φ摹⒆钚碌难芯恐黝}。侯海燕也用研究前沿進行了概況,他根據(jù)引文獻聚類[5]將其定義為一組突現(xiàn)的動態(tài)概念和潛在的研究問題,知識基礎(intellecture base)是它在科學文獻中(即由引用研究前沿術語的科學文獻所形成的演化網(wǎng)絡)的引文和共引軌跡[6]。
1 特定學科新興主題的實證研究綜述
對新興主題的研究主要集中在兩點:一是研究主題的分析方法,如分類與聚類、可視化等,二是關于特定學科的新興主題實證分析。
國外許多研究機構在新興主題研究的分析上提出多種方法和原型系統(tǒng),許多研究機構在新興研究趨勢探測方面提出了多種方法和相關的原型系統(tǒng),從自動化角度分有需要專家或用戶介入的半自動化系統(tǒng)、也有基于機器學習方法的全自動化系統(tǒng)。
國內殷蜀梅[7]認為新興研究趨勢探測的主要指標有:文獻中術語出現(xiàn)的頻率統(tǒng)計、與主題相關的關鍵詞的共同出現(xiàn)頻率統(tǒng)計,還認為新興研究趨勢技術的實現(xiàn)與信息抽取和命名實體識別技術息息相關。殷素梅在2008年的《判斷新興研究趨勢的技術方法分析》中通過分析海外相關機構開發(fā)的新興研究趨勢探測系統(tǒng),分析它們的實現(xiàn)特點和設計思路,認為在具體的評價方法上應采取多個評價指標綜合判斷。
該文從采用的技術方法角度,分為文獻計量學法、機器學習法和共引聚類網(wǎng)絡分析法對新興主題進行研究。
1.1 文獻計量學法
文獻計量學法是對科研論文進行統(tǒng)計、對科學研究量化的重要方法之一,它通過對學科的文獻數(shù)量進行計算分析科研追溯某一學科科研的研究情況及其動向,同時通過對科研發(fā)展過程的需求關系、內部結構的變更情況等潛在的動態(tài)趨勢進行定量分析、評價和預測,可以有效幫助科研人員了解目前該學科的研究前沿和發(fā)展趨勢。
它是一個簡單實用的方法,可直接應用系統(tǒng)將統(tǒng)計指標以時間序列用圖形表現(xiàn)出來,如ThemeRiver[8]、TOA(Technol2ogy Opportunities Analysis)[9]。分為單純采用文獻計量學指標法、雜志數(shù)據(jù)庫和網(wǎng)絡資源綜合指標法。它所采用的指標有:關鍵詞的用詞頻率統(tǒng)計、關鍵詞的共現(xiàn)用詞頻率統(tǒng)計、文獻的國家統(tǒng)計、文獻的機構統(tǒng)計等,其中關鍵詞用詞頻率統(tǒng)計幾乎是所有系統(tǒng)均采用的一個指標。該方法的系統(tǒng)并沒有總結出新興主題或指出某一領域的研究趨勢,而是根據(jù)時間序列,通過圖形表現(xiàn)指標的變化趨勢,由使用者總結出新興主題或其他,如TOA系統(tǒng)將關鍵詞用詞頻率(這個是使用者確定的)、文獻的國家、文獻的機構等按年份(如2001年-2012年)進行排列,以直方圖、對數(shù)圖、Fisher-Pry曲線圖以及地域研究圖譜來表明這些指標的變化趨勢;Theme River系統(tǒng)仍以時間為序列,將文獻庫中某時間段的關于某一主題數(shù)量多少作為該主題的濃淡度,在圖形上表現(xiàn)出來是一條著墨不均的曲線,再把多個主題標識到一個圖形上,可以對比出任一時間點上主題的新興程度;美國LEHIGH大學計算機科學與工程學院開發(fā)的CIMEL項目屬于綜合網(wǎng)絡資源和科學文獻數(shù)據(jù)庫輔助人工判斷,用戶列出主要的新興主題,然后通過數(shù)據(jù)庫檢索或GOOGLE、BAIDU搜索這些新興主題,搜索出的文獻由用戶刪選成文獻集后輸入系統(tǒng),系統(tǒng)計算文獻集每年相關文獻數(shù)量、文獻機構、文獻國別等,并進行圖表化
展示。
除此之外,國內學者還采用內容分析法、引文分析法等對文獻內容進行系統(tǒng)的定量分析方法,對大量的文獻進行標注,通過特征識別研究文獻中隱含的深層信息。國內學者陳悅利用多維尺度等方法繪制了中國管理科學作者的合作情況知識圖譜[10]。
1.2 機器學習法
計算機訓練學習如分層分布式動態(tài)索引文獻挖掘算法(HDDI),計算機自動抽取信息進行文獻選擇和挖掘,探測新興主題,掌握對新興主題的判斷。計算機首先對文獻做處理,按規(guī)則表達式抽取復雜名詞短語,然后設置0、1可變閾值,對復雜名詞短語(新興主題)歸類。該方法認為一個新興主題應該具有兩個特點:概念更加豐富;被引用次數(shù)增多,與之相關的概念增加[11]。
機器學習法通過閾值使機器可自動歸納新興主題,機器學習法對文獻不是一視同仁,而是考慮了各個文獻指標在主題研究趨勢判斷中占有的權重,通過對閾值的調整來修正輸出的結果。但是應用該方法在最終效果評價上并不很好,精度和召回率都不算高,而且機器學習法選用的文獻計量指標至選擇了詞頻和共詞,而且將概念包含的主題作為其中一個衡量指標,這樣雖然在信息抽取上獲得的精度和召回率都比較好,但在新興主題判定上得到的效果并不理想。
1.3 共引聚類網(wǎng)絡分析法
共引聚類網(wǎng)絡分析方法是由Small提出的,指兩篇文獻通過另外一篇或者多篇文獻建立聯(lián)系。他認為研究文獻的主題,研究的是文獻之間的引用與被引用的關系,文獻的引用能反映主題之間的關系,可以反映出文獻之間的聯(lián)系程度和結構關系,引用的文獻主題是被引用文獻主題的發(fā)展、改進。Morris[12]在《研究前沿的時間線可視模型》、 Boyack[13]在《資金支持數(shù)量的影響和引用研究文章數(shù)量的可視化》和 White[14]在《探索網(wǎng)絡和筆者共被引研究》均對可視化做出努力。共引聚類網(wǎng)絡分析中,以Citespace系列軟件最為常用。該軟件分析某一學科的新興主題的變化,以及研究新興主題的關系,利用共被引聚類,分析不同新興主題之間的內部聯(lián)系,最后通過可視化,使用戶能直接分辨新興主題的變化路徑。具體流程為:取一時間段(如2001-2012年),以特定關鍵詞檢索數(shù)據(jù)庫,得到文獻集合。計算集合中每個文獻被引用的次數(shù),以一定閾值挑選文獻,縮小文獻集,然后再對文獻集聚集,形成文獻簇。Chen在2006年發(fā)表《CiteSpace II:科學文獻中新趨勢與新動的識別與可視化》[15],進一步完善了可視化軟件。Small等發(fā)表《跟蹤和預測科學增長領域》提出共被引聚類,并預測術語[16]。
國內韓濤提出采用共詞、共引等方法對數(shù)據(jù)庫聚類。通過對共被引分析中主題簇聚集程度的強弱和主題簇間關系由特定閾值的共詞或共引關聯(lián)強弱來確定,通過不同閾值層聚類結構之間差異性的自動進行檢測分析、系統(tǒng)自動發(fā)現(xiàn)宏觀結構性的潛在結構,系統(tǒng)反應科學領域的主題分布結構。該研究揭示了同被引分析中隱藏在低閾值層中有重要意義的潛在簇[17]。2008年王翼等利用John Hopcroft[18]對中國生命科學中一百五十萬論文雜志聚類,找到我國醫(yī)學研究前沿[19]。章成志、梁勇等人采用主題聚類方法,從主題角度對包括時間信息的學科學術論文集進行主題分析與主題聚類,通過全面分析后歸納出某一特定學科的研究熱點和這些熱點的發(fā)展趨勢。實驗結果表明,基于主題聚類的學科熱點及其趨勢監(jiān)測方法,其監(jiān)測結果在很大程度上接近于常規(guī)方法的監(jiān)測結果,但基于主題聚類的監(jiān)測方法,在監(jiān)測成本和監(jiān)測信息時效方面得到改善。通過對學科領域的文獻信息可視化使研究者能夠直觀的辨識出學科前沿的演化路徑及學科領域的經(jīng)典基礎文獻[20]。
荷蘭阿姆斯特丹大學的Loet Leydesdorff選取期刊數(shù)據(jù)庫中文獻的引文,利用多元統(tǒng)計分析方法,通過Pajek等軟件繪制了期刊之間的引文網(wǎng)絡圖譜,反映出各學科之間的關系。
共引聚類網(wǎng)絡分析法能精選文獻并研究文獻間的關系,自行推測新興主題,但文獻的引用次數(shù)與文獻發(fā)表的時長有關。總體而言,新發(fā)表的文獻被引用次數(shù)低。
2 特定學科的新興主題實證研究
特定學科的前沿問題、發(fā)展趨勢之類文獻眾多,大部分是對可視化的運用。如許振亮[21]等在《基于知識圖譜的國際生物科學與工程前沿計量研究》中,運用可視化技術,展示國際生物科學與工程技術領域存在以“基因工程、蛋白質工程、酶工程”、“基因組學、蛋白質組學”與“細胞工程、組織工程”為內涵的三個主流知識群,繪制出國際生物科學與工程技術前沿領域的知識圖譜。
2008年,賴茂生[22-24]采用調查問卷、論文分析、研究項目統(tǒng)計分析三者結合,定量總結出情報學的前沿領域。
劉菁在《基于科學知識圖譜的國內移動學習演進與前沿熱點分析》中,根據(jù)《中文核心期刊要目總覽》(2008 年版)和的CSSCI數(shù)據(jù)庫中1998-2009年所有“移動學習”文獻,通過定量分析和定性分析相結合的方法,應用CiteSpace軟件進行數(shù)據(jù)問題,繪制了共現(xiàn)網(wǎng)絡,對國內移動學習的變化趨勢和研究熱點進行了可視化分析[25]。
我國的劉則淵、侯劍華等許多專家學者把CitesSpace Ⅱ 信息可視化技術應用到科技期刊文獻信息可視化分析當中,充分展示了該項技術在科學知識可視化研究中特色及其強大的功能。
王偉[26]在《國際信息計量學研究前沿與熱點分析》中對ISSI、COLLNET/WIS和S&TI國際會議主題選擇分析,得出國際信息計量學研究關注的前沿領域和研究熱點,指出其發(fā)展趨勢。
李雅在《知識圖譜方法科學前沿進展實證分析—以動物腸道纖維素酶基因工程研究為例》中,以Web of Science為數(shù)據(jù)庫,通過多元統(tǒng)計中聚類分析與多維尺度分析(MDS)圖譜相互驗證的方法,把相關的關鍵詞聚為關鍵詞集,根據(jù)關鍵詞集反映動物腸道纖維素酶基因工程的研究趨勢及關鍵詞的相關性[27]。
馬費成和張勤利用詞頻分析的方法,根據(jù)知網(wǎng)中世界知識管理類論文和雜志的關鍵詞,找出知識管理的新興主題[28]。
趙蓉英在《網(wǎng)絡計量學研究熱點與前沿的知識圖譜分析》中,以ISI WEB OF KNOWLEDGE為數(shù)據(jù)庫,以網(wǎng)絡計量學為主題,利用CITESPACE軟件進行圖譜分析,通過檢測主題變化來確定網(wǎng)絡計量學的研究熱點和發(fā)展趨勢。文中選擇的文獻信息為作者、題目、摘要和文獻引文,選擇闕值為1997年至2009年,根據(jù)文獻法得出文獻的時間、機構和地域分布圖。除此之外,還繼續(xù)使用CITESPACE軟件對數(shù)據(jù)進行了分析,得出網(wǎng)絡計量學的新興主題:網(wǎng)絡站點、社會網(wǎng)絡、鏈接分析等[29]。
陳立新等在《力學各分支學科研究前沿和發(fā)展趨勢的可視化分析》中,以《流體力學》、《固體力學》、《計算力學和振動》等力學領域的14種國際代表性期刊為研究對象,通過CITESPACE軟件對引文數(shù)據(jù)和主題詞數(shù)據(jù)的分析和處理,生成共被引文獻網(wǎng)絡和施引文獻主題詞共詞網(wǎng)絡組成的共被引與共詞的混合網(wǎng)絡圖。以知識圖譜的方式展示了力學各分支學科的重要被引文獻、主要學術人物以及由施引文獻主題詞所表達的力學重要研究領域,揭示了流體力學主流研究、固體力學主流研究和計算力學主流研究等的演化過程、研究熱點和前沿發(fā)展趨勢[30]。
3 研究存在的問題及趨勢展望
從上述國內外研究的現(xiàn)狀我們可以看出,新興主題目前沒有明確統(tǒng)一的定義,目前國內外學者對新興主題的研究主要集中在探測方法和特定學科的實證分析。從理論上看,國內對新興主題的研究還相當缺乏,可參考的文獻主要是對國外探測方法進行介紹和分析。在研究方法上,國內學者多局限于理論層面的分析而沒有將理論分析與實證研究結合起來進行綜合考察,真正有理論根據(jù)的定性研究和規(guī)范的實證研究為數(shù)甚少。目前采用的TOA系統(tǒng)、Theme River系統(tǒng)、CIMEL系統(tǒng)等雖以圖形展現(xiàn)各項指標,使得指標的變化趨勢更加直觀,能省去科研者的大量時間,使他們能夠迅速把握可以發(fā)展趨勢,確定研究前沿,但均不能自行判斷指標的變化趨勢,確定新興主題,均需通過人為加以判斷及區(qū)分。總而言之,新興主題的研究尚處于起步階段,關于新興主題的定量定性探測方法還需進一步的探索,建立及完善新興主題理論體系也十分必要,最終促進開發(fā)更具實際意義的研究模型也是一個亟待研究的問題。
參考文獻
[1] Matsumur Naohiro Matsumura,Yutaka Matsuo,Yukio Ohsawa,et al.Discovering Emerg ing Topicsfrom WWW[J].Journal of Contingencies and Crisis Management,2002
(2).
[2] Mawhinney T C.Total Ouality Management andOrganizational Behavior Management:An Integration forContinual Improvement[J].Journal of AppIied BehaviorAnalysis,1992,25(3):524-543.
[3] Le Minh Hoang.Emerging Trend Detection from Scientific Online Documents.http://www.jaist.ac.jp/library/thesis/ks-do ctor-2006/paper/hoangle/paper.pdf.(2007-08-01).
[4] Price D D.Networks of scientific papers[J].Science,1965(149):510-515.
[5] Staw B M,SandeIands L E,Dutton J E.Threat-Rigidity Effects in OrganizationaI Behavior:A MuItiIeveI AnaIysis[J].Administrative Science OuarterIy,1981,26:501-524.
[6] 侯海燕.科學計量學知識圖譜[M].大連.大連理工大學出版社,2008.
[7] 殷蜀梅.判斷新興研究趨勢的技術方法分析[J].情報科學,
2008,4.
[8] Brian Lent ,Rakesh Agrawal ,Ramakrishnan Srikant.Discovering Trends in Text Database[Z].Proceedings of KDD-97 ,1997:227-230.
[9] Soma Roy ,David Gery ,William M.Pottenger.Methologies forTrend Detection in Textual Data Mining[EB/OL].http:PPdi2macs.rutgers.edubillpPpubsPETDMethodologies.pdf,2007-08-01.
[10] Chen Yue,Liu Zeyuan.Co-authorship on ManagementScience in China[C]//10th Internationai conference of theinternationai society for scitometrics and informetrics.Stockhoim,Sweden:Karoiinska unversity press,2005.
[11] William M.Pottenger,Yong-Bin Kin,Daryl D.Meling.HDDIT M:Hierarchical Distributed Dynamic Indexing.http://www.cse.lehigh.edu/billp/pubs/HDDIFina-l Chapter.pdf,2007-08-01.
[12] Morris S A,Yen G.Timeline visualization of researc fronts[J].Journal of the American Society for Information Science and Technology,2003,55(5):413-422.
[13] Boyack W.Indicator-assisted evaluation and funding of research:Visualizing the influence of grants on the number and citation counts of research papers[J].Journal of the American Society for Information Science and Technology,2003,54(5):447-461.
[14] White D.Pathfinder networks and author cocitation analysis[J].Journal of the American Society for Information Science and Technology,2003,54(5):423-434.
[15] Garfield Historiographic mapping of knowledge domains literature[J].Journal of Information Science,2004,30(2):119-145
[16] Small H.Tracking and predicting growth areas in science[J].Scientomitrics,2006,68(3):595-610.
[17] 韓濤.知識結構演化深度分析的方法及其實現(xiàn)[D].中國科學院文獻情報中心,2008.
[18] Cohen J,Cohen P,West S G,et aI.AppIied multiple regression/correlation analysis for the behavioral sciences[M].Mahwah,NJ:Erlbaum,2003.
[19] 章成志.基于樣本加權的文本聚類算法研究[J].情報學報,2008(1).
[20] 侯劍華,陳悅.戰(zhàn)略管理學前沿演進可視化研究[J].科學學研究,2007,25(S1):15-21.
[21] 許振亮.基于知識圖譜的國際生物科學與工程前沿計量研究[J].情報學報,2009(4).
[22] 賴茂生,王琳,李宇寧.情報學前沿領域的調查與分析[J].圖書情報工作,2008,52(3):6-10.
[22] 楊文欣,杜杏葉,張麗麗,等.基于文獻的情報學前沿領域調查分析[J].圖書情報工作,2008,52(3):11-14.
[24] 賴茂生,王琳,楊文欣.情報學前沿領域的確定與討論[J].圖書情報工作,2008,52(3):15-18.
[25] 劉菁.基于科學知識圖譜的國內移動學習演進與前沿熱點分析[J].中國電化教育,2012(2).
[26] 王偉.國際信息計量學研究前沿與熱點分析[J].醫(yī)學信息學雜志,2010(2).
[27] 李雅.知識圖譜方法科學前沿進展實證分析—以動物腸道纖維素酶基因工程研究為例[J].情報學報,2012(5).
[28] 韓客松.中文全文標引的主題詞標引和主題概念標引方法[J].情報學報,2011(2).
[29] 趙蓉英.網(wǎng)絡計量學研究熱點與前沿的知識圖譜分析[J].情報學報,2011(4).
[30] 陳立新.力學各分支學科研究前沿和發(fā)展趨勢的可視化分析[J].情報學報,2009(10).