李華新,李望秀
南華大學計算機學院,湖南 衡陽 421001
數據挖掘技術在文獻研究法中的應用—以RefViz為例
李華新,李望秀
南華大學計算機學院,湖南 衡陽 421001
在科學研究文獻激增的今天,將數據挖掘技術引入文獻研究領域勢在必行。RefViz是一款可視化的數據挖掘工具,利用其獨特的算法能夠發現文獻之間的關聯性,并從中挖掘出某一研究領域的熱點問題和發展趨勢。
數據挖掘;文獻研究法;RefViz;移動學習
在課題研究中,我們往往需要使用文獻研究法對所研究的課題進行調研,以獲得該領域研究背景、存在問題以及研究趨勢等信息。隨著計算機和網絡技術的發展,大量的傳統文獻被數字化后以網絡文獻媒體出現,最新的研究成果及文獻也借助網絡載體紛紛涌現,組成了具有實時更新功能的文獻數據庫,大大方便了我們對文獻的檢索、歸類以及后期的分析處理。隨著各研究領域的細化和深化,新學科和新研究領域的不斷涌現,使得科學研究文獻數量呈幾何級數量增長,任何一名研究人員窮其畢生之力都不可能將本領域的文獻全部閱讀。盡管目前國內外的一些文獻數據庫(如CNKI、SCI、SSCI等)的檢索功能較為強大,但是因為傳統的基于關鍵詞匹配的檢索算法缺乏有效的限制機制(如邏輯性語言無法表達等),檢索結果仍不能令人滿意—往往會檢索到大量與主題無關或冗余的參考文獻。研究人員往往要通過閱讀摘要甚至對全文進行人工篩選,將其歸類分析,花費了大量的人力和時間,效果卻不甚理想。數據挖掘(datamining)技術由于其獨特的功能,在文獻研究領域中有著廣泛的應用前景,具有極其深遠的意義。
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[1]。數據挖掘具有自動預測趨勢和行為、關聯分析、聚類、概念描述及偏差檢測等功能,與文獻研究的目的不謀而合,能很好地應用于文獻檢索領域。
1.1.1 減輕研究人員負擔 傳統的文獻研究需要研究人員閱讀大量的文獻摘要甚至全文,然后將這些文獻進行人工的歸類與統計,對所要研究的問題做系統性的分析,從中發現相關信息從而找出某種聯系。當文獻的數據非常巨大時,傳統的文獻研究法便有些力不從心,即使花費大量的人力和時間,也有可能無法完成。將數據挖掘技術引入文獻研究領域,代替人工進行數據檢索、篩選、統計、聚類分析等,使研究人員從大量的重復勞動中解放出來,以減輕研究人員的負擔,并提高研究效率。
1.1.2 彌補傳統文獻研究的不足 文獻研究法中既有非結構式定性分析,又有結構式定量分析,它們從不同的側面對文獻中所包含的信息進行加工和整理。傳統的文獻研究法多為結構式定性分析,使用數據挖掘技術對文獻進行定量分析具有直觀性、客觀性、系統性等特點,因而可彌補定性研究缺乏直觀性和系統性的不足;此外,使用數據挖掘技術可以科學地抽取大型樣本,對某一領域中所有的文獻進行系統結構分析,因而可以彌補傳統文獻研究由于檢索文獻數量少而帶來的不完整性等問題,增強研究的科學性與確切性。
1.1.3 拓展數據挖掘技術的應用領域 促成某一技術迅猛發展的因素往往并不在于技術本身,而是技術的應用領域。數據挖掘技術自問世以來,便廣泛應用于各種領域:如商業、情報、科學等領域。近年來,數據挖掘技術正逐漸向教育研究領域滲透,如在網絡教育中通過對學習者網絡訪問日志進行數據挖掘,可以獲得學習者的學習風格及學習喜好等信息,從而對學習資源和學習策略進行調整,促進學習者學習。將數據挖掘技術引入文獻研究領域進行內容分析,對文獻內容作客觀而有系統的量化,并加以描述,從文獻中發現一些隱藏的、未知的知識,是數據挖掘技術的另一個熱點應用領域。
數據挖掘根據不同標準有不同的分類方式。數據挖掘技術用于文獻研究主要是對文獻進行聚類、預測、關聯和相關性分析等。因此,可以根據數據挖掘的功能(知識類型)分為共引分析、共著分析、著者分析、共詞分析和共篇分析等。這里主要介紹共詞分析和共篇分析兩類。
1.2.1 共詞分析 共詞分析是一種內容分析技術。它通過分析在同一個文本主體中的款目對單詞或名詞短語對共同出現的形式,確認文本所代表的學科領域中主題間的關系,進而探索科學的發展[2]。共詞分析的第一步是從文獻數據庫中抽取出現頻次超過一定閾值的高頻主題詞,兩兩統計其在同一篇文章中同時出現的次數,形成共詞矩陣,然后圍繞著這個共詞矩陣進行分析。文獻研究中的共詞分析主要應用于兩個方面:一是探求各研究領域間的相互關系,另一個是尋找次要的但是潛在增長的領域[3]。
1.2.2 共篇分析 1994年,我國學者羅式勝首先提出了“科學文獻關鍵詞鏈”這一概念,認為兩篇或多篇科學文獻有一個或多個相同的關鍵詞,則這兩篇或多篇文獻或其相應著者間則必然存在一種潛在的聯系,這種聯系稱為科學文獻關鍵詞鏈。共篇分析就是應用“科學文獻關鍵詞鏈”概念作為基礎而形成的一種文獻計量方法。用途主要包括以下幾個方面:①從內容上了解文獻之間的內在聯系,了解該領域在研究方向上的類同和相關聯程度;②對同一主題按年份進行時間分段比較分析,了解該主題的研究力量和內容的時間變遷;③分別統計具有相同主題詞的文獻作者群,能了解該主題研究領域在世界范圍內的分布和發展趨勢;④根據主題共篇分析來研究相應作者和研究機構的聯系強度,用以確定該主題研究領域的核心作者和權威研究機構[4]。
RefViz是Thomson ISIResearch Soft和OmniViz公司合作推出的一款可視化的文本分析和數據挖掘工具,能對大量文獻進行組織、分析,以利于研究者對參考文獻的理解,是典型的共篇分析工具。RefViz功能非常強大:①能將參考文獻庫中參考文獻的主題內容進行組織排列,并以直觀的圖形方式將其呈現在一個可視化的交互窗口中。通過其強大的分析工具,可以詳盡地顯示各參考文獻之間的相互聯系,便于我們快速從一大堆毫無頭緒的參考文獻中找出某一研究領域的熱點問題及該領域的研究與發展趨勢[5];②提供了在線搜索工具,用戶可以隨意指定軟件內置的各類數據庫,為用戶進行跨庫檢索提供了方便;③能實現與文獻管理軟件(如Endnote、Reference Manager等)的無縫鏈接,即我們可以隨意將Endnote、RM數據庫與RefViz直接進行數據的導入導出操作。
2.1.1 RefViz文本分析工作機理 Refviz工作的原理類似于我們平時閱讀文獻的過程。我們平時進行文獻研究的方式是:逐一閱讀文章標題以及摘要,根據主題內容將其分類。RefViz處理一批文獻時,也是一種“reading-finding-dividing”的過程。RefViz首先通過閱讀文章內容(包括標題和摘要),發現詞的范式及詞與詞之間的聯系。與其他的軟件不同,RefViz并不是單純通過詞頻來統計,而是通過一種復雜的數學統計模型找出詞的重要程度,將其分為三個等級;然后利用這些最重要的詞和次重要的詞對每篇文章進行標識;再通過標準的聚類方法將這批文獻分成基于主題內容的若干組,每一組文獻都通過三個不同重要性詞和描述詞予以標識,用以描述文獻間的聯系和主要概念。
2.1.2 RefViz軟件界面 RefViz界面非常簡潔,由四個窗口組成,如圖1所示:①視圖窗口。用來顯示分析結果的窗口,有兩種視圖顯示方式,Galaxy方式和Matrix方式;②主題/檢索窗口(Topic/Search)。該窗口分為三欄,左邊的是主要主題詞(major topic),中間的是次要主題詞(minor topic),最右邊的是描述詞(descriptive terms)。其中,“major topic”是RefViz用來對文獻進行分類的依據,“minor topic”和“descriptive terms”則為RefViz的分類提供輔助作用。此外,用戶還可以根據需要對上述三種詞進行調換,在自動處理的基礎上增加了人工干預功能,突出研究者的創造性,更好地發揮軟件的作用;③參考文獻瀏覽窗口(reference viewer)。顯示文獻數據庫中參考文獻的信息,包括軟件通過聚類方法對文獻的分組信息,以及參考文獻的標題、作者、發表日期等信息;④咨詢窗口(advisor)。這是軟件的提示區域,告訴用戶當前界面及操作的一些信息,用以指導用戶對軟件進行操作。

圖1 RefViz軟件界面
從“ISIWeb of Knowledge”數據庫中選擇INSPEC文摘索引數據庫。該數據庫是物理學、電子工程、電子學、計算機科學及信息技術領域的權威性文摘索引數據庫。以“m-learning”和“mobile learning”為關鍵詞,時間限定為“2003-2007”進行搜索,共搜索到相關文獻320篇。使用RefViz對搜索到的近5年來移動學習領域(m-learning)的研究文獻進行分析,試圖從中發現各文獻間的相互聯系,找出該研究領域的熱點問題及發展趨勢。
2.2.1 導入數據 將搜索到的320篇文獻以“Bib liographic+Abstract”(主題詞+關鍵詞)的輸出格式導入到Endnote軟件的“m-learning”庫中,通過與RefViz的關聯導入到RefViz中進行分析(如圖2所示)。

圖2 數據導入后界面
2.2.2 預處理 在主題/檢索窗口可以看到:意義相同或相近的詞沒有區分開來,主要主題詞過多,并包含無實質意義的詞或與分析主題無關且范圍過寬的詞,因此需要重新調整主題詞進行分析。一是將主要主題詞中的次要概念與專指度較低的詞降級(demote),如student,time,learn等詞;二是利用詞表工具,為指定標目詞添加同義詞,對同義詞進行控制。例如:指定m-learning為標目詞,mobile learning等為其同義詞。
2.2.3 分析數據 研究熱度分析:以文獻發表時間為檢索條件,2003-2006年發表論文分別為17篇、65篇、74篇、102篇,數量逐年增長,尤以2006年數量最多,是移動學習研究的高潮時期。2007年發表論文為62篇,數量有所減少,在一定程度上說明研究熱度有所降低,也有可能是由于研究內容趨于成熟所致。另一方面:從發表文獻所處的國家和地區看,我國臺灣地區發表的文獻最多(65篇),其次是英國(40篇),第三是韓國(22篇),這說明在這一時期這三個國家或地區在此領域研究成果最為豐富。

圖3 2004-2007年主題詞分布圖
研究內容與方向分析:①橫向比較。通過Galaxy圖可知:本例中第1組(102篇),第8組(40篇),第13組(38篇),第15組(50篇)文獻量較大,其主題詞分別為“environment,process,model”,“device,pda,wireless”,“phone,device,method”,“device,environment,elearning”,基本相近,說明移動學習研究內容基本固定,大都集中于移動學習環境與支持設備的研究;②縱向比較(如圖3所示)。近4年圍繞移動學習的主題內容基本上沒有太大變化,都是圍繞環境建設(environment)、移動設備(device)、無線(wireless)展開的;一個顯著的變化是:2007年文獻出現了“framework”這一詞(見圖3中紅色矩形框標記),繼而以“framework”為關鍵詞進行二次檢索,可以檢索到四篇以“framework”為題的論文,分別為Motiwalla LF的“移動學習—框架和評估”,Moore等的“基于本體論的自主和協作式移動學習情境框架”,Kazi SA的“MILE:移動式智能學習環境—移動學習的概念框架”,Hohfeld A的“一種用于網絡中心操作的泛在移動學習框架”,說明關于某一特定框架的移動學習是移動學習領域的研究新動向。
相關度分析:①文獻間相關度。在Galaxy視圖中,第13組(主題詞為“phone,device,method”)與第16組(主題詞為“digital,device,personal”)相互重疊,說明這兩組文獻相關性強。我們可以將這兩組文獻歸為一類;②主題詞與文獻間相關度。在Matrix視圖中,以相關度>0.5為篩選標準,可以得知:主題詞“framework”與第7組文獻(主題詞為“user,process,model”)關聯性較強(relevence=0.71),說明框架與移動學習方法和模式存在某種聯系;主題詞“environment”與第14組文獻(主題詞為“process,mobility,learner”)關聯性較強(relevence=0.67);表明移動學習環境與學習者學習過程和移動性有一定聯系。
其他分析:①查找感興趣的文獻。文獻中有些主題詞雖然出現頻率不高,但有可能是以后的研究熱點,也有可能是你自己感興趣的內容,可以通過檢索工具在主題/檢索窗口中檢索到包含該主題詞的文獻,那么這篇文獻所在組中的其他文獻可能也具有較高的參考價值;②對該領域名家的研究。可以以作者名稱為條件進行搜索,獲得某個作者發表的文章在視圖中的分布情況,藉此發現該作者在該領域的研究方向和興趣,從中獲得一定的啟示。該案例中,發表文章數量最多的學者為:RONG-JYUE FANG、Sharples M等,均為6篇。
數據挖掘技術應用于文獻研究領域中,能從數據的汪洋大海中及時發現有用的信息,提高信息利用率,極大地提高了文獻研究工作的效率和水平,有力地支持了各領域研究工作的開展,從而促進了各學科的繁榮和科學技術的良好發展。隨著文獻數據庫技術的不斷豐富和完善,各種可視化的數據挖掘工具的升級與進步,數據挖掘技術將會廣泛應用于文獻研究領域,其功能也將會越來越強大,數據挖掘工具將成為廣大研究人員的研究利器。
[1]Roiger R J,Geatz MW.Datamining a tutorial based primer[M].北京:清華大學出版社,2003:11
[2]Qin H.Knowledge discovery through co2word analysis[J].Library Trends,1999,48(1):133-159
[3]崔雷,鄭華川.關于從MEDLINE數據庫中進行知識抽取和挖掘的研究進展[J].情報學報,2003,(4):425-433
[4]羅式勝.篇名關鍵詞鏈特征的統計分析和應用[J].中國圖書館學報,1995,(1):28-30
[5]王穎,戎文慧.可視化文本分析和數據挖掘工具RefViz[J].中華醫學圖書情報雜志,2006,(6):61-64
Application of data m ining technology in literature research methodology: Taking RefViz for exam ple
Li Huaxin,LiWangxiu
Institute of Computer Science and Technology,University of South China,Hengyang 421001
Today scientific research literature is increasing rapidly,and it is imperative to introduce datamining technology into the field of literature study.RefViz is a visualization tool for data mining,which can discover relationship between literature and dig out hot issues and development trend of a certain study field because of its unique algorithms.
datamining;literature research methodology;RefViz;M-learning
G40-057
:A
:1004-5287(2012)04-0430-04
2012-03-14
李華新(1979-),男,湖南臨湘人,碩士,講師,主要研究方向:教育信息化。