匡慧姝
湖南科技學院信息技術與教育系 湖南永州 425100
隨著傳統文獻轉換成數字文獻后,文獻的數量呈幾何數增長。對于科研人員來講,要在浩瀚的文獻中快速找到所需的文獻資料,并且提取文獻中有用的價值信息,相對困難。同時國內外的一些數據庫(如CNKI、SCI等)的檢索功能雖然強大,但是基于關鍵詞匹配的檢索算法邏輯性言語的表達,使其檢索的結果不能令人滿意(往往會檢索到冗余文獻)。因此,利用EndNote和RefViz數據挖掘工具,可以方便快捷地將檢索的文獻信息轉換成可視化的信息,并且根據自動分類功能,分析同組環境下文獻信息的關聯性。此外,根據RefViz中的主題詞信息,分析學科領域中的熱點信息及學科發展趨勢。因此,基于文獻數據挖掘(Data Mining)技術在任何一個學科領域都具有強大的生命力,對學科的發展具有深遠的意義。
數據挖掘(Data Mining)具有關聯、聚類、分類、異常、特異群組和演變分析的功能,與文獻研究的目的相同。數據挖掘是從大量的、不完整的數據中,提取隱含在浩瀚數據中的具有規律性和潛在價值的信息的過程[1]。
1)減輕研究人員負擔,提高研究效率。傳統文獻研究需要研究人員閱讀大量的文獻材料,然后人工進行文獻的整理與分類,同時對所要研究的問題做系統性分析。當文獻數據的量非常大時,傳統的文獻研究法便有些力不從心,即使花費大量的人力和時間,也有可能無法完成。將數據挖掘技術引入文獻研究領域,代替人工進行數據檢索、篩選、統計、聚類分析等,可以大大減輕研究人員的負擔,提高研究效率。
2)彌補傳統文獻研究的不足。文獻研究法中既有非結構式定性分析,又有結構式定量分析,它們從不同的側面對文獻中所包含的信息進行加工和整理。傳統的文獻研究法多為結構式定性分析,使用數據挖掘技術對文獻進行定量分析具有明顯性、客觀性、系統性等特點,因而可彌補定性研究缺乏直觀性和系統性的不足。
數據挖掘技術用于文獻研究主要是對文獻進行聚類、預測、關聯和相關性分析等,因此,根據數據挖掘的功能將其分為共引分析、共著分析、著者分析、共詞分析和共篇分析等[1]。下面簡要介紹共詞分析和共篇分析。
1)共詞分析。共詞分析是一種內容分析方法,通過分析同一個文本的主體內容,統計對單詞或短語出現的頻度,從而確認文本所代表的學科領域中各個研究熱點的相互關系,進而探索學科的發展趨勢[1]。共詞分析首先從文獻數據庫中抽取出現頻次超過一定閾值的高頻主題詞,兩兩統計這些主題詞在同一篇文章中同時出現的次數,形成共詞矩陣,然后圍繞這個共詞矩陣進行分析。
2)共篇分析。共篇分析是指兩篇或者兩篇以上的文獻具有一個或多個相互聯系的關鍵詞,這類關鍵詞連結多篇文獻的紐帶,這種紐帶的關系可稱之為文獻關鍵詞鏈。用途主要包括:①從內容上了解文獻之間的內在聯系,了解該領域在研究方向上的類同和相關聯程度;②分別統計具有相同主題詞的文獻作者群,能了解該主題研究領域在世界范圍內的分布和發展趨勢。
EndNote是一款功能強大的科技文獻管理軟件,其友好的界面風格受到廣大科研人員的好評,并得到廣泛應用。EndNote的最新版本提供了3200多種期刊的參考文獻的格式。此外,其開放的過濾器和期刊樣式編輯方式為用戶提供了個性化的選擇。
RefViz是Thomson ISI Research Soft和OmniViz公司共同推出的一款可視化的文本分析工具,能對大量文獻數據進行歸類和分析,是典型的共篇分析軟件。
RefViz功能非常強大:
1)該軟件能將參考文獻庫中參考文獻的主題內容進行組織排列,并以直觀的圖形方式將其呈現在一個可視化的交互窗口中;
2)提供在線搜索工具,用戶可以隨意指定軟件內置的各類數據庫,為用戶進行跨庫檢索提供了方便;
3)能實現與文獻管理軟件(如EndNote、Reference Manager等)的無縫連接,即可以隨意將EndNote的數據與RefViz直接進行數據的導入導出操作[2]。
RefViz工作的原理是一種“reading-finding-dividing”的過程。RefViz首先通過閱讀文章內容(包括標題和摘要),發現詞的范式及詞與詞之間的聯系。與其他軟件不同,RefViz通過一種復雜的數學統計模型找出詞的重要程度,將其分為三個等級;然后利用這些最重要的詞和次重要的詞對每篇文章進行標識;再通過標準的聚類方法將這批文獻分成基于主題內容的若干組(group),每一組文獻都通過三個不同重要性詞和描述詞予以標識,用以描述文獻間的聯系和主要概念[3]。

圖1 檢索結果在EndNote中
利用ISI Web Science數據,檢索國外教育技術學1994—2012年發表的文獻資料,運用RefViz數據分析軟件,探討教育技術學目前的研究熱點和未來趨勢。以下是RefViz的具體分析過程。
首先打開ISI Web of Knowledge數據庫(http://www.isiknowledge.com/)。在該數據庫中輸入主題詞“education technology”,選擇年限跨度為18年(1994—2012年),然后進行相關內容的檢索。其檢索結果為:共檢索1834條信息。然后將檢索到的數據信息通過web of science頁面中自帶的EndNote功能,將數據保存至EndNote中,如圖1所示。
將檢索到的1834篇文獻以“education technology”(主題詞)的格式導入RefViz中進行分析,如圖2所示。
在主題/檢索窗口可以看到:意義相同或相近的詞沒有區分開來,主要是主題詞過多,并包含了一些無實質意義的詞或與分析主題無關且范圍過寬的詞,因此需要重新調整主題詞進行分析。一般有兩種處理方法:
1)將主要主題詞中的次要概念與專指度較低的詞降級(demote),如field、range等,同時將主要概念與專指度較低的詞進行升級,如instructional、instructions等為其同義詞;
2)利用此表工具,為指定目標詞添加同義詞,對同義詞進行控制,如指定instruction為目標詞,instructional和instructions等為其同義詞。

圖2 數據導入后的界面

圖3 干預后的結果

圖4 Galaxy顯示結果

表1 運算結果分組情況及各組主題詞
RefViz通過數學聚類算法,將已經檢索的1834篇文章按照干預后的主題詞的相關性分成若干個組,其結果如圖3所示。
該研究的過程主要是對RefViz生成的兩個圖形進行分析,分別是Galaxy圖和Matrix圖。這兩個圖雖然表示的內容是一樣的,但是根據不同的內容和圖形的分布,會有些區別。下面分別就兩個圖形的內容進行分析。
由圖Galaxy(圖4,文獻組大小可以代表文獻的多少)得出:將檢索的文獻分為41組,每組均有不同數量的文獻。本文在41組文獻中,選取篇數在100以上的文獻,共7組文獻數量較大,如表1所示。
通過對圖4中各個文獻組的相似性分析可知:第18組、23組和32組相似度極高,其主題詞為“education,technology”;第7組和第5組相似度高,其主題詞為“education,computer”。此外,針對具體文獻數的分析與閱讀,認為教育技術的研究熱點比較多,其重點表現在:對教育技術定義的研究;通過計算機網絡的形式開展教育技術研究;從設計、運用、開發和評價四個維度開展研究。

圖5 Matrix顯示結果
如圖5所示,在Matrix顯示的結果可以看出,“student”與“education”為正相關關系,因此根據相關度的篩選標準(relevant)≥0.5[1],通過Matrix分析文獻組與主題詞、主題詞與主題詞之間的關系,其主題詞student與37組文獻(education、engineer、instruction)密切相關。
1)根據RefViz對教育技術學外語文獻的數據分析,結合相應的文獻閱讀,可以清晰地看到國外對教育技術學的研究大多數依據94定義而展開,形成許多研究熱點,如對教育技術概念的界定與闡釋、計算機網絡在教育技術中發揮的作用,同時從設計、開發、運用和評價四個維度進行詳細闡述,在課程教學中注重教學設計、行動研究和運用教育技術手段解決現實生活中的各種問題。
2)通過Matrix圖可以分析不同主題詞與研究熱點的關系,如“student”與“education”就構成相似性關系,并通過這種關系閱讀相關文獻內容,得出具體的研究結果。
3)RefViz是一個可視化的文獻分析軟件,可以幫助人們在大量文獻資料整理與分析中,提煉出需要的內容和當前的研究熱點。此外,RefViz與EndNote軟件可實現無縫連接與數據交換,極大地方便人們對數據的處理。因此,在課題的研究中,值得進行探索性嘗試。
數據挖掘技術應用于文獻研究領域中,能從數據的汪洋大海中及時發現有用的信息,提高信息利用率,極大地提高文獻研究工作的效率和水平,有力地支持各領域研究工作的開展,從而促進各學科的繁榮和科學技術的良好發展。隨著文獻數據庫技術的不斷豐富和完善,各種可視化的數據挖掘工具的升級與進步,數據挖掘技術將會廣泛應用于文獻研究領域,其功能也將會越來越強大,數據挖掘工具必將成為廣大研究人員的研究利器。
[1]羅式勝.篇名關鍵詞鏈特征的統計分析和應用[J].中國圖書館學報,1995(1):27-29.
[2]王穎,戎文慧.可視化文本分析和數據挖掘工具RefViz[J].中華醫學圖書情報雜志,2006,15(6):61-64.
[3]RefViz Frequently Asked Questions[EB/OL].[2010-4-29].http://refvis.com/support/rvsupport.asp.
[4]王保成.聯合應用EndNote和RefViz探索課題情報分析[J].圖書情報工作,2008(增刊):248-251.
[5]楊振恒.國外頁巖氣研究熱點:基于可視化文獻分析軟件RefViz的研究[J].石油工業計算機應用,2010(2):30-32.