摘要 設計一個面向學科的主題分析模型,提出采用計算機語言學進行分詞、自動摘要、分類與關鍵詞統計等對教育技術學專業文獻進行主題分析的方法;對專業教材進行分析,構建學科主題詞庫,并利用學科語料庫對專業文獻進行主題分析,為教育技術學發展趨勢的文獻研究提供一種方法。
關鍵詞 信息檢索;主題分析;詞頻分析;文獻研究;主題詞
中圖分類號:G40-057 文獻標識碼:A 文章編號:1671-489X(2010)03-0010-02
Research on Thematic Analysis in Professional Literature Analysis of Education Technology//Zhou Lian, Liu Qingtang, Zhou Xudong, Han Shuyun
Abstract The paper, which designs a subject-oriented thematic analysis model, provides an idea of using computer language to do word segmentation, auto-abstract, classification and key words statistic in order to analyze the theme of professional literature in education technology. Besides, it constructs subject thesaurus and makes use of corpora to analyze professional literature which brings a new sight for literature research of education technology.
Key words information retrieval; thematic analysis; word frequency analysis; literature research; descriptor
Author’s address
1 Department of Information Technology, Huazhong Normal University, Wuhan, China 430079
2 Engineering Research Center for Education Information Technology, Huazhong Normal University, Wuhan, China 430079
1 引言
文獻研究法[1]是指根據一定的研究目的或課題需要,通過查閱文獻來獲得相關資料,全面地、正確地了解所要研究的問題,找出事物的本質屬性,從中發現問題的一種研究方法。目前,教育技術學文獻研究主要是運用文獻統計分析,利用統計學方法對文獻進行統計分析,以數據來描述和揭示文獻的數量特征和變化規律,從而達到一定研究目的的一種研究分析方法。文獻統計分析[2]的現實意義主要表現在2個方面。一方面,它是文獻定量研究的基礎和條件。對各個學科、各種類型的文獻,以各種不同的方式進行的文獻定量分析研究,都離不開文獻的統計數據。文獻統計是文獻研究的基礎工作,文獻數據是開展文獻研究的必要條件。另一方面,它能揭示文獻的量變規律。通過對文獻的統計分析,能夠反映出文獻的增長變化、分布特征、流通狀況,以數據來揭示文獻的數量變化規律[3]。
目前,國內外很多人都采用該方法來研究某領域的論文產出與分布、發展狀況、研究熱點的變遷以及發展方向。我國已經開始有人對遠程教育雜志做文獻內容分析,比如殷丙山等人的《中國遠程教育學術研究現狀——基于專業學術期刊的分析》(2005),張秀梅的《我國遠程教育學科研究發展概觀》(2005)等。對雜志做內容分析有助于反思學科發展動態,提供進一步的研究方向。
本文主要利用能夠揭示或表達文獻核心內容的關鍵詞或主題詞在某一領域文獻中出現的頻次高低,來確定該領域研究熱點和發展方向的文獻計量方法。首先構建面向學科的主題分析模型;其次為了提高分析的精度,構建主題詞集;最后將主題詞集運用到分詞與索引中,并進行統計分析。
2 面向學科的主題分析模型研究
面向學科的主題分析是通過對文獻的標題、摘要、關鍵詞、內容等4方面進行主題詞詞頻統計分析,來分析專業文獻的特征,推斷其發展趨勢和研究熱點等。面向學科的主題分析是基于內容的,需要對文獻的內容進行分析處理,通常的方法是計算機語言學方法。一篇文獻的核心是其內容的濃縮和提煉,是通過主題詞表現的。面向學科的主題分析模型如圖1所示。

該模型主要設計文檔庫、主題詞集、學科語料庫、索引庫。由于CNKI比較全面地匯集了國內出版的學術期刊,其論文內容基本涵蓋了學科專業的發展動向和研究熱點,因此選擇這一統計源具有典型的意義[4]。本文首先用網絡爬蟲將每篇論文的標題、摘要、關鍵詞[5]、內容4個方面分別錄入文檔庫,并進行文檔解析。其次用分詞工具對解析后的標題、摘要、關鍵詞、內容4方面分別進行分詞。這里構建主題詞集,它主要加入學科的專業詞匯,從而提高分詞的精確度。然后將分詞的結果進行統計分析。最后對統計的結果和文檔解析后的自動文摘建立索引,索引結果放入索引庫。
3 主題詞集
教育技術專業主題詞集主要由其8門主干課程及專業學術期刊構成。8門主干課程為教育技術學、教學系統設計、教育技術學研究方法、遠程教育學、教育信息處理、信息技術與教育、網絡教育應用教程、教學媒體的理論與實踐。專業學術期刊為2008年《電化教育研究》,共245篇論文。
根據國家標準GB/T 13745-92(《學科分類與代碼》),將教育技術學學科分為4個方面:1)教育技術學基礎理論;2)教育技術學應用基礎;3)教育環境及系統開發;4)應用實踐類。
例如,將教育技術學基礎理論類劃分為教育技術學基礎和教育技術研究方法等。如表1所示,教育技術學基礎主要概括為2個對象5個范疇,約30多個核心詞匯集。表2表示教育技術學研究方法的核心詞匯集,包括經驗方法、理論方法、系統科學方法和專門研究法,包括30多個核心詞匯集。

共收錄教育技術學主題詞2 352個,這里只列舉部分主題詞。主題詞集應用在分詞中,并納入學科語料庫。
4 主題分析法的應用與評價
本文選用教育技術學專業的核心雜志《電化教育研究》,主要將2008年共245篇論文作為數據源。從每篇論文的標題、摘要、關鍵詞、內容4個方面分別入庫,用分詞工具對入庫的標題、摘要、關鍵詞、內容4方面分別進行分詞,然后對分詞結果進行統計分析。統計出每個詞出現的總次數,并從高頻到低頻進行排序。最后對統計的結果建立索引。將出現頻率高的作為主題詞,通過詞頻分析描述該專題學術研究狀況,進而揭示教育技術學的研究熱點和發展趨勢。

評估關鍵詞提取系統的2個指標準確率precision和查全率recall。準確率是所有提取的關鍵詞與人工提取結果吻合的關鍵詞所占的比率,其數學公式為:準確率=提取正確的關鍵詞數/實際提取的關鍵詞數。查全率是所提取關鍵詞結果與人工提取關鍵詞結果的吻合比率,其數學公式為:查全率=提取正確的關鍵詞數/人工提取的關鍵詞數。
這里統計分析的處理方法是:剔除不相關和無意義的詞;出現同義詞時,將同義詞分別統計后合并[6]。經過對教育技術學專業的核心雜志《電化教育研究》的統計發現,出現頻率較高的詞匯如表3所示。
從表3中可看出,信息技術、信息化、多媒體等都是頻率出現比較高的詞匯。通過教育技術學分類條目與主題詞間的關系,根據教育技術學的發展方向,推測教育技術學在教育技術學應用基礎中的多媒體、網絡及應用實踐類中的計算機教育,都是研究的熱點。
5 小結
利用主題分析法,采用詞頻統計,對2008年《電化教育研究》共245篇論文中的標題、摘要、關鍵詞、內容4方面選取頻率高的作為主題詞并收入到原有的分詞詞典中。其次將每篇論文的標題、摘要、關鍵詞、內容4個方面分別入庫,然后進行分詞、統計、分類,從而揭示教育技術學的研究熱點。本論文選取的樣本只是2008年《電化教育研究》,后階段為了使研究更為精確,需要擴大樣本選取的范圍,如《中國教育技術裝備》《中國電化教育》《遠程教育》《現代教育技術》等。
參考文獻
[1]宋巧枝,方曙.基于文獻統計分析法的專利計量分析研究[J].現代情報,2008(2)
[2]萬江平,何振輝,鄭楚衛.基于詞頻法的我國軟件質量研究主題分析[J].情報雜志,2007(10)
[3]陳太洋.1996年—2005年我國教育信息化文獻計量分析[J].圖書館理論與實踐,2006(6)
[4]劉海蘭.通過詞頻分析看文獻標引與編目發展及其研究熱點[J].農業圖書情報學刊,2008,20(3)
[5]李文蘭,楊祖國.中國情報學期刊論文關鍵詞詞頻分析[J].情報科學,2005,23(l)
[6]蒼宏宇,譚宗穎.國內外信息檢索研究熱點分析——基于Z-Score標準化的詞頻[J].圖書館建設,2009(1)