摘要:文章報告了文本挖掘技術的現狀、文本挖掘的過程、文本挖掘研究的課題,最后對文本挖掘的前景做了展望。
關鍵詞:文本挖掘;文檔分類;文檔聚類;自動文摘
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2008)34-1711-02
The Research of Text Mining Technique
LIN Hai-wen
(Yang-En University, Quanzhou 362014, China)
Abstrct: The article reports the actuality、the process and the research-aspects of the text mining technique. At last, gives an expectation for the text mining.
Key words: text mining; document classify; document clustering; auto-summary
1 引言
面對浩如煙海的文本信息,人們迫切需要研究出方便有效的工具去從大規模文本信息資源中提取符合需要的、簡潔的、精煉的、可理解的知識,文本挖掘(Text Ming,簡稱TM)因此產生。
2 正文
文本挖掘即文本數據庫中的知識發現,是從大量文本的集合或語料庫中發現隱含的、令人感興趣的、有潛在使用價值的模式和知識[1]。
定義1 文本挖掘是指從大量文本集合Doc中發現隱含的模式P。如果將Doc看作輸入,P看作輸出,那么文本挖掘的過程實質上就是從輸入到輸出的一個映射:Doc→P。
2.1 國內外研究現狀
下面列出一些著名的國外文本挖掘工具:
1) IBM的文本智能挖掘機[2]。
其主要功能是特征提取、文檔聚集、文檔分類和檢索,支持16種語言的多種格式文本的檢索,采用深層次的文本分析和索引方法,支持全文搜索和索引搜索,搜索條件可以是自然語言和布爾邏輯條件,是Client/Server結構,支持大量并發用戶做檢索任務,聯機更新索引。
2) Autonomy公司的Concept Agents,經過訓練以后,它能自動從文本中抽取概念[3]。
3) TelTech公司的TelTech。
提供專家服務,專業文獻檢索服務,產品與廠商檢索服務,TelTech成功的關鍵是建立了高性能的知識結構[4]。
國內情況:
表1為部分科研單位與大學對文本挖掘的研究情況。
2.2 文本挖掘過程
文本挖掘的過程文本挖掘的主要處理過程是對大量文檔集合的內容進行特征集的建立、特征集的縮減、學習和知識模式的提取、模式質量評價等。
·特征集的建立:由于處理的是非結構化的文本,使得現有的數據挖掘技術無法直接應用,因此要從文本中提取適當的代表其特征的元數據(特征項),將這些特征用結構化的形式保存起來,從而實現對非結構化的文本處理。
·特征集的縮減:自然語言文本集中往往包含大量的詞匯,如果把這些詞都作為特征,其特征維數會相當高,這些特征對將要進行的分類學習未必全是重要、有益的,而且高維的特征會大大增加機器學習的時間,因此需要去掉一些冗余詞匯,以降低維數。
·學習和知識模式的提取:在進行完特征集的縮減后,就可以利用機器學習的各種方法來實現面向特定應用目的的知識模式,通常是進行文本分類或文本的聚類等。
·模式質量評價:為了客觀地評價文本挖掘的效果,經研究提出了很多評測方法, 比較常用的有準確率(P- Precision)、召回率(RRecall)。準確率是所有判斷的文本中與人工分類結果吻合的文本所占的比率。查全率是人工分類結果應有的文本中分類系統吻合的文本所占的比率。
2.2.1 文本挖掘常用技術
從文本挖掘技術的研究和應用狀況來看,從語義角度來實現文本挖掘的還很少,目前研究和應用最多的文本挖掘技術是文檔分類、文檔聚類和自動文摘[5],是挖掘工作最重要的部分,處在挖掘過程的“學習和知識提取”階段。
1) 文檔分類
文檔分類是按照預先定義的主題類別,為文檔集合中的每個文檔確定一個類別。這樣用戶不但能夠方便地瀏覽文檔,而且可以限制搜索范圍來使文檔的搜索更容易、快捷。
文檔分類一般采用統計方法或機器學習來實現。常用的方法有:樸素貝葉斯法(NB),K-最近鄰法(K-NN)、支持向量機 (SVM)、向量空間模型(VSM)、線性最小二乘方估計法(LLSF)等。
2) 文檔聚類
文檔聚類的目標和文檔分類是一樣的,只是實現的方法不同。文檔聚類是無教師的機器學習,在文檔歸類之前沒有定義好的類可供選擇。在文檔聚類時,將所有類型接近的文檔歸為一類,使類型相同的文檔盡量歸為一類,類型不相同的盡量隔離開來,聚類的標準可以是文本的屬性,也可以是文本的內容。
聚類的方法通常有:K-最近鄰參照聚類法、簡單貝葉斯聚類法、層次聚類法、平面劃分法(k-means算法)、分級聚類法、基于概念的文本聚類等。
3) 自動文摘
自動文摘就是利用計算機自動地從原始文檔中提取全面準確地反映該文檔中心內容的簡單連貫的短文,其目的是盡量減少用戶閱讀的文本量。
2.2.2 文本挖掘系統評估方法
系統評估處在挖掘過程的“模式質量評價”階段,比較公認的評估辦法和標準如下:
1) 查全率和查準率
查準率(precision)=■
查全率(recall)=■
2) 冗余度和放射性
冗余度表示信息抽取中冗余的程度[6]。放射性是一個比較模糊的概念,它表示一個系統在抽取事實不斷增多的時候產生錯誤的趨勢。大家都希望系統有著最低的冗余度和放射性。
3) 雙目失明測試[7]
先用機器生成一組輸出結果,再混合人類專家用作的相同形式的輸出結果。這種混合后的輸出集再交給其他的一些人類專家,讓他們給予其準確性上的評估。
2.3 文本挖掘的研究課題
文本挖掘面臨許多新的研究課題:
1) 文本的表示
需要對文本進行預處理,對文本進行特征提取,從而把文本表示為計算機可讀的一種中間形式。[8]
2) 跨語言問題
文本挖掘功能要考慮到多種語言之間的語義轉換,需要一個語言模型及系統的方法,這將構成跨語言文本挖掘的重要部分。[9]
3) 大規模文本集合
要對文本集合進行處理,必須有快速高效的文本挖掘算法。
4) 模式的理解和可視化顯示
模式的可理解性很重要的,提高可理解性的解決方法通常包括以圖形方式顯示結果,提供相對少量的規則,或者生成自然語言以及利用可視化技術等。
5) 算法運行中參數的設定和調節
讓算法在運行過程中自動選擇相對較好的參數值和自行調節參數的取值,是很多算法能否被廣泛使用的一個關鍵問題。
6) 算法的選擇
各種算法各有其特點,如何從中選擇一個適合于具體應用的算法是一個尚待研究的問題。
7) 領域知識集成
領域知識很可以提高文本分析效率,有助于取得更緊湊的表示形式等,因此,可以考慮把領域知識集成到文本挖掘系統中。
8) 中文文本分詞技術
在中文中,詞與詞之間沒有分隔符,一個句子是由一串連續的漢字組成,加之漢語中的詞具有不同的長度,相同的字可出現在許多不同的詞中,還有許多詞是由單個字組成,這使得中文分詞是一項很難的工作,需要快速有效的技術。
2.4 文本挖掘的前景跟展望
從文本挖掘的現實來看,雖然距離語義層次的理解和知識挖掘的理想還很遙遠,但是已經在文本搜索、剔出重復、文檔聚類分析、自動分類和文摘方面取得了實用的效果。不要企望短時間內對文本挖掘技術在語義層面有很大的突破,因而不要對其理解力和智能化有過高的奢望。特別是在短時間內,理解、想象和含義判斷依然是人類的專利和專長。不要奢望文本挖掘很快越過語義鴻溝, 也不要因為語義鴻溝的存在而看不到其重要的應用意義和巨大的商業價值。
參考文獻:
[1] Feldman R,Dagan I.KDT-Knowledge Discovery in Textual Databases[C]//Proceedings of the 1st Annual Conference on Knowledge Discovery and Data Mining,1995:112-117.
[2] 蔣良孝,蔡之華.文本挖掘及其應用[J].現代計算機,2003(2),31.
[3] http://www.lnts.com.cn/ipower/erp/krm/krm010417004.htm[EB/OL].
[4] Expert Advisory nettwork[EB/OL].http://www.guideline.com/capabilities/advisory-network/advisory-network.html.
[5] 薛為民,陸玉昌.文本挖掘技術研究[J].北京聯合大學學報,2005,(04):59-63.
[6] Lehnert W.A Performance Evaluation of Text Analysis Technologies[J].AI Magazine,1991:81-94.
[7] Ishida T.ICE Contact[EB/OL].http://ice.kuis.kyoto-u.ac.jp/ice/contact.htm,2004.
[8] 曾致遠,張莉.基于向量空間模型的網頁文本表示改進算法[J].計算機工程,2006(3):134-135.
[9] 王進,陳恩紅,張振亞,王煦法.基于本體的跨語言信息檢索模型[J].中文信息學報,2004(3).