白 楊
(遼東學院 信息工程學院,遼寧 丹東 118003)
近年來,人工智能、云計算、物聯網、移動通信等技術與應用的快速發展及其與社會經濟活動的廣泛融合,把人類社會帶入一個全新的大數據時代。大數據成為國際競爭、國家發展的重要領域,給人們的生活、學習和工作帶來新的模式,采用合理的方法針對大數據進行挖掘和利用,將有助于獲取有價值的信息。高校的發展也應迎合大數據新環境的要求,在教學理念上做出適合學生能力發展的調整,并切實在教學實踐中付諸行動,增強學生的就業競爭優勢。
目前,面向大數據相關人才的迫切需求,我國各大高校的計算機科學、信息管理等專業開設了“數據挖掘”課程。大數據環境下的互聯網約95%的數據以文本數據形式存在,文本挖掘技術及其應用已經成為新的研究熱點,是數據挖掘技術發展的重要方向[1]。在各類相關教材中,也只將文本挖掘作為Web挖掘的一個小知識點,并沒對其知識構成和主要技術做全面介紹。針對這一現象,本文將對文本挖掘這一知識點進行系統概述,對其區別于其他形式數據的挖掘技術特點進行闡述。
文本挖掘一詞最早出現于1998年第十屆歐洲機器學習會議上,它是一個從大量文本數據中提取以前未知的、有用的、可理解的、可操作的知識的過程[2]。文本挖掘的目的是從文本集合中,試圖在一定的理解水平上盡可能多地提取知識,其本質是自然語言處理(Natural Language Processing,NLP)過程,NLP是將無結構的自然語言轉換成結構化數據自然語言,便于計算機的理解、存儲和管理。
文本挖掘的應用場景豐富,主要包括以下幾個方面:新聞檢索歸類,如谷歌新聞;社交網絡分析,如微博、推特熱點發現、謠言識別等;輿情監測分析,如股票分析、房產分析等;顧客反饋評價,如電子商務評價情感分析;用戶畫像,如用戶興趣偏好分析。
廣義上,文本挖掘是數據挖掘的一個分支領域,挖掘目標也分為預測和描述兩種。預測是利用數據庫中已有的變量預測未知或將來的數值;描述是用于探索已有數據的性質,對數據中的模式或關系進行辨別,注重發現描述數據的模式,提供給用戶解釋和表述。狹義上,如果將文本挖掘作為一個單獨的研究領域,其研究對象是無結構或半結構的文本,而非結構化數據;以提取概念和知識以及做出描述和預測為目標,而非預測未來的狀態;挖掘方法以提取短語、形成概念為主,與數據挖掘的傳統方法類似,也包括聚類、分類、關聯分析等。另外,由于文本數據是各類網站的主要數據形式,它廣泛應用于社交網站、電子商務平臺、文獻集合、知識庫、電子郵件等媒介。
如何使得文本數據可被計算機理解?如何利用計算機幫助解讀文本數據?要解決這些問題,皆要求文本挖掘具備數據獲取、數據分析和數據建模3方面的能力,以下5個步驟闡述了文本挖掘過程。
通常通過爬蟲程序實現網絡海量文本數據的抓取,具體過程是根據挖掘目的設計爬蟲程序,爬取相關的數據,以形成文本數據挖掘的初始數據。
預處理過程是對編碼、缺失值、分布分析等問題進行處理,是能否獲得有效挖掘結果的關鍵。由于文本數據的特征,文本數據的預處理方法區別于其他類型數據的預處理方法,具有其特殊性,因此這部分知識點是文本挖掘教學內容的重點,預處理過程一般劃分為以下幾個環節。
2.2.1 編碼處理
首先需要對文本數據進行標準化處理,因為不同編碼格式,有些軟件可能會不識別導致出錯,統一編碼(如將編碼轉化成“UTF-8”)將方便進一步的主題特征抽取。
2.2.2 分詞處理
分詞處理將確定語句的詞(words)或詞項(terms),即文檔粒度。不同于英文語句中的詞與詞之間自帶空格的構句特點,中文句子往往因為斷句的不同而引起歧義,因此,中文分詞方法顯得額外重要。中文分析方法分為詞典分詞和無詞典分詞兩種,前者是利用詞典中包括的領域術語,根據設定好的切詞字數,通過最大正向匹配將語句從左至右進行切分。后者是利用統計思想來分詞,如最大概率法公式為:一個詞的概率=其出現的次數/語料中總的詞數,以此區分詞在一個文檔中的重要程度。另外,還有一些常用的切詞工具如StandardAnalyzer,ChineseAnalyzer等都各具優勢。
2.2.3 文本數據的表示—DTM矩陣生成
分詞處理之后需要進行數據的表示,通過文檔—詞項矩陣(Document-Term Matrix,DTM)矩陣實現對本文數據的結構化處理,它由文檔為樣本(行)、詞項為變量(列)、詞頻為觀測值(元素)構成,如表1所示3個文檔(Doc1,Doc2,Doc3)的各個詞項(“歡迎”“來到”等)的詞頻值為1或0,1表示該詞項在文檔中出現,0表示該詞項在文檔中未出現。
2.2.4 文本信息過濾—停用詞及常用詞處理
詞項中有些停用詞(如表1中的“的”“與”)無法給予我們有價值的信息,因此,需要借助詞典對停用詞進行處理。需要注意的是,在分析具體行業時,一些常用詞也可以處理掉,如只分析房地產行業時,“房地產”一詞本身的意義就不大了。
2.2.5 文本特征篩選TF-DIF處理
詞頻—逆文本頻率指數(Term Frequency-Inverse Document Frequency,TF-IDF)的思想是一個詞在A文檔中出現頻率高(對A重要),而在其他文檔中出現次數相對低(對全局具有個性化),那么認為該詞對于A文檔是重要的,它對A文檔有信息代表性,這將有利于進行文本分類,從而方便提取規律和進行檢索。

表1 數據挖掘與文本挖掘的區別
2.2.6 文本特征抽取—LDA主題模型
與TF-IDF不同,文檔主題生成模型(Latent Dirichlet Allocation,LDA)則將分析粒度從詞映射為詞的組合(構成主題),從而使得分析粒度變大,分析維度降低。
根據挖掘目的和任務的不同,將文本挖掘分析與挖掘劃分為以下幾個功能。(1)關鍵詞檢索:與傳統的信息檢索使用的技術類似,關鍵詞檢索功能通過建立倒排文件索引實現。(2)相似檢索:找到相似內容的文本,通常利用向量空間模型、余弦相似度模型進行相似度計算。(3)詞語關聯分析:聚焦在詞語(包括關鍵詞)之間的關聯信息分析上。(4)文本分類和聚類:文本分類是有監督地將文檔分為指定類;文本聚類是無監督地將文檔分為若干類。實際上,多種分析方法經常混合運用,如進行數據特征化處理使數據降維,從文檔中抽取能反映研究主題的一些特征后,再使用分類器進行訓練,而分類設置包括很多方法,如聚類、關聯、信息檢索、鏈接分析等方法。(5)自然語言處理:揭示自然語言的涵義,實現文本語義挖掘,如運用LDA模型生成文本主題。
數據可視化就是把復雜的數據轉化為直觀的圖形,有利于進行數據分析以及方便人們洞悉數據規律。目前研究領域和Web上最受歡迎的文本內容可視化方法是標簽云和Wordle,它們都是基于關鍵詞的方法。另外還有文本特征可視化、情感分析可視化、文本關系可視化等。
為輔助決策,文本挖掘的結果必須被用戶所理解,因此,需要對挖掘結果進行評估。評估標準一般分為客觀標準和主觀標準,其出發點均是判斷挖掘結果是否具有新穎的、有趣的、有價值的性質。
本文對文本挖掘的教學內容做了系統、全面的設置,梳理了此知識點的基本概念,著重介紹區別于其他數據挖掘預處理的分詞技術及矩陣表示方法,并闡述了主要挖掘和分析方法及其應用場景。實踐教學中,將利用開放的互聯網數據庫資源,使課堂教學、上機實驗案例相結合,引導學生掌握文本數據挖掘技術的知識結構,調動學生的學習積極性和興趣。未來工作中,將進一步引入前沿的文本挖掘問題應用于“數據挖掘”課程的教學中,豐富教學案例,提高教學效果。
[參考文獻]
[1]袁軍鵬,朱東華,李毅,等.文本挖掘技術研究進展[J].計算機應用研究,2006(2):1-4.
[2]JIAWEI H,MICHELINE K,JIAN P,等.數據挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2012.