大數據環境下的文本挖掘教學內容探討

2018-05-09 02:54:48白楊

無線互聯科技 2018年9期

白楊

（遼東學院信息工程學院，遼寧丹東 118003）

近年來，人工智能、云計算、物聯網、移動通信等技術與應用的快速發展及其與社會經濟活動的廣泛融合，把人類社會帶入一個全新的大數據時代。大數據成為國際競爭、國家發展的重要領域，給人們的生活、學習和工作帶來新的模式，采用合理的方法針對大數據進行挖掘和利用，將有助于獲取有價值的信息。高校的發展也應迎合大數據新環境的要求，在教學理念上做出適合學生能力發展的調整，并切實在教學實踐中付諸行動，增強學生的就業競爭優勢。

目前，面向大數據相關人才的迫切需求，我國各大高校的計算機科學、信息管理等專業開設了“數據挖掘”課程。大數據環境下的互聯網約95%的數據以文本數據形式存在，文本挖掘技術及其應用已經成為新的研究熱點，是數據挖掘技術發展的重要方向[1]。在各類相關教材中，也只將文本挖掘作為Web挖掘的一個小知識點，并沒對其知識構成和主要技術做全面介紹。針對這一現象，本文將對文本挖掘這一知識點進行系統概述，對其區別于其他形式數據的挖掘技術特點進行闡述。

1 文本挖掘概述

文本挖掘一詞最早出現于1998年第十屆歐洲機器學習會議上，它是一個從大量文本數據中提取以前未知的、有用的、可理解的、可操作的知識的過程[2]。文本挖掘的目的是從文本集合中，試圖在一定的理解水平上盡可能多地提取知識，其本質是自然語言處理（Natural Language Processing，NLP）過程，NLP是將無結構的自然語言轉換成結構化數據自然語言，便于計算機的理解、存儲和管理。

1.1 文本挖掘的應用場景

文本挖掘的應用場景豐富，主要包括以下幾個方面：新聞檢索歸類，如谷歌新聞；社交網絡分析，如微博、推特熱點發現、謠言識別等；輿情監測分析，如股票分析、房產分析等；顧客反饋評價，如電子商務評價情感分析；用戶畫像，如用戶興趣偏好分析。

1.2 文本挖掘與數據挖掘的聯系和區別

廣義上，文本挖掘是數據挖掘的一個分支領域，挖掘目標也分為預測和描述兩種。預測是利用數據庫中已有的變量預測未知或將來的數值；描述是用于探索已有數據的性質，對數據中的模式或關系進行辨別，注重發現描述數據的模式，提供給用戶解釋和表述。狹義上，如果將文本挖掘作為一個單獨的研究領域，其研究對象是無結構或半結構的文本，而非結構化數據；以提取概念和知識以及做出描述和預測為目標，而非預測未來的狀態；挖掘方法以提取短語、形成概念為主，與數據挖掘的傳統方法類似，也包括聚類、分類、關聯分析等。另外，由于文本數據是各類網站的主要數據形式，它廣泛應用于社交網站、電子商務平臺、文獻集合、知識庫、電子郵件等媒介。

2 文本挖掘過程

如何使得文本數據可被計算機理解？如何利用計算機幫助解讀文本數據？要解決這些問題，皆要求文本挖掘具備數據獲取、數據分析和數據建模3方面的能力，以下5個步驟闡述了文本挖掘過程。

2.1 文本數據獲取

通常通過爬蟲程序實現網絡海量文本數據的抓取，具體過程是根據挖掘目的設計爬蟲程序，爬取相關的數據，以形成文本數據挖掘的初始數據。

2.2 文本挖掘的預處理

預處理過程是對編碼、缺失值、分布分析等問題進行處理，是能否獲得有效挖掘結果的關鍵。由于文本數據的特征，文本數據的預處理方法區別于其他類型數據的預處理方法，具有其特殊性，因此這部分知識點是文本挖掘教學內容的重點，預處理過程一般劃分為以下幾個環節。

2.2.1 編碼處理

首先需要對文本數據進行標準化處理，因為不同編碼格式，有些軟件可能會不識別導致出錯，統一編碼（如將編碼轉化成“UTF-8”）將方便進一步的主題特征抽取。

2.2.2 分詞處理

分詞處理將確定語句的詞（words）或詞項（terms），即文檔粒度。不同于英文語句中的詞與詞之間自帶空格的構句特點，中文句子往往因為斷句的不同而引起歧義，因此，中文分詞方法顯得額外重要。中文分析方法分為詞典分詞和無詞典分詞兩種，前者是利用詞典中包括的領域術語，根據設定好的切詞字數，通過最大正向匹配將語句從左至右進行切分。后者是利用統計思想來分詞，如最大概率法公式為：一個詞的概率=其出現的次數/語料中總的詞數，以此區分詞在一個文檔中的重要程度。另外，還有一些常用的切詞工具如StandardAnalyzer，ChineseAnalyzer等都各具優勢。

2.2.3 文本數據的表示—DTM矩陣生成

分詞處理之后需要進行數據的表示，通過文檔—詞項矩陣（Document-Term Matrix，DTM）矩陣實現對本文數據的結構化處理，它由文檔為樣本（行）、詞項為變量（列）、詞頻為觀測值（元素）構成，如表1所示3個文檔（Doc1，Doc2，Doc3）的各個詞項（“歡迎”“來到”等）的詞頻值為1或0，1表示該詞項在文檔中出現，0表示該詞項在文檔中未出現。

2.2.4 文本信息過濾—停用詞及常用詞處理

詞項中有些停用詞（如表1中的“的”“與”）無法給予我們有價值的信息，因此，需要借助詞典對停用詞進行處理。需要注意的是，在分析具體行業時，一些常用詞也可以處理掉，如只分析房地產行業時，“房地產”一詞本身的意義就不大了。

2.2.5 文本特征篩選TF-DIF處理

詞頻—逆文本頻率指數（Term Frequency-Inverse Document Frequency，TF-IDF）的思想是一個詞在A文檔中出現頻率高（對A重要），而在其他文檔中出現次數相對低（對全局具有個性化），那么認為該詞對于A文檔是重要的，它對A文檔有信息代表性，這將有利于進行文本分類，從而方便提取規律和進行檢索。

表1 數據挖掘與文本挖掘的區別

2.2.6 文本特征抽取—LDA主題模型

與TF-IDF不同，文檔主題生成模型（Latent Dirichlet Allocation，LDA）則將分析粒度從詞映射為詞的組合（構成主題），從而使得分析粒度變大，分析維度降低。

2.3 文本數據分析與挖掘

根據挖掘目的和任務的不同，將文本挖掘分析與挖掘劃分為以下幾個功能。（1）關鍵詞檢索：與傳統的信息檢索使用的技術類似，關鍵詞檢索功能通過建立倒排文件索引實現。（2）相似檢索：找到相似內容的文本，通常利用向量空間模型、余弦相似度模型進行相似度計算。（3）詞語關聯分析：聚焦在詞語（包括關鍵詞）之間的關聯信息分析上。（4）文本分類和聚類：文本分類是有監督地將文檔分為指定類；文本聚類是無監督地將文檔分為若干類。實際上，多種分析方法經常混合運用，如進行數據特征化處理使數據降維，從文檔中抽取能反映研究主題的一些特征后，再使用分類器進行訓練，而分類設置包括很多方法，如聚類、關聯、信息檢索、鏈接分析等方法。（5）自然語言處理：揭示自然語言的涵義，實現文本語義挖掘，如運用LDA模型生成文本主題。

2.4 文本數據可視化

數據可視化就是把復雜的數據轉化為直觀的圖形，有利于進行數據分析以及方便人們洞悉數據規律。目前研究領域和Web上最受歡迎的文本內容可視化方法是標簽云和Wordle，它們都是基于關鍵詞的方法。另外還有文本特征可視化、情感分析可視化、文本關系可視化等。

2.5 挖掘結果和策略

為輔助決策，文本挖掘的結果必須被用戶所理解，因此，需要對挖掘結果進行評估。評估標準一般分為客觀標準和主觀標準，其出發點均是判斷挖掘結果是否具有新穎的、有趣的、有價值的性質。

3 結語

本文對文本挖掘的教學內容做了系統、全面的設置，梳理了此知識點的基本概念，著重介紹區別于其他數據挖掘預處理的分詞技術及矩陣表示方法，并闡述了主要挖掘和分析方法及其應用場景。實踐教學中，將利用開放的互聯網數據庫資源，使課堂教學、上機實驗案例相結合，引導學生掌握文本數據挖掘技術的知識結構，調動學生的學習積極性和興趣。未來工作中，將進一步引入前沿的文本挖掘問題應用于“數據挖掘”課程的教學中，豐富教學案例，提高教學效果。

[參考文獻]

[1]袁軍鵬，朱東華，李毅，等.文本挖掘技術研究進展[J].計算機應用研究，2006（2）：1-4.

[2]JIAWEI H，MICHELINE K，JIAN P，等.數據挖掘概念與技術[M].范明，孟小峰，譯.北京：機械工業出版社，2012.