計算機文本信息挖掘技術研究

2020-12-08 02:14:06王姝

數碼設計 2020年15期

王姝

摘要：

互聯網為人們獲取大量的文本數據提供便利，然而這些文本數據的質量相對偏低，難以充分發揮文本數據的利用價值，為此要重點研究和探討計算要文本信息挖掘的文本表示和術語識別兩項技術，進行文本信息的合理高效分類、過濾和篩選，幫助使用者獲得真正需要的知識，挖掘海量文本信息中的隱藏知識和信息，較好地提高計算機文本信息獲取質量。

關鍵詞：

計算機;文本信息;挖掘;文本表示;術語識別

中圖分類號：

TP391.1;F724.6;F274

文獻標識碼：

文章編號：

1672-9129（2020）15-0004-01

互聯網為人們獲取、發布、交換和共享信息提供了便利，然而人們獲得的文本信息數據大多相對表淺，難以真正挖掘到具有價值的知識和信息。本文重點探討計算機文本表示技術和術語識別技術，幫助人們快速高效地進行文本信息的搜集、分類、過濾、篩選和利用，提高計算機文本信息獲取質量和效率。

1 計算機文本信息挖掘技術概述

文本信息挖掘技術要從海量的計算機文本數據中抽取隱藏的、具有價值的知識和信息，并對其進行重新組織、分類、標引、過濾和篩選，僅限于對文本數據的挖掘，重點針對非結構化或半結構化自然語言文本的挖掘，其主要的文本信息挖掘任務包括有以下幾種：（1）文本分類。這是一種有監督的機器學習方法，需要一定數量的有類別標記的訓練數據進行先驗引領和指導，是對文本語料庫中的每個文本賦予其一個或多個類別標記的過程，主要用于信息檢索、搜索引擎、領域知識加工和服務等活動。（2）文本聚類。這是一種無監督的機器學習方法，無須訓練過程，是將文本語料庫的數據自動聚集為若干個類別簇，包括文本表示、文本距離度量標準的選擇、聚類算法的選擇等流程。

2 計算機文本信息挖掘技術分析

2.1文本表示技術。文本表示關鍵技術是在計算機技術、統計學和語言學知識的依托下，對自然語言形式的文本進行轉換，使之成為計算機內部能夠直接處理的數據模型，其基本流程包括有：特征提取、特征降維、特征權重計算等，快速高效地抽取文本特征相關信息，具體來說包括有：（1）統計信息。文本中關鍵詞的統計分布規律信息，如：關鍵詞的詞頻、逆文本頻率、關鍵詞之間的互信息、共現頻率等。（2）語義信息。主要是指計算機文本中關鍵詞的語義信息，如：上下文環境中的特定信息、關鍵詞之間的同義/反義信息等。

由于自然語言文本體現出天然的線性結構，因而通常采用布爾模型、向量空間模型和概率模型將文本表示為線性結構的文本向量，并采用關鍵詞作為文本特征，從而簡單直觀地表達出線性文本的結構。其中：布爾模型主要采用0或1的布爾值表示其關鍵詞，無須進行關鍵詞特征的降維處理，衍生的模型有擴展布爾模型和模糊集合模型，然而其缺陷在于無法精準地計算關鍵詞的權重。概率模型主要是利用概率論基礎知識和概率排序原理，計算關鍵詞的權重，衍生出的文本表示模型有推理網絡模型和信任度模型，有著良好的應用前景;然而其缺陷在于關鍵詞權重計算過于繁瑣復雜。向量空間模型是應用最為廣泛的文本表示模型，關鍵詞權重計算方法更加簡潔、準確和有效，然而其不足之處在于缺乏文本語義表示能力，可以采用基于短語的VSM和基于概念的VSM進行文本特征提取的優化，并采用統計語言模型、奇異值分解進行文本特征權重計算的改進和優化。

2.2術語識別技術。術語是特定專業領域中表達一般概念的指標，是用于文本信息處理領域中概念表達的書面語，字符長度通常在2-8個字符，主要特性主要表現為以下幾個方面：（1）語言特性。是指術語的內外部結構特性與一定的語言學或統計學規律相契合，大多由名詞、動詞、形容詞組成。（2）單元性。術語的單元性用于描述術語內部的高內聚性和外部的低依賴性特點，較好地評測術語在字符串結構上的穩定性。（3）術語性。主要用于評測和度量語言學單元及其所屬語料領域的強弱相關性，有時需要借助于背景語料進行完整清晰的描述和表達。（4）領域相關性和一致性。術語在其所處的領域中分布相對均勻，而在其他領域語料中則表現出分布不均勻的狀態。

對于常用術語來說，可以采用如下方法加以識別和表達：（1）基于規則的方法。主要是借助于文本語料庫中詞語的語言特性構建詞性規則模板的集合，并以此匹配語料庫中詞序列作為術語。這種方法需要極強的專業領域和計算機語言學背景，在規則模板的制定上存在差異性，難以滿足領域術語更新的需求，表現出對領域的極強依賴性，無法進行該方法的擴展應用。（2）基于統計的方法。可以設計一種中文術語識別系統，利用文本語料中字符串的穩定性，抽取候選術語集合，再剔除基本詞，獲悉術語識別結果。也可以利用關鍵詞的TF-IDF值及關鍵詞在文本中出現的位置，提取文本的主題關鍵詞。以新聞術語為例，可以下載網絡新聞語料，借助于互信息參數抽取語料中的質串，識別具有復雜結構的合串，將其作為新聞術語。（3）基于規則和統計相結合的方法。主要是將術語的語言特征和統計特征相結合，判斷詞序列結構的穩定性，抽取術語候選，再利用語言規則進行后處理，獲悉術語集合。（4）基于機器學習的方法。這是利用一定規模的語料生成機器學習模型，進行術語的最終識別。

結語：綜上所述，計算機文本信息挖掘是文本信息處理的重要內容，要重點研究和探討計算機文本表示技術和術語識別技術，進行語義的精準量化描述和表達，并快速準確地進行術語識別，為計算機信息檢索、搜索引擎、信息抽取、領域本體構建及自然語言處理提供信息支持，更好地推進計算機文本挖掘技術的發展，后續還要進一步提高文本信息挖掘技術的可擴展性，提高術語識別效果的收斂值。

參考文獻：

[1]李愛琳.計算機文本信息挖掘技術在網絡安全中的應用研究[J].數字通信世界，2020（02）：199.

[2]管祥甫，管子涵.計算機文本信息挖掘技術在網絡安全中的應用[J].電子技術與軟件工程，2019（21）：184-185.