999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算機文本信息挖掘技術研究

2020-12-08 02:14:06王姝
數碼設計 2020年15期
關鍵詞:計算機文本信息

王姝

摘要:

互聯網為人們獲取大量的文本數據提供便利,然而這些文本數據的質量相對偏低,難以充分發揮文本數據的利用價值,為此要重點研究和探討計算要文本信息挖掘的文本表示和術語識別兩項技術,進行文本信息的合理高效分類、過濾和篩選,幫助使用者獲得真正需要的知識,挖掘海量文本信息中的隱藏知識和信息,較好地提高計算機文本信息獲取質量。

關鍵詞:

計算機;文本信息;挖掘;文本表示;術語識別

中圖分類號:

TP391.1;F724.6;F274

文獻標識碼:

A

文章編號:

1672-9129(2020)15-0004-01

互聯網為人們獲取、發布、交換和共享信息提供了便利,然而人們獲得的文本信息數據大多相對表淺,難以真正挖掘到具有價值的知識和信息。本文重點探討計算機文本表示技術和術語識別技術,幫助人們快速高效地進行文本信息的搜集、分類、過濾、篩選和利用,提高計算機文本信息獲取質量和效率。

1 計算機文本信息挖掘技術概述

文本信息挖掘技術要從海量的計算機文本數據中抽取隱藏的、具有價值的知識和信息,并對其進行重新組織、分類、標引、過濾和篩選,僅限于對文本數據的挖掘,重點針對非結構化或半結構化自然語言文本的挖掘,其主要的文本信息挖掘任務包括有以下幾種:(1)文本分類。這是一種有監督的機器學習方法,需要一定數量的有類別標記的訓練數據進行先驗引領和指導,是對文本語料庫中的每個文本賦予其一個或多個類別標記的過程,主要用于信息檢索、搜索引擎、領域知識加工和服務等活動。(2)文本聚類。這是一種無監督的機器學習方法,無須訓練過程,是將文本語料庫的數據自動聚集為若干個類別簇,包括文本表示、文本距離度量標準的選擇、聚類算法的選擇等流程。

2 計算機文本信息挖掘技術分析

2.1文本表示技術。文本表示關鍵技術是在計算機技術、統計學和語言學知識的依托下,對自然語言形式的文本進行轉換,使之成為計算機內部能夠直接處理的數據模型,其基本流程包括有:特征提取、特征降維、特征權重計算等,快速高效地抽取文本特征相關信息,具體來說包括有:(1)統計信息。文本中關鍵詞的統計分布規律信息,如:關鍵詞的詞頻、逆文本頻率、關鍵詞之間的互信息、共現頻率等。(2)語義信息。主要是指計算機文本中關鍵詞的語義信息,如:上下文環境中的特定信息、關鍵詞之間的同義/反義信息等。

由于自然語言文本體現出天然的線性結構,因而通常采用布爾模型、向量空間模型和概率模型將文本表示為線性結構的文本向量,并采用關鍵詞作為文本特征,從而簡單直觀地表達出線性文本的結構。其中:布爾模型主要采用0或1的布爾值表示其關鍵詞,無須進行關鍵詞特征的降維處理,衍生的模型有擴展布爾模型和模糊集合模型,然而其缺陷在于無法精準地計算關鍵詞的權重。概率模型主要是利用概率論基礎知識和概率排序原理,計算關鍵詞的權重,衍生出的文本表示模型有推理網絡模型和信任度模型,有著良好的應用前景;然而其缺陷在于關鍵詞權重計算過于繁瑣復雜。向量空間模型是應用最為廣泛的文本表示模型,關鍵詞權重計算方法更加簡潔、準確和有效,然而其不足之處在于缺乏文本語義表示能力,可以采用基于短語的VSM和基于概念的VSM進行文本特征提取的優化,并采用統計語言模型、奇異值分解進行文本特征權重計算的改進和優化。

2.2術語識別技術。術語是特定專業領域中表達一般概念的指標,是用于文本信息處理領域中概念表達的書面語,字符長度通常在2-8個字符,主要特性主要表現為以下幾個方面:(1)語言特性。是指術語的內外部結構特性與一定的語言學或統計學規律相契合,大多由名詞、動詞、形容詞組成。(2)單元性。術語的單元性用于描述術語內部的高內聚性和外部的低依賴性特點,較好地評測術語在字符串結構上的穩定性。(3)術語性。主要用于評測和度量語言學單元及其所屬語料領域的強弱相關性,有時需要借助于背景語料進行完整清晰的描述和表達。(4)領域相關性和一致性。術語在其所處的領域中分布相對均勻,而在其他領域語料中則表現出分布不均勻的狀態。

對于常用術語來說,可以采用如下方法加以識別和表達:(1)基于規則的方法。主要是借助于文本語料庫中詞語的語言特性構建詞性規則模板的集合,并以此匹配語料庫中詞序列作為術語。這種方法需要極強的專業領域和計算機語言學背景,在規則模板的制定上存在差異性,難以滿足領域術語更新的需求,表現出對領域的極強依賴性,無法進行該方法的擴展應用。(2)基于統計的方法。可以設計一種中文術語識別系統,利用文本語料中字符串的穩定性,抽取候選術語集合,再剔除基本詞,獲悉術語識別結果。也可以利用關鍵詞的TF-IDF值及關鍵詞在文本中出現的位置,提取文本的主題關鍵詞。以新聞術語為例,可以下載網絡新聞語料,借助于互信息參數抽取語料中的質串,識別具有復雜結構的合串,將其作為新聞術語。(3)基于規則和統計相結合的方法。主要是將術語的語言特征和統計特征相結合,判斷詞序列結構的穩定性,抽取術語候選,再利用語言規則進行后處理,獲悉術語集合。(4)基于機器學習的方法。這是利用一定規模的語料生成機器學習模型,進行術語的最終識別。

結語:綜上所述,計算機文本信息挖掘是文本信息處理的重要內容,要重點研究和探討計算機文本表示技術和術語識別技術,進行語義的精準量化描述和表達,并快速準確地進行術語識別,為計算機信息檢索、搜索引擎、信息抽取、領域本體構建及自然語言處理提供信息支持,更好地推進計算機文本挖掘技術的發展,后續還要進一步提高文本信息挖掘技術的可擴展性,提高術語識別效果的收斂值。

參考文獻:

[1]李愛琳.計算機文本信息挖掘技術在網絡安全中的應用研究[J].數字通信世界,2020(02):199.

[2]管祥甫,管子涵.計算機文本信息挖掘技術在網絡安全中的應用[J].電子技術與軟件工程,2019(21):184-185.

猜你喜歡
計算機文本信息
計算機操作系統
基于計算機自然語言處理的機器翻譯技術應用與簡介
科技傳播(2019年22期)2020-01-14 03:06:34
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
信息系統審計中計算機審計的應用
消費導刊(2017年20期)2018-01-03 06:26:40
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
Fresnel衍射的計算機模擬演示
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲国产精品日韩专区AV| 成人免费一区二区三区| 亚洲女同欧美在线| 夜精品a一区二区三区| 亚洲中文字幕手机在线第一页| 久久99精品久久久久久不卡| 国产激情无码一区二区APP| 久久久四虎成人永久免费网站| 国产精品嫩草影院av| 高清精品美女在线播放| 亚洲三级视频在线观看| 国产麻豆91网在线看| 永久在线播放| 日韩欧美中文字幕在线精品| 亚洲人成色77777在线观看| 亚洲国产综合第一精品小说| 国产亚洲视频中文字幕视频| 国产第二十一页| 精品一區二區久久久久久久網站| 国产日韩欧美在线视频免费观看| 久久精品国产999大香线焦| 国产高清毛片| 国产在线精品美女观看| 噜噜噜久久| 国产欧美日韩另类| 国产三区二区| 男女性色大片免费网站| 国产在线拍偷自揄拍精品| 久久五月天国产自| 亚洲第七页| 中文无码毛片又爽又刺激| 亚洲成人黄色在线观看| 成人福利在线视频免费观看| 欧美日韩精品综合在线一区| 中文国产成人久久精品小说| 91精品aⅴ无码中文字字幕蜜桃| 99久久亚洲综合精品TS| 国产麻豆福利av在线播放| 在线观看视频99| 亚洲三级网站| 国产精品嫩草影院视频| 在线欧美a| 国产精品成人观看视频国产| 国产精品护士| 日韩在线影院| 欧美人与牲动交a欧美精品| 狠狠色综合久久狠狠色综合| 国产精品密蕾丝视频| 国产中文一区二区苍井空| 一区二区无码在线视频| 五月婷婷伊人网| 一级毛片免费不卡在线视频| 欧美激情福利| 国内精品视频在线| 色婷婷久久| 国产精品片在线观看手机版| 色综合久久88| 四虎永久在线精品国产免费| 久久久久九九精品影院| 中文字幕丝袜一区二区| 欧美区国产区| 免费毛片视频| jizz国产在线| 小蝌蚪亚洲精品国产| 精品久久香蕉国产线看观看gif| av一区二区三区在线观看| 精品综合久久久久久97超人该| 亚洲欧美另类专区| 欧美亚洲欧美| 久久精品国产亚洲AV忘忧草18| 九九九精品成人免费视频7| 成人夜夜嗨| 亚洲成人在线免费观看| 亚洲第一香蕉视频| 亚洲国产综合自在线另类| 欧美亚洲激情| 欧美高清日韩| 波多野结衣久久精品| 国产成人亚洲毛片| 欧洲亚洲一区| 天天干天天色综合网| 精品91自产拍在线|