999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本挖掘的流程與工具分析

2019-11-30 12:35:50李果
科技創新導報 2019年19期
關鍵詞:文本挖掘

李果

摘? ?要:文本挖掘技術在各行業的應用價值高、范圍廣,中文文本跟西方語言相比本身具有很大的特點,因此本文的研究內容是針對于中文文本展開的。首先對文本挖掘的基本含義和狀況做了簡要概述,對于中文文本挖掘的概念和流程做了詳細介紹,對于其中所包含的重點步驟做了詳細分析,包括特征提取以及算法等。介紹了R中文本挖掘相關的包,以及CHQ'S文本多分類系統。希望可以加強對于中文文本數據處理與使用的研究。

關鍵詞:中文? 文本挖掘? 流程? 工具

中圖分類號:G254? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)07(a)-0142-02

隨著互聯網越來越普及,各式各樣的文本層出不窮,這種文本的數據處理跟以前相比增加了不小的難度,但是這種文本數據反映的是人的行為以及思想,這正是它的價值所在。在實際生活當中,文本數據庫中所存在的大部分信息都是以文本形式來存儲的,而且該數據庫中包含了各種數據文檔,有的是書籍,有的是文章,有的是網頁等等。文本信息隨著互聯網的發展在飛速增長,因此文本挖掘在信息領域有著重要的研究意義。

文本挖掘的前景非常明了,國內的多數學者以及專家對此都做了很多研究,首先我們開始介紹它的相關概念以及文本挖掘所要遵循的流程。

1? 文本挖掘概念

文本挖掘具體指的就是從大量文本數據信息當中提取到用戶感興趣的或者對用戶有一定幫助作用的信息的一個過程。業內對于文本挖掘的基本定義為:文本挖掘指的是從海量的文本數據庫當中提取人們無法預知但是能夠理解的且最終能夠為自己可用的信息的一個過程,利用這些所提取到的信息,可以為自己將來的行動做一定的參考。

文本挖掘起源于數據挖掘,因此文本挖掘的定義跟數據挖掘的定義幾乎大同小異。但是在本質上跟傳統的數據挖掘相比又有著自身獨特之處,文檔本身屬于一種非結構化的數據,這種文本的形式非常隨機且機器很難理解它的準確定義;而數據挖掘的對象主要面對的是結構化的數據,這種數據的形式是確定的,因此相對于文本挖掘來說,并不能夠全拿照搬,某些方法對于文本挖掘是適用的,有些技術并不適用。

總之來說,對于以文本形式所存儲的數據信息必須提取其特征,從所提取的特征當中分析得出我們所需要的信息,根據這些信息搭建相應的模型。

2? 中文文本挖掘流程

中文文本挖掘跟西方語言文本相比也有這天壤之別,因此文本挖掘的步驟也不一樣,中文文本挖掘包括以下幾個過程:

(1)數據來源:文本挖掘就是從數據來源開始,文本數據的來源包含多種,比如說網頁、郵件、圖書以及文章和文獻等等,這些不同的形式都包含了豐富的文本信息。

(2)文本預處理:首先得需要提取信息的文本進行整理,整理好之后進行相關解析操作,解析過程中把握好分詞這個關鍵點。通過這個關鍵點以及所應用的語音分析算法或者工具可以對相應的文本結構進行處理。

(3)文本挖掘:在完成上述操作之后,可以利用數據分析以及積極學習的各種算法提取我們所需要的信息。

(4)模式評估與展現:這是文本挖掘的最后一個過程,利用之前已經定好的參考標準對獲取信息的方式進行評價。如果評價結果達到標準,就可以將該模式呈現給用戶。

文本挖掘過程中有兩個比較重要的步驟就是特征提取和挖掘分析,本文主要研究的過程是對文本進行如何分類,下面對這兩個重要的步驟進行相應分析。

2.1 特征提取及降維

TF-IDF在文本挖掘過程當中使用比較廣泛,它的主要目的是評估一份文件當中哪些詞比較重要。其中TF指的是該詞出現的次數,IDF是逆向文件頻率。

這個統計方法的定義比較容易理解,如果某個詞在文本當中出現的次數很多,那么這個詞往往就是關鍵詞,但是如果在文件集當中出現的頻率增加,那么它的重要性相反會降低。對于某一個特定詞語來說,如果在某一個具體文件當中頻繁出現,但是其他文檔當中卻很少包含這個詞語,那么對于不同文本來說就很容易區分,這樣選擇出來的特征就能夠更直觀的體現出某一類文本。此外,TF-IDF方法計算的是詞出現的頻率,因為不同的文本有長有短,如果按照詞的數量來計算的話,某些比較長的文本當中包含該詞語的次數肯定比短的文本多。

按照TF-IDF的方法有多種不同的數學公式來計算,應用最為廣泛的公式如下:

這種方法本身沒有那么復雜,而且定義相對簡單,因此在文本挖掘過程中應用非常普遍。但同時它也存在一些缺點,因為對于不同的文檔,不同的位置所出現的詞語的重要性是各不一樣的,這種方法并沒有考慮到這點。

2.2 常用分類算法

(1)Vapnik根據統計學理論提出了一種新的解讀學習算法,叫做SVM,在分類問題當中這種算法應用較為普遍。它的理論比較簡明,而且對于分類問題能夠達到比較理想的效果。換句話說,這種理論就是找一個能夠使兩個不同類的集合盡可能分開的超平面,同時也是讓M argin達到最大。

(2)除此之外,還有一個比較常用的分類算法就是決策樹,這種分類算法能夠很容易讓人理解。它的基本思想是把每一個節點都看作一個特征,通過這些不同的特征逐漸的建立起分類模型。

3? 中文文本挖掘工具

現在已經有很多學者對文本挖掘展開了相關研究,跟此有關的文獻以及著作比較多。接下來要介紹的是R軟件當中的文本挖掘工具和CHQ'S文本多分類系統。

3.1 R文本挖掘應用

(1)rsmartcn包,作者:黃榮貴,只能用于簡體中文。

(2)rmmseg4j包,作者:黃榮貴,用Chih-Hao Tsai的MMSeg算法。易理解,主要是chunk及四個規則。

(3)Rwordseg包,作者:李艦,能夠很方便地定義字典,從而能夠不斷更新并適應新詞的出現,也能夠更好地適應有更多行業領域的各類專業分詞。

3.2 CHQ'S文本多分類系統

CHQ'S文本多分類系統能夠對中文文本進行多分類,例如,中文廣告、中文垃圾郵件、中文文本分類等。只要實現模型化之后,文本分類的運行速度能達到很快。

該系統主要基于以下的算法進行開發:

(1)使用中科院的ICTCLAS進行分詞,基于自身的數據結構設計。

(2)基于文檔頻率,TF-IDF,IG的特征選擇以及降維方法實現文本的特征提取與降維。

(3)SVM的分類算法,林智仁的LibSVM。

4? 結語

互聯網的發展為我們的生活提供了很大的方便,隨著互聯網的不斷普及,各種數據也呈現出了一種爆炸式增長,尤其是圖書、文章以及郵件等等形式的文本文件,而由于這種文字式的文本跟數據文本有著顯著的區別,因此對于它的文本分析就面對著很多困難,所以文本挖掘開始的時間并不長。而且中文文本跟西方文本又有著截然的不同,中文詞語不像英文詞語那樣每個單詞之間都是用空格隔開,中文詞語之間沒有停頓,因此對于中文文本挖掘的過程首先要做的就是分詞操作,而針對于如何進行分詞,也有很多學者致力于此方面的研究,而且目前已經出現了多個中文分詞工具,在未來的研究過程中還需要不斷地進行優化與創新。

參考文獻

[1] 戚云霞.中文文本挖掘技術的研究與應用[D].西安電子科技大學,2014.

[2] 唐守忠.文本挖掘關鍵技術研究[D].北京林業大學,2013.

[3] 冷伏海,王林,王立學.基于文本挖掘的形態分析方法的關鍵問題[J].圖書情報工作,2012(4):27-30.

[4] 潘小換,蔣保建.基于文本挖掘的技術路線圖構建研究[J].情報工程,2018(4):73-81.

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 久久亚洲美女精品国产精品| 精品国产美女福到在线直播| 青青操国产| 热热久久狠狠偷偷色男同| www.99在线观看| 天堂va亚洲va欧美va国产| 不卡无码h在线观看| 亚洲中文字幕精品| 成人国产精品2021| 久久精品人妻中文系列| 成人精品午夜福利在线播放| 波多野结衣无码中文字幕在线观看一区二区 | 国禁国产you女视频网站| 国产成人精品一区二区秒拍1o| 欧美日韩在线第一页| 伊在人亚洲香蕉精品播放| 青草91视频免费观看| 亚洲三级视频在线观看| 一级毛片免费观看不卡视频| 狼友av永久网站免费观看| 米奇精品一区二区三区| 日韩精品视频久久| 久草性视频| 色屁屁一区二区三区视频国产| 日本a级免费| 无码人妻热线精品视频| 色欲综合久久中文字幕网| 女人av社区男人的天堂| 成人综合在线观看| 欧美日本二区| 91网站国产| 亚洲色图欧美视频| 一区二区在线视频免费观看| 91精品专区| 亚洲欧美成人综合| 亚洲天堂在线免费| 亚洲爱婷婷色69堂| 亚洲成人77777| AV天堂资源福利在线观看| 国产国语一级毛片在线视频| 午夜色综合| 色哟哟国产精品一区二区| 免费福利视频网站| 狠狠色丁香婷婷综合| 亚洲欧美成人在线视频| 91精品国产麻豆国产自产在线| 亚洲中久无码永久在线观看软件 | 婷婷五月在线| 色成人亚洲| 日韩资源站| 久久特级毛片| 尤物亚洲最大AV无码网站| 国产乱码精品一区二区三区中文 | 国产免费高清无需播放器| 国产农村精品一级毛片视频| 久久国产高潮流白浆免费观看| 亚洲成A人V欧美综合| 中文字幕乱码二三区免费| 亚洲综合国产一区二区三区| 91口爆吞精国产对白第三集| 青青草国产一区二区三区| 欧美一区国产| 一级毛片免费高清视频| 国产AV无码专区亚洲精品网站| 日韩精品成人在线| 亚洲中文字幕精品| 看国产毛片| 精品免费在线视频| 亚洲精品国产精品乱码不卞| 狠狠久久综合伊人不卡| 亚洲三级片在线看| 一区二区理伦视频| 亚洲AV无码一区二区三区牲色| 美女亚洲一区| 亚洲精品无码AV电影在线播放| 澳门av无码| 国产精品美女免费视频大全| 国产在线视频自拍| 黄色污网站在线观看| 亚洲VA中文字幕| a毛片基地免费大全| 大陆国产精品视频|