999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘技術的文本分析研究

2022-04-20 10:57:08劉建國陳曼倩
無線互聯科技 2022年2期
關鍵詞:數據挖掘詞匯文本

趙 丹,劉建國,陳曼倩

(1.哈爾濱職業技術學院,黑龍江 哈爾濱 150000;2.哈爾濱開放大學,黑龍江 哈爾濱 150000)

0 引言

數據挖掘的主要功能體現在從海量數據中找到價值較高的信息,并實現信息轉化,將其變成有用知識。隨著計算機普及,數據飛速膨脹,信息構成更加復雜,僅依靠關鍵詞檢索會有大量信息遺漏。基于數據挖掘,研究人員可以對本文特征精細化分析,找到有效信息,精準發現隱藏的客觀規律。

1 數據挖掘技術應用優勢

數據挖掘實現了多領域的滲透、融合,是人工智能的一大延伸,屬于數據庫領域核心技術。主要思路是從數據庫中,借助深度挖掘技術,查找關鍵信息,揭示出隱含的信息價值,從而高效利用信息。數據挖掘的應用意義重大,屬于決策支持實現過程,其融合了人工智能、模式識別等多項技術,可以自動化且全方位地分析對象內容,并在此前提下完成歸納性的推理。

研究發現,其實現知識庫交互的過程大體分為3個階段:數據準備(基礎保障)、數據挖掘(核心技術)、結果表達和解釋。現階段,數據挖掘相對成熟,被廣泛應用在文本分析領域,并取得了較好的成績,不僅保障了分析效率,還提高了本文利用率。數據挖掘技術原理如圖1所示。

圖1 數據挖掘技術運行原理

借助數據挖掘可以全面地、深層次地分析本文數據,深度挖掘文本信息內容,提取關鍵信息,從大量數據中精準定位,最大限度地提高數據利用率。具體包括數據準備、規律尋找等核心板塊,在具體操作中,數據準備屬于基礎保障環節,從相關數據源中整合、分析、提煉出有用的數據,并將其匯總、篩選,形成數據集,為后續應用做足準備。規律尋找是指將數據集中隱藏規律找出來,例如本文詞匯出現頻次等。其中,要想完整表示規律,就要采取用戶可以理解的方式,并達到理想的可視化程度。

2 基于數據挖掘的文本分析應用

2.1 基于詞頻統計功能的文本分析

在數據挖掘之前,收集目標數據是主要任務,需要借助語料庫資源,或者完成爬蟲程序編寫,實現網絡資源自動采集。之后,完成數據的預處理,這是數據挖掘的前期工作,也是基本保障性工作。

以日語和漢語為例,其特征類似,沒有單詞的形態標記,因此在分析前都要進行分詞。實踐證明,借助Mecab形態素解析器可以起到理想的分詞效果。該工具性能穩定,屬于效率較高的形態素分析引擎,在實際應用中不依賴具體的語言就可以完成分詞工作,同時,借助詞典或語料庫,采用CRF模型,基本上可以實現連接方式的配價以及詞匯參數的估計。這種方法可行性較高,無論是解析速度還是詞匯解析精度都比較理想,均高于常用解析器。實際操作中,分詞之后就要制作詞表,詞表完全可以借助“數據透視表”功能,或者也可以選擇KH Coder的“Frequency List”完成同樣的工作。比較發現,后者更加方便、操作性更強,但想要保證詞表制作效果,需要注意以下內容:(1)KH Coder功能有限,只能統計名詞等少部分詞類。(2)在進行代詞、感嘆詞這部分詞匯統計時,發生錯誤概率會增大。因此,現實操作中,有必要對照最終得出的統計結果,完成對KH Coder的修正工作。

2.2 基于詞表比對功能的信息挖掘

分析單個詞表可以掌握文本高頻詞匯的文體特征,在此基礎上進行詞表比對,可以將重要信息及時捕捉。高頻人稱代詞隱含了事件關鍵信息,還有專用名詞等也都屬于重要詞匯。例如:科技類文章中通過專用名詞的使用頻次統計,可以判斷文章大體介紹的方向。科技類文章經常以第三人稱進行介紹,敘事方式較為客觀,采用旁觀者視角,會讓文章脈絡清晰、敘事更加合理[1]。不同題材的科技文章,專用名詞因為用法的不同,使用頻率也會存在差異。為了例證,選取了幾篇關于汽車性能介紹的文獻,如《時代汽車》《機械設計與制造》《鍛壓技術》《內燃機與配件》等,統計后所得的專用名詞頻率如表1所示。

表1 高頻專用詞匯

通過表1中高頻詞匯的使用,可以基本判斷文章的類型以及科技論文研究的主攻方向。借助挖掘高頻詞匯還可以掌握其他關聯信息,通過捕捉以及深入挖掘能夠掌握較為前沿的技術,在了解文章類型的基礎上掌握文章主要框架。

2.3 基于詞語共現網絡功能完成熱點事件抓取

隨著網絡時代到來,無數新聞事件發酵、膨脹,社會充斥大量信息。怎樣從紛繁復雜網絡中自動提煉熱點事件,成為談論的焦點,也是新時期的重要課題。基于此,詞語共現網絡被提出,Co occurrence Network作為新的理念,為本文分析指明了方向。構建技術可以實現文本信息可視化,使其更加直觀、立體詮釋文本中人物關系,并且提取出熱點人物、新聞事件以及組織、概念等核心內容,在此基礎上完整揭示熱詞聯系[2]。該技術實現原理是借助統計詞頻,步驟是先完成最頻繁詞匯抽取,再掌握其潛在關系,從而搭建詞語網絡圖,概括高頻詞匯,并且掌握其關聯性。實踐證明,借助詞匯的組建,可以將文本事件揭示出來,幫助獲取核心信息。

為了驗證數據挖掘以及分析方法的有效性,可以采用“Co-Occurrence Net-work”進行驗證,借助其構建功能,多角度地分析《每日新聞》全部報道,完成了關鍵性文本詞匯的提取,最終形成了詞語共現網絡圖。借助這種方法,高頻詞不僅被抽取出來,還可以組成高頻詞群,詞群或大或小,直接或者間接地反映了新聞事件。高頻詞群從不同角度揭示了熱點話題的核心內容,也可以看出信息挖掘技術的價值。借助詞語共現,網絡可以清晰、直觀地觀察到高頻詞匯,并在此基礎上借助科學計算提取出共現詞,以完成熱點話題的追蹤和媒體動向的捕捉[3];再利用先進網絡爬蟲,對輿情動態跟蹤反饋。

3 結語

數據挖掘技術意義顯著,在文本分析中可以讓語言學研究視角拓展,從而實現研究手段的豐富。同時,完成文本數據的準確獲取,并合理提煉高質量的隱含信息,讓研究效率更高。值得一提的是,在本文分析領域,數據挖掘技術起步較晚,其應用值得學界共同關注。

猜你喜歡
數據挖掘詞匯文本
本刊可直接用縮寫的常用詞匯
探討人工智能與數據挖掘發展趨勢
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 欧美精品另类| 欧美一区二区三区国产精品| 亚洲美女操| 亚洲中文字幕在线观看| 九九九国产| 欧美特黄一免在线观看| 久久综合九九亚洲一区| 欧美第一页在线| 99热这里只有精品2| 免费AV在线播放观看18禁强制| 色成人亚洲| 香蕉在线视频网站| 中文字幕精品一区二区三区视频| 久久精品人妻中文视频| 中文字幕乱码中文乱码51精品| 91福利在线看| 91国语视频| www.av男人.com| 亚洲无码视频图片| 91破解版在线亚洲| 2020国产免费久久精品99| 中文字幕亚洲综久久2021| 亚洲AV免费一区二区三区| 日韩 欧美 国产 精品 综合| 潮喷在线无码白浆| 在线精品欧美日韩| 亚洲视频在线观看免费视频| 丁香婷婷激情网| 国产毛片基地| 99国产在线视频| 日韩国产亚洲一区二区在线观看| 在线看片国产| 欧美啪啪网| 最新国产网站| 99激情网| 久久无码免费束人妻| 福利在线一区| 精品视频第一页| 欧美另类视频一区二区三区| 亚洲天堂成人| 亚洲性影院| 又大又硬又爽免费视频| 色偷偷一区| 国产亚洲欧美日韩在线观看一区二区| 亚洲精品人成网线在线| 影音先锋丝袜制服| 2022国产无码在线| 精品少妇人妻av无码久久| 久久这里只有精品2| 亚洲成A人V欧美综合| a级免费视频| 欧洲亚洲欧美国产日本高清| 中文字幕在线观看日本| 伊人大杳蕉中文无码| 国产又粗又爽视频| 亚洲欧美日本国产综合在线| 国产主播一区二区三区| 国产欧美在线| 国产欧美视频一区二区三区| 日本在线欧美在线| 91精品免费高清在线| 国产亚洲精品91| 4虎影视国产在线观看精品| 在线免费无码视频| 国产在线91在线电影| 在线观看亚洲成人| 亚洲中文字幕国产av| 色婷婷啪啪| 国产va免费精品| 亚洲精品日产AⅤ| 精品99在线观看| 最新国产精品第1页| 欧洲日本亚洲中文字幕| 97se亚洲综合在线韩国专区福利| 真实国产精品vr专区| 亚洲天天更新| 亚洲国产日韩一区| 一区二区在线视频免费观看| 真人高潮娇喘嗯啊在线观看| 午夜老司机永久免费看片| 色一情一乱一伦一区二区三区小说| 99精品福利视频|