999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下的文本挖掘教學內容探討

2018-05-09 02:54:48
無線互聯科技 2018年9期
關鍵詞:數據挖掘可視化文本

白 楊

(遼東學院 信息工程學院,遼寧 丹東 118003)

近年來,人工智能、云計算、物聯網、移動通信等技術與應用的快速發展及其與社會經濟活動的廣泛融合,把人類社會帶入一個全新的大數據時代。大數據成為國際競爭、國家發展的重要領域,給人們的生活、學習和工作帶來新的模式,采用合理的方法針對大數據進行挖掘和利用,將有助于獲取有價值的信息。高校的發展也應迎合大數據新環境的要求,在教學理念上做出適合學生能力發展的調整,并切實在教學實踐中付諸行動,增強學生的就業競爭優勢。

目前,面向大數據相關人才的迫切需求,我國各大高校的計算機科學、信息管理等專業開設了“數據挖掘”課程。大數據環境下的互聯網約95%的數據以文本數據形式存在,文本挖掘技術及其應用已經成為新的研究熱點,是數據挖掘技術發展的重要方向[1]。在各類相關教材中,也只將文本挖掘作為Web挖掘的一個小知識點,并沒對其知識構成和主要技術做全面介紹。針對這一現象,本文將對文本挖掘這一知識點進行系統概述,對其區別于其他形式數據的挖掘技術特點進行闡述。

1 文本挖掘概述

文本挖掘一詞最早出現于1998年第十屆歐洲機器學習會議上,它是一個從大量文本數據中提取以前未知的、有用的、可理解的、可操作的知識的過程[2]。文本挖掘的目的是從文本集合中,試圖在一定的理解水平上盡可能多地提取知識,其本質是自然語言處理(Natural Language Processing,NLP)過程,NLP是將無結構的自然語言轉換成結構化數據自然語言,便于計算機的理解、存儲和管理。

1.1 文本挖掘的應用場景

文本挖掘的應用場景豐富,主要包括以下幾個方面:新聞檢索歸類,如谷歌新聞;社交網絡分析,如微博、推特熱點發現、謠言識別等;輿情監測分析,如股票分析、房產分析等;顧客反饋評價,如電子商務評價情感分析;用戶畫像,如用戶興趣偏好分析。

1.2 文本挖掘與數據挖掘的聯系和區別

廣義上,文本挖掘是數據挖掘的一個分支領域,挖掘目標也分為預測和描述兩種。預測是利用數據庫中已有的變量預測未知或將來的數值;描述是用于探索已有數據的性質,對數據中的模式或關系進行辨別,注重發現描述數據的模式,提供給用戶解釋和表述。狹義上,如果將文本挖掘作為一個單獨的研究領域,其研究對象是無結構或半結構的文本,而非結構化數據;以提取概念和知識以及做出描述和預測為目標,而非預測未來的狀態;挖掘方法以提取短語、形成概念為主,與數據挖掘的傳統方法類似,也包括聚類、分類、關聯分析等。另外,由于文本數據是各類網站的主要數據形式,它廣泛應用于社交網站、電子商務平臺、文獻集合、知識庫、電子郵件等媒介。

2 文本挖掘過程

如何使得文本數據可被計算機理解?如何利用計算機幫助解讀文本數據?要解決這些問題,皆要求文本挖掘具備數據獲取、數據分析和數據建模3方面的能力,以下5個步驟闡述了文本挖掘過程。

2.1 文本數據獲取

通常通過爬蟲程序實現網絡海量文本數據的抓取,具體過程是根據挖掘目的設計爬蟲程序,爬取相關的數據,以形成文本數據挖掘的初始數據。

2.2 文本挖掘的預處理

預處理過程是對編碼、缺失值、分布分析等問題進行處理,是能否獲得有效挖掘結果的關鍵。由于文本數據的特征,文本數據的預處理方法區別于其他類型數據的預處理方法,具有其特殊性,因此這部分知識點是文本挖掘教學內容的重點,預處理過程一般劃分為以下幾個環節。

2.2.1 編碼處理

首先需要對文本數據進行標準化處理,因為不同編碼格式,有些軟件可能會不識別導致出錯,統一編碼(如將編碼轉化成“UTF-8”)將方便進一步的主題特征抽取。

2.2.2 分詞處理

分詞處理將確定語句的詞(words)或詞項(terms),即文檔粒度。不同于英文語句中的詞與詞之間自帶空格的構句特點,中文句子往往因為斷句的不同而引起歧義,因此,中文分詞方法顯得額外重要。中文分析方法分為詞典分詞和無詞典分詞兩種,前者是利用詞典中包括的領域術語,根據設定好的切詞字數,通過最大正向匹配將語句從左至右進行切分。后者是利用統計思想來分詞,如最大概率法公式為:一個詞的概率=其出現的次數/語料中總的詞數,以此區分詞在一個文檔中的重要程度。另外,還有一些常用的切詞工具如StandardAnalyzer,ChineseAnalyzer等都各具優勢。

2.2.3 文本數據的表示—DTM矩陣生成

分詞處理之后需要進行數據的表示,通過文檔—詞項矩陣(Document-Term Matrix,DTM)矩陣實現對本文數據的結構化處理,它由文檔為樣本(行)、詞項為變量(列)、詞頻為觀測值(元素)構成,如表1所示3個文檔(Doc1,Doc2,Doc3)的各個詞項(“歡迎”“來到”等)的詞頻值為1或0,1表示該詞項在文檔中出現,0表示該詞項在文檔中未出現。

2.2.4 文本信息過濾—停用詞及常用詞處理

詞項中有些停用詞(如表1中的“的”“與”)無法給予我們有價值的信息,因此,需要借助詞典對停用詞進行處理。需要注意的是,在分析具體行業時,一些常用詞也可以處理掉,如只分析房地產行業時,“房地產”一詞本身的意義就不大了。

2.2.5 文本特征篩選TF-DIF處理

詞頻—逆文本頻率指數(Term Frequency-Inverse Document Frequency,TF-IDF)的思想是一個詞在A文檔中出現頻率高(對A重要),而在其他文檔中出現次數相對低(對全局具有個性化),那么認為該詞對于A文檔是重要的,它對A文檔有信息代表性,這將有利于進行文本分類,從而方便提取規律和進行檢索。

表1 數據挖掘與文本挖掘的區別

2.2.6 文本特征抽取—LDA主題模型

與TF-IDF不同,文檔主題生成模型(Latent Dirichlet Allocation,LDA)則將分析粒度從詞映射為詞的組合(構成主題),從而使得分析粒度變大,分析維度降低。

2.3 文本數據分析與挖掘

根據挖掘目的和任務的不同,將文本挖掘分析與挖掘劃分為以下幾個功能。(1)關鍵詞檢索:與傳統的信息檢索使用的技術類似,關鍵詞檢索功能通過建立倒排文件索引實現。(2)相似檢索:找到相似內容的文本,通常利用向量空間模型、余弦相似度模型進行相似度計算。(3)詞語關聯分析:聚焦在詞語(包括關鍵詞)之間的關聯信息分析上。(4)文本分類和聚類:文本分類是有監督地將文檔分為指定類;文本聚類是無監督地將文檔分為若干類。實際上,多種分析方法經常混合運用,如進行數據特征化處理使數據降維,從文檔中抽取能反映研究主題的一些特征后,再使用分類器進行訓練,而分類設置包括很多方法,如聚類、關聯、信息檢索、鏈接分析等方法。(5)自然語言處理:揭示自然語言的涵義,實現文本語義挖掘,如運用LDA模型生成文本主題。

2.4 文本數據可視化

數據可視化就是把復雜的數據轉化為直觀的圖形,有利于進行數據分析以及方便人們洞悉數據規律。目前研究領域和Web上最受歡迎的文本內容可視化方法是標簽云和Wordle,它們都是基于關鍵詞的方法。另外還有文本特征可視化、情感分析可視化、文本關系可視化等。

2.5 挖掘結果和策略

為輔助決策,文本挖掘的結果必須被用戶所理解,因此,需要對挖掘結果進行評估。評估標準一般分為客觀標準和主觀標準,其出發點均是判斷挖掘結果是否具有新穎的、有趣的、有價值的性質。

3 結語

本文對文本挖掘的教學內容做了系統、全面的設置,梳理了此知識點的基本概念,著重介紹區別于其他數據挖掘預處理的分詞技術及矩陣表示方法,并闡述了主要挖掘和分析方法及其應用場景。實踐教學中,將利用開放的互聯網數據庫資源,使課堂教學、上機實驗案例相結合,引導學生掌握文本數據挖掘技術的知識結構,調動學生的學習積極性和興趣。未來工作中,將進一步引入前沿的文本挖掘問題應用于“數據挖掘”課程的教學中,豐富教學案例,提高教學效果。

[參考文獻]

[1]袁軍鵬,朱東華,李毅,等.文本挖掘技術研究進展[J].計算機應用研究,2006(2):1-4.

[2]JIAWEI H,MICHELINE K,JIAN P,等.數據挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2012.

猜你喜歡
數據挖掘可視化文本
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
探討人工智能與數據挖掘發展趨勢
基于CGAL和OpenGL的海底地形三維可視化
在808DA上文本顯示的改善
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产高清免费午夜在线视频| 国产精品视频猛进猛出| 狠狠色丁婷婷综合久久| 亚洲资源在线视频| 丝袜无码一区二区三区| 国产精品毛片一区| 永久在线播放| 55夜色66夜色国产精品视频| 日韩精品无码免费一区二区三区| 伊人久久综在合线亚洲91| 91精品啪在线观看国产| 特级做a爰片毛片免费69| 国产成a人片在线播放| 婷婷六月综合| 青青草原国产精品啪啪视频| 国产日韩欧美一区二区三区在线| 高潮毛片免费观看| 四虎永久在线视频| 日本不卡视频在线| 亚洲黄色视频在线观看一区| 色综合色国产热无码一| 99精品福利视频| 漂亮人妻被中出中文字幕久久| 少妇高潮惨叫久久久久久| 播五月综合| 久青草网站| av尤物免费在线观看| 免费一极毛片| 亚洲无码精品在线播放| 丝袜国产一区| 性做久久久久久久免费看| 久久精品国产亚洲AV忘忧草18| 欧美中文字幕一区二区三区| 亚洲天堂精品在线| 91免费观看视频| 国产69精品久久久久妇女| 国产精选小视频在线观看| 特黄日韩免费一区二区三区| 免费aa毛片| 永久在线播放| 亚洲精品色AV无码看| 欧美日韩午夜视频在线观看| 色视频国产| 欧美在线视频a| 日日拍夜夜嗷嗷叫国产| 露脸一二三区国语对白| 亚洲二三区| 666精品国产精品亚洲| 高h视频在线| 亚洲综合婷婷激情| 九九热视频在线免费观看| 国产精品免费入口视频| 国产日韩欧美在线播放| 国产毛片不卡| 一级香蕉人体视频| 精品亚洲欧美中文字幕在线看| 国产人免费人成免费视频| 国产a网站| 久久伊伊香蕉综合精品| 久久人体视频| 伊人色天堂| 免费可以看的无遮挡av无码| 亚洲第一av网站| 亚洲中文字幕日产无码2021| 91久久偷偷做嫩草影院电| 国产丝袜无码精品| 亚洲一区色| 五月婷婷综合色| 色欲国产一区二区日韩欧美| 亚洲高清国产拍精品26u| 精品久久777| 欧美不卡在线视频| 大香伊人久久| 国产三级精品三级在线观看| 亚洲欧美成人影院| 一级做a爰片久久免费| 丁香五月亚洲综合在线| 中文字幕在线观看日本| 视频二区国产精品职场同事| 国产成人精品2021欧美日韩| 久久精品无码一区二区国产区| 久久久久人妻精品一区三寸蜜桃|