999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下的文本信息挖掘方法

2017-12-20 13:23:31彭梅
現代電子技術 2017年23期
關鍵詞:大數據

彭梅

摘 要: 文本信息挖掘有利于提高文本信息的查找和利用效率,針對傳統方法存在的問題,提出文本信息挖掘方法。首先提取文本信息術語,估計信息內容與文本類別間的余弦距離,結合模糊規則推理和余弦距離得到隸屬度,然后根據均值密度的中心估計方法得到文本數據集合的平均密度,確定文本信息聚類中心,刪除遠離文本信息聚類中心的奇異數據點,實現大數據環境下文本信息挖掘。實驗結果表明,該方法能夠有效提高文本信息挖掘的查準率,而且具有較強的可擴展性。

關鍵詞: 大數據; 文本信息; 信息挖掘; 查準率

中圖分類號: TN911.1?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)23?0123?04

Abstract: The text information mining is helpful to improve the efficiency of text information retrieval and utilization. Aiming at the problems existing in the traditional methods, a text information mining method is proposed. The term of text information is extracted to estimate the information content and the cosine distance between test categories. The fuzzy rules reasoning and cosine distance are combined to obtain the membership. And then the central estimation method based on mean value density is used to get the average density of the text dataset, determine the clustering center of text information, delete the singularity data point far away from the clustering center of text information, and realize the text information mining in big data environment. The experimental results show this method can improve the precision ratio of text information mining effectively, and has strong scalability.

Keywords: big data; text information; information mining; precision ratio

0 引 言

在當今社會中人們獲取外界信息的渠道更加豐富且獲取方式更加簡單,使得人們每天需要瀏覽以及面對大量的各色信息[1?2]。因此,需要對用戶進行文本信息的篩選,挖掘出用戶真正感興趣的文本信息。

現階段的文本信息挖掘技術不能根據用戶查詢目的有效地對查詢內容進行擴展,且沒有考慮用戶的興趣愛好以及用戶的技術層次等差別,不能為用戶提供具有個性化需求的動態服務。導致文本信息挖掘對知識理解能力和處理能力較差的問題,致使文本信息挖掘的精度不高以及文本信息過載和淹沒[3?4]。在這種情況下,如何有效、快速地從海量信息中挖掘出用戶真正需要的信息,成為業內人士亟需解決的重要技術難題,受到許多有關專家學者的高度關注[5?6]。文獻[7]提出基于用戶興趣的大數據環境下文本信息挖掘方法,該方法挖掘能力的準確性較高,但存在計算過程消耗時間較長的問題。文獻[8]提出基于句法規則的文本信息挖掘方法,該方法計算過程較為簡單,但存在文本信息挖掘過程受控于核函數選擇的問題。文獻[9]提出基于決策樹的大數據環境下文本信息挖掘方法。該方法可以從側面了解用戶感興趣的文本信息,但存在挖掘能力局限性較大的問題[10?11]。

針對上述問題,本文提出文本信息挖掘方法,結果表明,該方法能夠有效提高文本信息挖掘的查準率,同時具有較強的可擴展性。

1 大數據環境下的文本信息挖掘方法

2 實驗結果與分析

為了證明提出大數據環境下文本信息挖掘方法的有效性,在Eclipse Standard 4.3.2下搭建大數據環境下文本信息挖掘實驗平臺,實驗數據來源于UCI語料集。分別利用模糊規則方法和支持向量機方法進行大數據環境下文本信息挖掘實驗。將兩種不同方法進行大數據環境下文本信息挖掘的精確度對比,采用查準率[P](%)作為度量不同方法下文本信息挖掘精度的結果:

通過對表1進行分析可知,利用模糊規則方法進行大數據環境下文本信息挖掘的查準率要高于支持向量機方法,這主要是因為在利用模糊規則方法進行大數據環境下文本信息挖掘過程中,先對文本信息進行術語提取,計算出新的文本信息內容與文本類別之間的余弦距離,結合模糊規則推理和余弦距離對文本信息進行分類,得到文本信息的數據樣本與原型之間的隸屬度。再根據均值密度的中心估計方法計算出文本信息原始數據集合的平均密度,在此基礎上通過對文本信息聚類中心的確定,對文本信息中原始數據集合中遠離聚類中心周圍的稀疏數據的奇異點進行刪除,使得利用模糊規則方法進行大數據環境下文本信息挖掘的挖掘精度較高。

分別利用模糊規則方法和支持向量機方法進行大數據環境下文本信息挖掘實驗。對比兩種不同方法進行文本信息挖掘的召回率(%),召回率是指自動挖掘與用戶搜索相一致的文本信息占用戶搜索信息總數的比率,體現了文本信息挖掘結果的完備性。利用對比結果來比較兩種不同方法進行大數據環境下文本信息挖掘的召回率:endprint

通過對表2進行分析可知,利用模糊規則方法進行大數據環境下文本信息挖掘的召回率要高于支持向量機方法,這主要是因為在利用模糊規則方法進行大數據環境下文本信息挖掘過程中,先結合數據空間中距離累積函數計算出大數據環境下文本信息的潛力,再利用余弦距離公式計算出不同文本信息樣本擁有不同數量的屬性,在此基礎上通過計算文本信息數據聚類中心,結合布爾加權法對文本信息的挖掘方法進行定義,得到詞語在文本信息中的加權,使得利用模糊規則方法進行大數據環境下文本信息挖掘的召回率較高。

利用對比結果來衡量不同方法進行大數據環境下文本信息挖掘的綜合有效性,對比結果如圖1所示。

通過對圖1進行分析可知,利用模糊規則方法進行大數據環境下文本信息挖掘的綜合性能要高于支持向量機方法,這主要是因為在利用模糊規則方法進行大數據環境下文本信息挖掘過程中,先對文本信息潛力進行遞歸,創建出文本信息的新原型,得到文本信息的數據樣本與原型之間的隸屬度,在此基礎上通過計算沒有被存儲的所有文本信息的分散性,得到以文本信息中所有數據點為中心的密度集合,再通過計算文本信息原始數據集合的平均密度,對文本信息中原始數據集合中遠離聚類中心周圍的稀疏數據的奇異點進行刪除,使得利用模糊規則方法進行大數據環境下文本信息挖掘的綜合性能較優。

3 結 語

針對當前方法進行文本信息挖掘過程中難以對文本信息中奇異點進行刪除,存在文本信息分類特征的準確性較差,聚類中心迭代初值的選擇較為隨機的問題,提出一種基于模糊規則的大數據環境下文本信息挖掘方法。實驗結果表明,所提方法能夠有效提高文本信息挖掘的查準率,同時具有較強的可擴展性。

參考文獻

[1] 潘大勝,陳志福,覃煥昌.基于模糊關聯迭代分區的挖掘優化方法研究[J].科學技術與工程,2016,16(24):235?238.

[2] 陳暉.旋轉機械振動故障相似性系數的優化挖掘方法[J].科技通報,2016,32(4):126?129.

[3] 李尚昊,朝樂門.文本挖掘在中文信息分析中的應用研究述評[J].情報科學,2016, 34(8):153?159.

[4] 胡海斌.引入特征傾向性的高效網絡文本數據挖掘[J].計算機仿真,2015,32(5):436?440.

[5] 朱賀軍,馬丁.海量短文本實時挖掘方法的研究與仿真[J].計算機仿真,2015,32(12):442?446.

[6] 張世玉,王偉,于躍,等.基于文本挖掘技術的技術層面專利組合分析方法優化[J].情報理論與實踐,2015,38(10):127?129.

[7] 任高舉,白亞男.多媒體智能教學中特定數據挖掘方法研究[J].電子設計工程,2016,24(11):4?7.

[8] 邱劍,王慧芳,應高亮,等.文本信息挖掘技術及其在斷路器全壽命狀態評價中的應用[J].電力自動化,2016,40(6):107?112.

[9] 韓文智.計算機文本信息挖掘技術在網絡安全中的應用[J].華僑大學學報(自然科學版),2016,37(1):67?70.

[10] 史玉珍,單冬紅.基于子主題選擇與三級分層結構的Web文本挖掘方法[J].電信科學,2016,32(5):96?104.

[11] 溫浩,溫有奎,王民.基于模式識別的文本知識點深度挖掘方法[J].計算機科學,2016,43(3):279?284.endprint

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产真实乱子伦精品视手机观看| 99热这里都是国产精品| 亚洲伊人电影| 欧美黑人欧美精品刺激| 日本成人一区| 男女猛烈无遮挡午夜视频| 六月婷婷精品视频在线观看| 国产精品999在线| 亚洲国产成人自拍| 国产美女在线观看| 国产精品第一区| 欧美日韩资源| 精品一區二區久久久久久久網站| 婷婷综合亚洲| 国产无码精品在线播放 | 欧美日韩高清在线| 久久成人免费| 国产午夜福利亚洲第一| 亚洲欧美在线精品一区二区| 伦精品一区二区三区视频| 亚洲中文制服丝袜欧美精品| 欧美一区福利| 欧美日韩免费| 免费jizz在线播放| 一本大道无码日韩精品影视| 91久久国产综合精品| 国产午夜无码片在线观看网站| 久久不卡精品| 国产又大又粗又猛又爽的视频| 中文字幕精品一区二区三区视频| 亚洲区欧美区| 无码aaa视频| 精品人妻一区二区三区蜜桃AⅤ| 国内精品自在欧美一区| 黄片一区二区三区| 国产精品区网红主播在线观看| 免费无码在线观看| 99久久精品国产自免费| www精品久久| 国产亚洲精品自在久久不卡 | 亚洲首页在线观看| 国产尤物jk自慰制服喷水| 最新日本中文字幕| 久久91精品牛牛| 国产H片无码不卡在线视频| 久久成人18免费| 91娇喘视频| 国产白浆在线观看| 性色一区| 欧美不卡视频一区发布| 中国国产高清免费AV片| 99在线视频免费| 爱爱影院18禁免费| 午夜视频免费一区二区在线看| 日韩高清中文字幕| 亚洲欧洲日韩久久狠狠爱| 亚洲精品国产精品乱码不卞 | 在线观看免费国产| 欧美日韩国产精品综合| 无码电影在线观看| 婷婷综合色| 最新亚洲av女人的天堂| 色悠久久久| 亚洲精品视频免费观看| 无码人妻热线精品视频| 欧美va亚洲va香蕉在线| 欧美爱爱网| 国产成人精品2021欧美日韩| 国产人妖视频一区在线观看| 国产综合另类小说色区色噜噜| 日韩免费毛片视频| 国产鲁鲁视频在线观看| 国产激爽大片高清在线观看| 久久精品国产一区二区小说| 日韩在线视频网站| 国产一区二区三区免费| 国产丝袜第一页| 久久亚洲欧美综合| 亚洲精品视频在线观看视频| 一级毛片在线播放免费观看| 亚洲综合在线最大成人| 国产福利一区在线|