999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)背景下文檔關鍵詞抽取方法的探討

2019-09-10 17:46:18孟曉燕趙衛(wèi)紅
新教育論壇 2019年34期
關鍵詞:方法

孟曉燕 趙衛(wèi)紅

摘要:關鍵詞抽取是借用計算機從文檔中選擇出能夠反映主題內(nèi)容的詞,提供一個簡短的內(nèi)容摘要,便于用戶獲取文檔信息。在當今大數(shù)據(jù)時代,在文本處理的許多領域,關鍵詞抽取都是一項重要技術。選取關鍵詞的目的是運用關鍵詞最大限度反映出文檔內(nèi)容,研究從文檔集中選取關鍵詞的方法。本文通過引入能夠與文檔相關程度的指標 (分數(shù)),建立出 的數(shù)學模型,給出文檔關鍵詞抽取方法。

關鍵詞:關鍵詞抽取;TextRank算法;多文檔 ;聚類

0 引言

在大數(shù)據(jù)背景下,關鍵詞提取在文本處理的許多領域,都成為一項重要技術。大數(shù)據(jù)是全體數(shù)據(jù),追求精確度和因果關系都變得意義不大,尋找事物之間的相關關系變得更加重要。在面對大量文檔時,人們想通過閱讀關鍵詞來了解大致意思,所以如何較好提取關鍵詞尤為重要。周錦章等[1]將文檔集進行詞向量表征,通過構建TextRank的轉(zhuǎn)移概率矩陣,提出一種基于詞向量與TextRank的關鍵詞抽取方法。羅燕等[2] 運用詞頻統(tǒng)計規(guī)律改進傳統(tǒng)TE-IDF算法,改善了關鍵詞的提取效果。門家樂[3]提出了如何用TextRank做關鍵詞提取。目前關鍵詞提取的主流方法有基于隱含主題模型的LDA[4]、基于TF-IDF [5]詞頻統(tǒng)計的關鍵詞抽取,基于詞圖模型TextRank[6]的關鍵詞抽取。

1 關鍵詞概念

一般來說,文檔的主題要通過一些特定的,能夠體現(xiàn)主題的詞語來刻畫,這樣的詞叫作關鍵詞。對于文檔,首先是要確定一個文檔的關鍵詞。我們可能猜測文檔中最頻繁出現(xiàn)的詞語應該是最重要最有資格充當關鍵詞。但是,這個直覺實際情況恰恰相反。出現(xiàn)最頻繁的大部分詞語都是那些類似于“the”或者“and”等常見詞。這些詞語通常用于輔助表達,但本身不攜帶任何含義。實際上,英語中幾百個常見詞,往往在文檔分類之前就被去掉。

事實上,描述主題的詞語往往都是罕見。從信息論角度看,用罕見的詞語當作關鍵詞比起相對常見的詞做關鍵詞,更能引起人們的注意,能獲得更大的信息量。但是,并非所有罕見的詞語在做關鍵詞時同等重要。一方面,某些在整個文檔集合中極少出現(xiàn)的詞“notwithstanding”(盡管), “ albeit”(雖然)并不能提供多少有用的信息,當然做檢索詞語是不合適的。另一方面,比如, “chukker” (馬球戲的一局)的詞雖然和上述詞語一樣罕見,但是該詞語卻能提示我們文檔明顯和馬球運動有關。上述兩類罕見的詞語區(qū)別在于它們是否在部分文檔中反復出現(xiàn)有關。也就是說,類似“albeit”的詞語第一次出現(xiàn)并不會增加它多次出現(xiàn)的可能性。但是,如果一篇文章中出現(xiàn)“chukker”,那么隨后可能會提到“first ?chukker”(第一回),“second chukker”(第二回)發(fā)生什么,以此類推。也就是說,如果這類詞在文檔中出現(xiàn),那么他它們很可能反復出現(xiàn)。罕見詞“chukker”具有兩個特點:一是罕見,二是連續(xù)性。

我們一旦確立了罕見詞語做關鍵詞,那么不能做關鍵詞的罕見詞看作是“噪音”。下面,我們將給出盡可能避免噪音的一種獲取最大信息量的檢索詞語選擇方法。

2 關鍵詞選擇方法

為了特定搜索目的,按照以下步驟完成互聯(lián)網(wǎng)上調(diào)查。

(1)文檔集

選定m個檢索詞,在Google依著這m個檢索詞查詢,獲得相應的m類文檔:N= ,假設這些子文檔集總和為 N,建立由N個子文檔構成的文檔集。

(2)詞項(詞組)集

為了對N個文檔賦予關鍵詞,對所有文檔逐一地進行分詞。分詞是按照一定的規(guī)范重新組合成詞項的過程。中文分詞是文本挖掘基礎。對于輸入一段中文,成功的中文分詞,可以達到電腦可以自動識別語句含義的效果。對所有N的個文檔進行分詞后,我們獲取了“詞項(詞組)”集合。在這個詞項(詞組)集合中的每一個詞項(詞組)可能成為某一文檔的關鍵詞。當然,并不是在詞項(詞組)集合中的詞都能稱為關鍵詞。一個詞項(詞組)能不能成為關鍵詞,就要看這個詞項(詞組)能不能代表文檔的信息。

(3)詞(詞組)出現(xiàn)的概率

為詞項(詞組)i在文檔j中的得分。

【例】假定文檔集中有N= =1048576篇文檔,并詞項1在其中 =1024個文檔中出現(xiàn),假定文檔5中,詞項1出現(xiàn)20次(假定這也是在這個文檔中詞語出現(xiàn)最多的次數(shù))

D15= =1 10=10

詞項1在文檔5中得分為10。

(5)賦予文檔關鍵詞

對文檔集(N個文檔)中的指定的文檔 j,計算所有詞項在該文檔中的得分,得分最多的詞項作為文檔j的關鍵詞。

基于關鍵詞的得分,按照分數(shù)由大到小,給關鍵詞排序,確定文檔的關鍵詞。

結(jié)束語:本文通過引入能夠與文檔相關程度的指標Dij(分數(shù)),建立出Dij的數(shù)學模型,給出文檔關鍵詞抽取方法。詞項Dij與詞項出現(xiàn)的概率及詞項所含信息量有關,本文給出的關鍵詞抽取方法理論簡單易懂,只是運用了簡單的概率、-log2pi與信息量Ii呈負相關關系等數(shù)學知識,并且該方法操作簡單,可行性強。本文只是給出理論方案,沒有給出計算機運行程序,在推廣方面仍存在不足,這點是我繼續(xù)研究的方向。

參考文獻:

[1]周錦章,崔曉輝.基于詞向量與TextRank的關鍵詞提取方法.計算機應用研究[J/OL],2019,36(5). [2018-03-09]

[2]羅燕,趙書良,李曉超等.基于詞頻統(tǒng)計的文本關鍵詞提取方法[J] 計算機應用.2016,36(3):718-725.

[3]門家樂.基于TextRank的關鍵詞提取算法. 探索與觀察.

作者簡介:

第一作者簡介:孟曉燕(1981-), 漢,女,山東菏澤人,本科,副教授,主要研究方向高等數(shù)學、應用數(shù)學。

第二作者簡介:趙衛(wèi)紅(1978.12-),女,籍貫:山東青島,學歷:本科,單位:青島黃海學院,職稱:副教授,職務:教師,研究方向:高等教育,英語教學與研究。

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 幺女国产一级毛片| 国产精品视频导航| 嫩草在线视频| 色婷婷亚洲十月十月色天| 伊人久久精品无码麻豆精品| 高清国产va日韩亚洲免费午夜电影| 国产无码制服丝袜| 国产综合在线观看视频| 国产va免费精品| 欧美激情综合一区二区| 国产一级毛片网站| 欧美在线中文字幕| 免费观看精品视频999| 亚洲欧美国产视频| 日韩精品一区二区三区中文无码| 久久99国产乱子伦精品免| 亚洲国产精品VA在线看黑人| 97精品久久久大香线焦| 亚洲 欧美 日韩综合一区| 美女毛片在线| 手机在线免费不卡一区二| 日韩黄色大片免费看| 国产成人三级在线观看视频| 国产国产人成免费视频77777| 国产福利在线观看精品| 99ri精品视频在线观看播放| 19国产精品麻豆免费观看| 亚洲人成人伊人成综合网无码| www成人国产在线观看网站| 国产成人精品无码一区二| 精品久久高清| 色欲不卡无码一区二区| 一级一级特黄女人精品毛片| 美美女高清毛片视频免费观看| 亚洲精品va| 久久国产av麻豆| 激情综合图区| 天天躁夜夜躁狠狠躁躁88| 国产精品不卡片视频免费观看| 在线欧美一区| 亚洲国产一区在线观看| 久久精品亚洲热综合一区二区| 国产白丝av| 女人爽到高潮免费视频大全| 青青青国产免费线在| 国产精品一区二区在线播放| 1769国产精品视频免费观看| 国产第四页| 婷婷在线网站| 亚洲A∨无码精品午夜在线观看| 国产精品自在在线午夜区app| 草草线在成年免费视频2| 18禁色诱爆乳网站| 国产在线高清一级毛片| 日韩a在线观看免费观看| 国产精品分类视频分类一区| 国产亚洲精品自在线| 91蜜芽尤物福利在线观看| 熟妇丰满人妻| 三上悠亚一区二区| 91精品国产麻豆国产自产在线| 2021国产精品自产拍在线| 色综合久久无码网| 福利片91| 午夜视频日本| 国产激情第一页| 又爽又大又黄a级毛片在线视频| 色网站在线免费观看| 欧美日韩中文字幕在线| 国产成人精品三级| 成人免费午夜视频| 国产精品一区二区在线播放| 欧美a网站| 青青操视频在线| 日韩 欧美 小说 综合网 另类| 国产青青草视频| 国产香蕉国产精品偷在线观看| 亚洲成年网站在线观看| 美女啪啪无遮挡| 欧美α片免费观看| 亚洲国产综合第一精品小说| 久久先锋资源|