999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF-IDF矩陣方法的學(xué)科研究熱點(diǎn)提取

2021-03-12 14:06:07李一平
甘肅科技縱橫 2021年12期

李一平

摘要:目的:以信息計(jì)量學(xué)為基礎(chǔ)的學(xué)科研究熱點(diǎn)提取多以作者自行定義的關(guān)鍵詞為研究對(duì)象,關(guān)鍵詞個(gè)數(shù)較隨意且?guī)в姓撐淖髡叩闹饔^猜想。故提出一種基于TF-IDF矩陣結(jié)合高權(quán)重詞出現(xiàn)頻率的方法,提取學(xué)科研究熱點(diǎn)。方法:釆集2017年度《現(xiàn)代情報(bào)》的載文內(nèi)容,對(duì)每篇文章進(jìn)行全文分詞,生成詞向量空間,創(chuàng)建TF-IDF權(quán)重矩陣。統(tǒng)計(jì)高權(quán)重詞的出現(xiàn)頻率提取研究熱點(diǎn)。結(jié)論:通過與用信息計(jì)量學(xué)方法得到的結(jié)果進(jìn)行對(duì)比,證明該方法有效且客觀。

關(guān)鍵詞:研究熱點(diǎn);TF-IDF矩陣;全文分詞

中圖分類號(hào):G250文獻(xiàn)標(biāo)志碼:A

0引言

研究熱點(diǎn)是反映某一學(xué)科發(fā)展規(guī)律和特征的重要指標(biāo),有助于把握該學(xué)科領(lǐng)域發(fā)展的軌跡和趨勢(shì)。情報(bào)學(xué)是研究信息、知識(shí)和情報(bào)的產(chǎn)生、傳遞、利用規(guī)律,運(yùn)用現(xiàn)代科學(xué)技術(shù)有效地管理和利用信息、知識(shí)和情報(bào)的_門交叉學(xué)科E。對(duì)情報(bào)學(xué)研究熱點(diǎn)及其變化過程的分析將有助于從整體上把握情報(bào)學(xué)發(fā)展動(dòng)向,促進(jìn)情報(bào)學(xué)與其他學(xué)科的融合發(fā)展。

目前,國(guó)內(nèi)學(xué)者對(duì)情報(bào)學(xué)研究熱點(diǎn)的探究主要從不同類型的論文入手,比如分析期刊論文、學(xué)位論文、會(huì)議論文,從不同的角度對(duì)情報(bào)學(xué)熱點(diǎn)進(jìn)行剖析⑵。研究?jī)?nèi)容隨著新興技術(shù)的更新而不斷完善和發(fā)展,開始關(guān)注知識(shí)層面的數(shù)據(jù)管理和挖掘,更注重知識(shí)本身的潛在價(jià)值,同時(shí)也開始關(guān)注科技文獻(xiàn)、科技數(shù)據(jù)等的內(nèi)容發(fā)現(xiàn),以及情報(bào)學(xué)教育的探索。研究方法也是多種多樣,具體來說,多是將定性與定量相結(jié)合,還包括很多工具和手段,諸如知識(shí)圖譜、聚類工具、高被引分析和機(jī)器學(xué)習(xí)方法等。

在定量的研究方法中,通過關(guān)鍵詞進(jìn)而揭示研究目的是眾多研究學(xué)者青睞的研究方式。一方面關(guān)鍵詞是表達(dá)文獻(xiàn)主題概念的自然語言詞匯'氣其能夠高度概括文章的核心主旨和作者的主觀思想。關(guān)鍵詞詞頻的變化波動(dòng)和社會(huì)現(xiàn)象、學(xué)科發(fā)展存在著密不可分的聯(lián)系。通過分析文獻(xiàn)中存在的大量關(guān)鍵詞,可在一定程度上揭示學(xué)科發(fā)展的總體特征和內(nèi)容特點(diǎn),了解學(xué)術(shù)研究的發(fā)展脈絡(luò)及發(fā)展動(dòng)向,關(guān)鍵詞的變化也是前沿?zé)狳c(diǎn)的另_種表現(xiàn)形式。但現(xiàn)有研究中仍然存在不足之處,一是關(guān)鍵詞無法準(zhǔn)確概括文本核心內(nèi)容,二是關(guān)鍵詞的數(shù)量也會(huì)對(duì)分析文章起到重要作用,簡(jiǎn)單地將某個(gè)階段文獻(xiàn)中某個(gè)關(guān)鍵詞的頻次累加或進(jìn)行共現(xiàn)分析,顯然對(duì)于研究結(jié)果的結(jié)論會(huì)造成不同程度的影響,具有一定的局限性'氣

基于此,本論述著眼于期刊全文內(nèi)容,不依賴題錄信息進(jìn)行關(guān)鍵詞特征提取。首先對(duì)文章全文進(jìn)行分詞,去除無意義的停用詞,構(gòu)建所有數(shù)據(jù)樣本的詞袋模型。然后計(jì)算每篇文章詞語的TF-IDF權(quán)重,生成TF- IDF矩陣。最后提取高TF-IDF權(quán)重詞匯并結(jié)合出現(xiàn)頻率,得到研究熱點(diǎn)語詞。

1相關(guān)理論與技術(shù)

1.1中文分詞

中文分詞是指將連續(xù)的中文字符串按照一定的規(guī)范分割成詞序列的過程'可。不同于拉丁語系用天然的空格來分隔每一個(gè)單詞,漢語的“詞”和“詞組”界限很模糊,中文語言的特殊性無疑為分詞的技術(shù)增加了難度。例如,目前關(guān)于字或詞還沒有一個(gè)公認(rèn)的、權(quán)威的標(biāo)準(zhǔn);歧義詞的切分也需要考慮不同語境;未登錄詞更是加大了識(shí)別、分詞的難度。因此在進(jìn)行中文文本處理的過程中,首先需要把中文文本切分成一個(gè)一個(gè)的詞或者詞組,這樣的技術(shù)成為中文分詞技術(shù)面。中文分詞是中文文本的自然語言處理任務(wù)的基礎(chǔ),分詞結(jié)果直接影響到自然語言處理任務(wù)的好壞5。

目前常見的中文分詞方法主要有基于規(guī)則和詞表的方法與基于統(tǒng)計(jì)模型的中文分詞方法,現(xiàn)階段深受學(xué)者青睞的分詞Python庫(kù)主要有:jieba、SnowNLP、TH- ULAC、NLPIR,NLTK和LTP等。上述幾種庫(kù)各有優(yōu)缺點(diǎn),本文將采用jieba進(jìn)行分詞處理分析。其核心算法主要有:(1)基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖;(2)采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;(3)對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了 Viterbi算法。

此外.jieba庫(kù)還有如下特點(diǎn):(1)支持三種分詞模式:精確模式,試圖將句子最精確的切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義;搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用戶搜索引擎分詞;(2)支持繁體分詞;(3)支持自定義詞典;用戶可以指定自己自定義的領(lǐng)域詞典,以便包含jieba詞庫(kù)里沒有的詞。雖然jieba有新詞識(shí)別能力,但是自行添加的新詞可以保證更高的正確率。同時(shí),自定義的字典還支持詞頻和詞性的設(shè)置。

1.2詞頻率變換矩陣(TF-IDF)

TF-IDF對(duì)于數(shù)據(jù)分析師和大部分程序員來說應(yīng)該都不陌生,它是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù),它加權(quán)的各種形式通常會(huì)被各大搜索引擎所應(yīng)用,作為文件與用戶利用之間相關(guān)程度的衡量或評(píng)級(jí),比較常用的就是計(jì)算查詢關(guān)鍵詞所對(duì)應(yīng)的向量和文檔所對(duì)應(yīng)的向量之間的相關(guān)度。TF-IDF實(shí)際上是TF與IDF的乘積[12]。

特征項(xiàng)頻率TF,也稱短期頻率,是指某個(gè)詞在某個(gè)文檔中出現(xiàn)的總次數(shù)與該文檔的詞總數(shù)的商,用于衡量該詞在該文檔中的出現(xiàn)頻率。因?yàn)槊總€(gè)文檔總詞數(shù)差距較大,因此一個(gè)詞在某個(gè)文檔中出現(xiàn)的次數(shù)可能遠(yuǎn)大于另一個(gè)文檔,所以詞頻通常就是一個(gè)詞出現(xiàn)的次數(shù)除以文檔的總長(zhǎng)度,相當(dāng)于做了一次歸一化。TF 的特點(diǎn)在于,要想有效地反映某個(gè)字或詞在文檔中的頻率,就必須讓它在該文檔中出現(xiàn)的次數(shù)足夠多且在其他文檔中出現(xiàn)頻率小。但是,如果只使用TF可能會(huì)產(chǎn)生以下問題:第一,有些字或詞在文檔中可能會(huì)很自然地反復(fù)出現(xiàn),比如連詞、語氣詞、指示代詞等,這些詞大多起著連接語句的作用,是保持語言連貫不可或缺的部分,甚至許多關(guān)鍵詞中都有包含,會(huì)出現(xiàn)在許多文檔中,這時(shí)TF就難以幫助我們區(qū)分文檔的相關(guān)度;第二,若搜索一個(gè)關(guān)鍵詞,它在所有文本中的TF值都高,那么該關(guān)鍵詞也就不利于進(jìn)行文本分類。因此,為了解決上述問題,業(yè)界經(jīng)常將特征項(xiàng)頻率TF與反文檔頻率IDF結(jié)合起來使用糾

IDF背后的隱含假設(shè)是:查詢關(guān)鍵詞中的字或詞應(yīng)該相對(duì)于其他字或詞更加重要,而文檔的重要程度,也就是相關(guān)度,與字或詞在文檔中出現(xiàn)的字?jǐn)?shù)成正比。例如,“圖書館”一詞在文檔A中出現(xiàn)了5次,而在文檔B里出現(xiàn)了20次,那么TF計(jì)算就認(rèn)為文檔B可能更相關(guān)。

1.3 Scikit-Learn

Scikit-Leam是基于Python的機(jī)器學(xué)習(xí)模塊,是高級(jí)數(shù)據(jù)分析中非常重要的工具包,同時(shí)也是一款簡(jiǎn)單有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具。一方面,它具有種類豐富的成熟算法和案例,機(jī)器學(xué)習(xí)模型包括支持向量機(jī)、決策樹、樸素貝葉斯、K近鄰等,可分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。它的基本功能主要被分為6個(gè)部分:分類、回歸、聚類、數(shù)據(jù)降維、模型選擇、數(shù)據(jù)預(yù)處理。另一方面,Scikit-Leam能夠以問題為導(dǎo)向,選擇合適的模型進(jìn)行分析,比如分類,即可以訓(xùn)練電腦識(shí)別不同的圖片;線性回歸可以用來預(yù)測(cè)某一事物的趨勢(shì)走向,非監(jiān)督學(xué)習(xí)則是讓計(jì)算機(jī)自己“思考”數(shù)據(jù)的不同,從而形成分類標(biāo)準(zhǔn)。本論述主要應(yīng)用Scikit-Leam來生成TF- IDF矩陣。

2數(shù)據(jù)來源與分析模型

2.1數(shù)據(jù)來源

本論述選取《現(xiàn)代情報(bào)》2017年度的載文作為數(shù)據(jù)來源,通過自己編寫的Python腳本和瀏覽器測(cè)試框架 Selenium工具從中國(guó)知網(wǎng)上爬取上述文獻(xiàn)。同時(shí)為了提高精度,爬取過程中過濾文章大小標(biāo)題、中英文摘要、作者簡(jiǎn)介、頁眉頁腳標(biāo)注以及參考文獻(xiàn)等內(nèi)容,只保留文章的正文段落內(nèi)容,然后將爬取到的內(nèi)容以 TXT格式文本存儲(chǔ),具體形式如圖1所示。最后剔除通知、簡(jiǎn)訊、評(píng)論等不相關(guān)的非學(xué)術(shù)文獻(xiàn),共計(jì)得到268篇情報(bào)學(xué)研究相關(guān)文獻(xiàn)。

2.2分析模型

本論述的分析模型與一般的文本分析框架無異,主要是:(1)文本預(yù)處理,先將文章進(jìn)行分詞,然后去除停用詞,生成每篇文章的核心詞組;(2)特征提取,匯總每篇文章的核心詞,構(gòu)建整個(gè)分析數(shù)據(jù)的詞袋,計(jì)算每個(gè)詞的TF-IDF權(quán)重值;(3)構(gòu)建TF-IDF矩陣,根據(jù)TF- IDF權(quán)重值和詞向量的頻率進(jìn)行分析,得出研究熱點(diǎn)。實(shí)驗(yàn)流程如圖2所示。

3分析過程與分析結(jié)果

3.1文本預(yù)處理

用Python的jieba工具將上述采集的268篇文章進(jìn)行分詞,在去除一些常見詞、無意義的語詞的同時(shí),還引入了情報(bào)學(xué)領(lǐng)域的專有名詞,并設(shè)置了較高的權(quán)重,防止分詞時(shí)將其分割。其中某一篇文章的部分處理結(jié)果如圖3所示。

3.2構(gòu)建TF-IDF矩陣

統(tǒng)計(jì)268篇文章的核心詞匯,得到整個(gè)數(shù)據(jù)集的詞袋共計(jì)21717個(gè)。利用skleam工具計(jì)算出每個(gè)文檔在詞袋中的TF-IDF權(quán)重值。匯總每篇文章的TF-IDF構(gòu)造整個(gè)數(shù)據(jù)集的TF-IDF矩陣,得到一個(gè)268x21717大小的稀疏矩陣。該矩陣中每一行表示一篇文章,每一列表示詞袋中的一個(gè)詞語。生成的TF-IDF矩陣如圖4所示。

3.3分析TF-IDF矩陣

在TF-IDF矩陣的基礎(chǔ)上,先獲取前1000位權(quán)重值較大的數(shù)據(jù)。這些權(quán)重大的數(shù)據(jù)意味著對(duì)應(yīng)的特征詞對(duì)所屬文章、整個(gè)詞向量空間都很重要。截取前20位見表1所列。

權(quán)重大的特征詞不一定會(huì)成為研究熱點(diǎn),而在多篇文章都出現(xiàn)權(quán)重值較大的同一特征詞時(shí)則可以說明該詞語是眾多研究學(xué)者關(guān)注的熱點(diǎn)。所以,遍歷這1 000個(gè)權(quán)重值較大的特征詞,得出結(jié)果見表2所列。

3.4實(shí)驗(yàn)對(duì)比與解釋

為了驗(yàn)證本文方法的有效性,本論述用信息計(jì)量學(xué)軟件BICOMB對(duì)相同的數(shù)據(jù)進(jìn)行關(guān)鍵詞提取,對(duì)比試驗(yàn)只需要獲取2017年《現(xiàn)代情報(bào)》載文的題錄信息,統(tǒng)計(jì)由作者自行標(biāo)注的關(guān)鍵詞,截取前20位見表3所列。

對(duì)比表2和表3,可以發(fā)現(xiàn):由全文分詞得出的特征詞基本和作者自行提供的關(guān)鍵詞相契合。但由全文分詞后得到的特征詞更具有客觀性,所以更能體現(xiàn)出當(dāng)前學(xué)科的研究熱點(diǎn)。不過需要指出的是,特征詞的最終成型不僅僅取決于該詞的權(quán)重大小,還與文章分詞的粒度相關(guān),因?yàn)楸菊撌鲈诜衷~過程中沒有添加任何干預(yù),所以分詞的粒度都比較小,詞語粒度過小將導(dǎo)致所形成的詞語因被切割而權(quán)重降低。比如“知識(shí)圖譜”在Jieba分詞后被分成“知識(shí)”和“圖譜”兩個(gè)詞語,“圖譜”一詞在TF-IDF的計(jì)算中數(shù)值較小,因此無法得出其是核心關(guān)鍵詞的結(jié)論。同時(shí),也會(huì)存在全文分詞得到的關(guān)鍵詞在語義層面高度囊括作者提出的關(guān)鍵詞,比如表2中的“數(shù)據(jù)”和表3中的“大數(shù)據(jù)”,甚至也可以解釋為不同的語義層面范疇。

4結(jié)論

本論述通過對(duì)2017年《現(xiàn)代情報(bào)》的載文進(jìn)行全文分詞,利用TF-IDF權(quán)重和高權(quán)重詞的出現(xiàn)頻率得出學(xué)科研究熱點(diǎn)。實(shí)驗(yàn)結(jié)果與用信息計(jì)量學(xué)研究方法得出的結(jié)果大體一致。受中文分詞粒度的影響,研究熱點(diǎn)的語義范疇比信息計(jì)量學(xué)得到的熱點(diǎn)范疇更高。所以本文的下一步工作將對(duì)中文分詞的過程進(jìn)行干預(yù),引入圖情領(lǐng)域的專有詞匯,保證專有詞匯的成詞率,屆時(shí)再和信息計(jì)量學(xué)方法進(jìn)行對(duì)比。

綜上,基于TF-IDF權(quán)重和高權(quán)重詞的出現(xiàn)頻率得出的研究熱點(diǎn)擺脫了論文作者的主觀臆想,更客觀的得出當(dāng)前學(xué)科的研究熱點(diǎn)。

參考文獻(xiàn):

[1]中國(guó)科學(xué)技術(shù)信息研究所.情報(bào)學(xué)[EB/OL], [2018-11- lS].http ://www.istic.ac.cn/t-abid/304/default.aspx.

[2]黃曉斌,羅海媛.從會(huì)議征文看近五年我國(guó)情報(bào)學(xué)研究熱點(diǎn)的發(fā)展[J].情報(bào)理論與實(shí)踐,2018,41⑼:31-36.

[3]李文蘭,楊祖國(guó).中國(guó)情報(bào)學(xué)期刊論文關(guān)鍵詞詞頻分析[J].情報(bào)科學(xué),2005(1):68-70,143.

[4]劉小慧,李長(zhǎng)玲,馮志剛.基于改進(jìn)的TF*IDF方法分析學(xué)科研究熱點(diǎn)一以情報(bào)學(xué)為例[J].情報(bào)科學(xué),2017, 35(7):82-87.

[5]金宸,李維華,姬晨,等.基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J].中文信息學(xué)報(bào),2018,32⑵:29-37.

[6]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1423-1436.

[7]余凱,賈磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.

[8]Jie C, Cai C, Yi L. Optimized TF- IDF Algorithm with the Adaptive Weight of Position of Word [C]//. Science and Engi?neering Research Center.Proceedings of 20162nd Internation?al Conference on Artificial Intelligence and Industrial Engi?neering(AIIE2016),2016:4.

[9]武永亮,趙書良,李長(zhǎng)鏡,等.基于TF-IDF和余弦相似度的文本分類方法[J].中文信息學(xué)報(bào),2017,31⑸:138-145.

主站蜘蛛池模板: 国产精品hd在线播放| 久久国产黑丝袜视频| 精品国产免费观看| 欧美激情福利| 日韩欧美网址| 亚洲区一区| 一级一毛片a级毛片| 国产精品人人做人人爽人人添| 亚洲欧美日韩综合二区三区| 全部毛片免费看| 九色免费视频| 亚洲最大福利网站| 日本国产精品一区久久久| 夜夜操天天摸| 欧美翘臀一区二区三区| 91精品啪在线观看国产60岁| 亚洲全网成人资源在线观看| 91欧美在线| 欧美在线伊人| 久久这里只精品热免费99 | 国产另类乱子伦精品免费女| 亚洲狼网站狼狼鲁亚洲下载| 就去色综合| 国产精品尤物在线| 精品久久久久无码| 国产在线小视频| 国产福利在线观看精品| 亚洲第一区在线| 久久人人爽人人爽人人片aV东京热 | 都市激情亚洲综合久久| 国产精品永久久久久| 午夜老司机永久免费看片| 国产精品刺激对白在线| 成人午夜天| 日韩天堂网| 中文字幕永久视频| 日韩123欧美字幕| 老色鬼久久亚洲AV综合| 久久国产av麻豆| 国产成人精品午夜视频'| 91麻豆精品国产高清在线| 中国黄色一级视频| 在线观看国产精品第一区免费| 99久久亚洲精品影院| 永久天堂网Av| 91精品国产麻豆国产自产在线 | 这里只有精品在线播放| 夜夜操国产| 国产精品久久久久久久久| 国产嫖妓91东北老熟女久久一| 亚洲一区无码在线| 91久久国产热精品免费| 日韩欧美一区在线观看| 在线观看免费黄色网址| 爽爽影院十八禁在线观看| 国产免费久久精品44| 日韩中文精品亚洲第三区| 国产精品吹潮在线观看中文| 天堂成人av| 情侣午夜国产在线一区无码| 人妻一区二区三区无码精品一区| 亚洲丝袜第一页| 露脸一二三区国语对白| 国产精品一区在线麻豆| 热热久久狠狠偷偷色男同| 二级特黄绝大片免费视频大片 | 亚洲一区二区三区中文字幕5566| 国产美女91呻吟求| 亚洲欧洲国产成人综合不卡| 国产免费羞羞视频| 老熟妇喷水一区二区三区| 在线免费a视频| 国产精品私拍在线爆乳| 91麻豆精品国产高清在线| 国产aⅴ无码专区亚洲av综合网| 91探花在线观看国产最新| 久久人体视频| 国产91丝袜| 色综合热无码热国产| 国产黄网永久免费| 中文字幕2区| 日本高清视频在线www色|