基于TF-IDF矩陣方法的學(xué)科研究熱點(diǎn)提取

2021-03-12 14:06:07李一平

甘肅科技縱橫 2021年12期

李一平

摘要：目的：以信息計(jì)量學(xué)為基礎(chǔ)的學(xué)科研究熱點(diǎn)提取多以作者自行定義的關(guān)鍵詞為研究對(duì)象，關(guān)鍵詞個(gè)數(shù)較隨意且?guī)в姓撐淖髡叩闹饔^猜想。故提出一種基于TF-IDF矩陣結(jié)合高權(quán)重詞出現(xiàn)頻率的方法，提取學(xué)科研究熱點(diǎn)。方法：釆集2017年度《現(xiàn)代情報(bào)》的載文內(nèi)容，對(duì)每篇文章進(jìn)行全文分詞，生成詞向量空間，創(chuàng)建TF-IDF權(quán)重矩陣。統(tǒng)計(jì)高權(quán)重詞的出現(xiàn)頻率提取研究熱點(diǎn)。結(jié)論：通過與用信息計(jì)量學(xué)方法得到的結(jié)果進(jìn)行對(duì)比，證明該方法有效且客觀。

關(guān)鍵詞：研究熱點(diǎn);TF-IDF矩陣;全文分詞

中圖分類號(hào)：G250文獻(xiàn)標(biāo)志碼：A

0引言

研究熱點(diǎn)是反映某一學(xué)科發(fā)展規(guī)律和特征的重要指標(biāo)，有助于把握該學(xué)科領(lǐng)域發(fā)展的軌跡和趨勢(shì)。情報(bào)學(xué)是研究信息、知識(shí)和情報(bào)的產(chǎn)生、傳遞、利用規(guī)律，運(yùn)用現(xiàn)代科學(xué)技術(shù)有效地管理和利用信息、知識(shí)和情報(bào)的_門交叉學(xué)科E。對(duì)情報(bào)學(xué)研究熱點(diǎn)及其變化過程的分析將有助于從整體上把握情報(bào)學(xué)發(fā)展動(dòng)向，促進(jìn)情報(bào)學(xué)與其他學(xué)科的融合發(fā)展。

目前，國(guó)內(nèi)學(xué)者對(duì)情報(bào)學(xué)研究熱點(diǎn)的探究主要從不同類型的論文入手，比如分析期刊論文、學(xué)位論文、會(huì)議論文，從不同的角度對(duì)情報(bào)學(xué)熱點(diǎn)進(jìn)行剖析⑵。研究?jī)?nèi)容隨著新興技術(shù)的更新而不斷完善和發(fā)展，開始關(guān)注知識(shí)層面的數(shù)據(jù)管理和挖掘，更注重知識(shí)本身的潛在價(jià)值，同時(shí)也開始關(guān)注科技文獻(xiàn)、科技數(shù)據(jù)等的內(nèi)容發(fā)現(xiàn)，以及情報(bào)學(xué)教育的探索。研究方法也是多種多樣，具體來說，多是將定性與定量相結(jié)合，還包括很多工具和手段，諸如知識(shí)圖譜、聚類工具、高被引分析和機(jī)器學(xué)習(xí)方法等。

在定量的研究方法中，通過關(guān)鍵詞進(jìn)而揭示研究目的是眾多研究學(xué)者青睞的研究方式。一方面關(guān)鍵詞是表達(dá)文獻(xiàn)主題概念的自然語言詞匯'氣其能夠高度概括文章的核心主旨和作者的主觀思想。關(guān)鍵詞詞頻的變化波動(dòng)和社會(huì)現(xiàn)象、學(xué)科發(fā)展存在著密不可分的聯(lián)系。通過分析文獻(xiàn)中存在的大量關(guān)鍵詞，可在一定程度上揭示學(xué)科發(fā)展的總體特征和內(nèi)容特點(diǎn)，了解學(xué)術(shù)研究的發(fā)展脈絡(luò)及發(fā)展動(dòng)向，關(guān)鍵詞的變化也是前沿?zé)狳c(diǎn)的另_種表現(xiàn)形式。但現(xiàn)有研究中仍然存在不足之處，一是關(guān)鍵詞無法準(zhǔn)確概括文本核心內(nèi)容，二是關(guān)鍵詞的數(shù)量也會(huì)對(duì)分析文章起到重要作用，簡(jiǎn)單地將某個(gè)階段文獻(xiàn)中某個(gè)關(guān)鍵詞的頻次累加或進(jìn)行共現(xiàn)分析，顯然對(duì)于研究結(jié)果的結(jié)論會(huì)造成不同程度的影響，具有一定的局限性'氣

基于此，本論述著眼于期刊全文內(nèi)容，不依賴題錄信息進(jìn)行關(guān)鍵詞特征提取。首先對(duì)文章全文進(jìn)行分詞，去除無意義的停用詞，構(gòu)建所有數(shù)據(jù)樣本的詞袋模型。然后計(jì)算每篇文章詞語的TF-IDF權(quán)重，生成TF- IDF矩陣。最后提取高TF-IDF權(quán)重詞匯并結(jié)合出現(xiàn)頻率，得到研究熱點(diǎn)語詞。

1相關(guān)理論與技術(shù)

1.1中文分詞

中文分詞是指將連續(xù)的中文字符串按照一定的規(guī)范分割成詞序列的過程'可。不同于拉丁語系用天然的空格來分隔每一個(gè)單詞，漢語的“詞”和“詞組”界限很模糊，中文語言的特殊性無疑為分詞的技術(shù)增加了難度。例如，目前關(guān)于字或詞還沒有一個(gè)公認(rèn)的、權(quán)威的標(biāo)準(zhǔn);歧義詞的切分也需要考慮不同語境;未登錄詞更是加大了識(shí)別、分詞的難度。因此在進(jìn)行中文文本處理的過程中，首先需要把中文文本切分成一個(gè)一個(gè)的詞或者詞組，這樣的技術(shù)成為中文分詞技術(shù)面。中文分詞是中文文本的自然語言處理任務(wù)的基礎(chǔ)，分詞結(jié)果直接影響到自然語言處理任務(wù)的好壞5。

目前常見的中文分詞方法主要有基于規(guī)則和詞表的方法與基于統(tǒng)計(jì)模型的中文分詞方法，現(xiàn)階段深受學(xué)者青睞的分詞Python庫(kù)主要有：jieba、SnowNLP、TH- ULAC、NLPIR，NLTK和LTP等。上述幾種庫(kù)各有優(yōu)缺點(diǎn)，本文將采用jieba進(jìn)行分詞處理分析。其核心算法主要有：（1）基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖;（2）采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑，找出基于詞頻的最大切分組合;（3）對(duì)于未登錄詞，采用了基于漢字成詞能力的HMM模型，使用了 Viterbi算法。

此外.jieba庫(kù)還有如下特點(diǎn)：（1）支持三種分詞模式：精確模式，試圖將句子最精確的切開，適合文本分析;全模式，把句子中所有的可以成詞的詞語都掃描出來，速度非常快，但是不能解決歧義;搜索引擎模式，在精確模式的基礎(chǔ)上，對(duì)長(zhǎng)詞再次切分，提高召回率，適合用戶搜索引擎分詞;（2）支持繁體分詞;（3）支持自定義詞典;用戶可以指定自己自定義的領(lǐng)域詞典，以便包含jieba詞庫(kù)里沒有的詞。雖然jieba有新詞識(shí)別能力，但是自行添加的新詞可以保證更高的正確率。同時(shí)，自定義的字典還支持詞頻和詞性的設(shè)置。

1.2詞頻率變換矩陣（TF-IDF）

TF-IDF對(duì)于數(shù)據(jù)分析師和大部分程序員來說應(yīng)該都不陌生，它是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)，它加權(quán)的各種形式通常會(huì)被各大搜索引擎所應(yīng)用，作為文件與用戶利用之間相關(guān)程度的衡量或評(píng)級(jí)，比較常用的就是計(jì)算查詢關(guān)鍵詞所對(duì)應(yīng)的向量和文檔所對(duì)應(yīng)的向量之間的相關(guān)度。TF-IDF實(shí)際上是TF與IDF的乘積[12]。

特征項(xiàng)頻率TF，也稱短期頻率，是指某個(gè)詞在某個(gè)文檔中出現(xiàn)的總次數(shù)與該文檔的詞總數(shù)的商，用于衡量該詞在該文檔中的出現(xiàn)頻率。因?yàn)槊總€(gè)文檔總詞數(shù)差距較大，因此一個(gè)詞在某個(gè)文檔中出現(xiàn)的次數(shù)可能遠(yuǎn)大于另一個(gè)文檔，所以詞頻通常就是一個(gè)詞出現(xiàn)的次數(shù)除以文檔的總長(zhǎng)度，相當(dāng)于做了一次歸一化。TF 的特點(diǎn)在于，要想有效地反映某個(gè)字或詞在文檔中的頻率，就必須讓它在該文檔中出現(xiàn)的次數(shù)足夠多且在其他文檔中出現(xiàn)頻率小。但是，如果只使用TF可能會(huì)產(chǎn)生以下問題：第一，有些字或詞在文檔中可能會(huì)很自然地反復(fù)出現(xiàn)，比如連詞、語氣詞、指示代詞等，這些詞大多起著連接語句的作用，是保持語言連貫不可或缺的部分，甚至許多關(guān)鍵詞中都有包含，會(huì)出現(xiàn)在許多文檔中，這時(shí)TF就難以幫助我們區(qū)分文檔的相關(guān)度;第二，若搜索一個(gè)關(guān)鍵詞，它在所有文本中的TF值都高，那么該關(guān)鍵詞也就不利于進(jìn)行文本分類。因此，為了解決上述問題，業(yè)界經(jīng)常將特征項(xiàng)頻率TF與反文檔頻率IDF結(jié)合起來使用糾

IDF背后的隱含假設(shè)是：查詢關(guān)鍵詞中的字或詞應(yīng)該相對(duì)于其他字或詞更加重要，而文檔的重要程度，也就是相關(guān)度，與字或詞在文檔中出現(xiàn)的字?jǐn)?shù)成正比。例如，“圖書館”一詞在文檔A中出現(xiàn)了5次，而在文檔B里出現(xiàn)了20次，那么TF計(jì)算就認(rèn)為文檔B可能更相關(guān)。

1.3 Scikit-Learn

Scikit-Leam是基于Python的機(jī)器學(xué)習(xí)模塊，是高級(jí)數(shù)據(jù)分析中非常重要的工具包，同時(shí)也是一款簡(jiǎn)單有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具。一方面，它具有種類豐富的成熟算法和案例，機(jī)器學(xué)習(xí)模型包括支持向量機(jī)、決策樹、樸素貝葉斯、K近鄰等，可分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。它的基本功能主要被分為6個(gè)部分：分類、回歸、聚類、數(shù)據(jù)降維、模型選擇、數(shù)據(jù)預(yù)處理。另一方面，Scikit-Leam能夠以問題為導(dǎo)向，選擇合適的模型進(jìn)行分析，比如分類，即可以訓(xùn)練電腦識(shí)別不同的圖片;線性回歸可以用來預(yù)測(cè)某一事物的趨勢(shì)走向，非監(jiān)督學(xué)習(xí)則是讓計(jì)算機(jī)自己“思考”數(shù)據(jù)的不同，從而形成分類標(biāo)準(zhǔn)。本論述主要應(yīng)用Scikit-Leam來生成TF- IDF矩陣。

2數(shù)據(jù)來源與分析模型

2.1數(shù)據(jù)來源

本論述選取《現(xiàn)代情報(bào)》2017年度的載文作為數(shù)據(jù)來源，通過自己編寫的Python腳本和瀏覽器測(cè)試框架 Selenium工具從中國(guó)知網(wǎng)上爬取上述文獻(xiàn)。同時(shí)為了提高精度，爬取過程中過濾文章大小標(biāo)題、中英文摘要、作者簡(jiǎn)介、頁眉頁腳標(biāo)注以及參考文獻(xiàn)等內(nèi)容，只保留文章的正文段落內(nèi)容，然后將爬取到的內(nèi)容以 TXT格式文本存儲(chǔ)，具體形式如圖1所示。最后剔除通知、簡(jiǎn)訊、評(píng)論等不相關(guān)的非學(xué)術(shù)文獻(xiàn)，共計(jì)得到268篇情報(bào)學(xué)研究相關(guān)文獻(xiàn)。

2.2分析模型

本論述的分析模型與一般的文本分析框架無異，主要是：（1）文本預(yù)處理，先將文章進(jìn)行分詞，然后去除停用詞，生成每篇文章的核心詞組;（2）特征提取，匯總每篇文章的核心詞，構(gòu)建整個(gè)分析數(shù)據(jù)的詞袋，計(jì)算每個(gè)詞的TF-IDF權(quán)重值;（3）構(gòu)建TF-IDF矩陣，根據(jù)TF- IDF權(quán)重值和詞向量的頻率進(jìn)行分析，得出研究熱點(diǎn)。實(shí)驗(yàn)流程如圖2所示。

3分析過程與分析結(jié)果

3.1文本預(yù)處理

用Python的jieba工具將上述采集的268篇文章進(jìn)行分詞，在去除一些常見詞、無意義的語詞的同時(shí)，還引入了情報(bào)學(xué)領(lǐng)域的專有名詞，并設(shè)置了較高的權(quán)重，防止分詞時(shí)將其分割。其中某一篇文章的部分處理結(jié)果如圖3所示。

3.2構(gòu)建TF-IDF矩陣

統(tǒng)計(jì)268篇文章的核心詞匯，得到整個(gè)數(shù)據(jù)集的詞袋共計(jì)21717個(gè)。利用skleam工具計(jì)算出每個(gè)文檔在詞袋中的TF-IDF權(quán)重值。匯總每篇文章的TF-IDF構(gòu)造整個(gè)數(shù)據(jù)集的TF-IDF矩陣，得到一個(gè)268x21717大小的稀疏矩陣。該矩陣中每一行表示一篇文章，每一列表示詞袋中的一個(gè)詞語。生成的TF-IDF矩陣如圖4所示。

3.3分析TF-IDF矩陣

在TF-IDF矩陣的基礎(chǔ)上，先獲取前1000位權(quán)重值較大的數(shù)據(jù)。這些權(quán)重大的數(shù)據(jù)意味著對(duì)應(yīng)的特征詞對(duì)所屬文章、整個(gè)詞向量空間都很重要。截取前20位見表1所列。

權(quán)重大的特征詞不一定會(huì)成為研究熱點(diǎn)，而在多篇文章都出現(xiàn)權(quán)重值較大的同一特征詞時(shí)則可以說明該詞語是眾多研究學(xué)者關(guān)注的熱點(diǎn)。所以，遍歷這1 000個(gè)權(quán)重值較大的特征詞，得出結(jié)果見表2所列。

3.4實(shí)驗(yàn)對(duì)比與解釋

為了驗(yàn)證本文方法的有效性，本論述用信息計(jì)量學(xué)軟件BICOMB對(duì)相同的數(shù)據(jù)進(jìn)行關(guān)鍵詞提取，對(duì)比試驗(yàn)只需要獲取2017年《現(xiàn)代情報(bào)》載文的題錄信息，統(tǒng)計(jì)由作者自行標(biāo)注的關(guān)鍵詞，截取前20位見表3所列。

對(duì)比表2和表3，可以發(fā)現(xiàn)：由全文分詞得出的特征詞基本和作者自行提供的關(guān)鍵詞相契合。但由全文分詞后得到的特征詞更具有客觀性，所以更能體現(xiàn)出當(dāng)前學(xué)科的研究熱點(diǎn)。不過需要指出的是，特征詞的最終成型不僅僅取決于該詞的權(quán)重大小，還與文章分詞的粒度相關(guān)，因?yàn)楸菊撌鲈诜衷~過程中沒有添加任何干預(yù)，所以分詞的粒度都比較小，詞語粒度過小將導(dǎo)致所形成的詞語因被切割而權(quán)重降低。比如“知識(shí)圖譜”在Jieba分詞后被分成“知識(shí)”和“圖譜”兩個(gè)詞語，“圖譜”一詞在TF-IDF的計(jì)算中數(shù)值較小，因此無法得出其是核心關(guān)鍵詞的結(jié)論。同時(shí)，也會(huì)存在全文分詞得到的關(guān)鍵詞在語義層面高度囊括作者提出的關(guān)鍵詞，比如表2中的“數(shù)據(jù)”和表3中的“大數(shù)據(jù)”，甚至也可以解釋為不同的語義層面范疇。

4結(jié)論

本論述通過對(duì)2017年《現(xiàn)代情報(bào)》的載文進(jìn)行全文分詞，利用TF-IDF權(quán)重和高權(quán)重詞的出現(xiàn)頻率得出學(xué)科研究熱點(diǎn)。實(shí)驗(yàn)結(jié)果與用信息計(jì)量學(xué)研究方法得出的結(jié)果大體一致。受中文分詞粒度的影響，研究熱點(diǎn)的語義范疇比信息計(jì)量學(xué)得到的熱點(diǎn)范疇更高。所以本文的下一步工作將對(duì)中文分詞的過程進(jìn)行干預(yù)，引入圖情領(lǐng)域的專有詞匯，保證專有詞匯的成詞率，屆時(shí)再和信息計(jì)量學(xué)方法進(jìn)行對(duì)比。

綜上，基于TF-IDF權(quán)重和高權(quán)重詞的出現(xiàn)頻率得出的研究熱點(diǎn)擺脫了論文作者的主觀臆想，更客觀的得出當(dāng)前學(xué)科的研究熱點(diǎn)。

參考文獻(xiàn)：

[1]中國(guó)科學(xué)技術(shù)信息研究所.情報(bào)學(xué)[EB/OL]， [2018-11- lS].http ：//www.istic.ac.cn/t-abid/304/default.aspx.

[2]黃曉斌，羅海媛.從會(huì)議征文看近五年我國(guó)情報(bào)學(xué)研究熱點(diǎn)的發(fā)展[J].情報(bào)理論與實(shí)踐，2018，41⑼：31-36.

[3]李文蘭，楊祖國(guó).中國(guó)情報(bào)學(xué)期刊論文關(guān)鍵詞詞頻分析[J].情報(bào)科學(xué)，2005（1）：68-70，143.

[4]劉小慧，李長(zhǎng)玲，馮志剛.基于改進(jìn)的TF*IDF方法分析學(xué)科研究熱點(diǎn)一以情報(bào)學(xué)為例[J].情報(bào)科學(xué)，2017， 35（7）：82-87.

[5]金宸，李維華，姬晨，等.基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J].中文信息學(xué)報(bào)，2018，32⑵：29-37.

[6]徐戈，王厚峰.自然語言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào)，2011，34（8）：1423-1436.

[7]余凱，賈磊，陳雨強(qiáng)，等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展，2013，50（9）：1799-1804.

[8]Jie C， Cai C， Yi L. Optimized TF- IDF Algorithm with the Adaptive Weight of Position of Word [C]//. Science and Engi?neering Research Center.Proceedings of 20162nd Internation?al Conference on Artificial Intelligence and Industrial Engi?neering（AIIE2016），2016：4.

[9]武永亮，趙書良，李長(zhǎng)鏡，等.基于TF-IDF和余弦相似度的文本分類方法[J].中文信息學(xué)報(bào)，2017，31⑸：138-145.

甘肅科技縱橫2021年12期

甘肅科技縱橫的其它文章: 胃食管反流病中醫(yī)內(nèi)科治療臨床分析; 腹腔鏡胃穿孔修補(bǔ)術(shù)臨床應(yīng)用研究; 吡嗪酰胺方案治療耐藥性肺結(jié)核病臨床研究; 冠心病患者自我管理研究Meta分析; 中醫(yī)綜合療法保乳治療損傷性乳腺脂肪壞死醫(yī)案1例; 先天性輸精管缺如性無精子癥診治臨床研究