吉久 明施 陳煒 李楠
摘要:[目的/意義]本文探討挖掘技術和應用間的關聯關系,便于把握技術的目標應用場景和了解應用需求的可選技術方案,為技術轉化提供基礎。[方法/過程]首先,建立基于改進GloVe詞向量的“技術——應用”發現模型,提出改進詞向量的算法;然后,以機器學習技術為例,獲取該領域學術論文文摘數據,預處理后建立訓練文本集合,再使用改進GloVe模型訓練獲得詞向量;最后,對詞向量聚類獲得“技術”和“應用”類詞匯集,通過共現獲得兩者之間的關聯并分析。[結果/結論]實驗結果表明,本文改進GloVe模型后訓練的詞向量性能獲得提升,聚類效果好,最終實現“技術——應用”的關聯分析。
關鍵詞:詞向量;GloVe模型;文本聚類;共現分析
DOI:10.3969/j.issn.1008-0821.2019.04.002
〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821(2019)04-0013-10
Research on“Application-Technology”Discovery Based on
GloVe Word Representation
Ji JiumingShi ChenweiLi NanKang Jian
(Institute of Science and Technology Information,East China University of Science and Technology,
Shanghai 200237,China)
Abstract:[Purpose/significance]The purpose of this paper was to mine the relationship between applications and technologies,and to know applications of technologies and optional technologies of applications,and provide the base for technology transformation.[Method/Process]Firstly,established an“application-technology”discovery model based on improved GloVe word vector and improved the word vector training algorithm.Then,collected academic literature abstracts in the field of machine learning,built the training text set after preprocessing,and used the improved GloVe model to obtain the word vector;finally,clustered the word vector to obtain the“application”and“technology”vocabulary sets,and acquired the relationship between them to analyze the cooccurence.[Result/Conclusion]The experimental results showed that the performance of the word vector obtained by the improved GloVe model was better,the clustering effect was good,and the correlation analysis of“application-technology”was finally realized.
Key words:word vector;GloVe model;text clustering;co-occurrence analysis
在人類歷史發展的長河中,“技術”從來都是為“應用”服務的,沒有應用需求,就沒有技術。但由于“技術”開發往往存在一定的門檻,很難一蹴而就,因此存在技術迭代現象,針對同一“應用”會開發多項“技術”(本文對于同一“技術”的各種升級改造視為不同的技術,如,同一種人臉識別算法的不同優化或各種不同的人臉識別算法)。因此,“技術”與“應用”不僅只有一一對應的關系。某項“技術”可以同時滿足多項“應用”需求,如深度學習;還有一些“技術”最初只是為了滿足少數的“應用”需求而開發,后來衍生出更多的應用,如互聯網起初僅用于軍事,逐漸成為改變世界的技術。
對于專業技術人員而言,如果某項較復雜的“應用”僅有少量“技術”與之對應,則表明該項“應用”的技術機會較多。而對于技術投資方而言,一對一或多對一的“技術——應用”關系分別表明某項“應用”市場的成熟度不夠或者基本成熟;為滿足少數人的“需求”而開發的“技術”往往預示著該應用當前為高端市場;處于初期且能同時滿足多項“應用”需求的某項“技術”的投資價值必然很高。對于應用需求方而言,如果存在多項技術可供選擇,則能降低技術選擇成本,最大程度避免因技術缺陷導致的損失。因此挖掘各類文獻(主要包括學術論文和專利文獻)中的“技術”與“應用”對應關系,可以為技術研究和投資提供相應的情報。挖掘此類關聯關系的難點主要在于:“技術”和“應用”的文本距離有時候并非很近,且自然語言表達隨意,存在名稱不規范的情況,很難采用常規的“規則”匹配法。
因此,本文擬采取以下方案挖掘學術文獻文本中的“技術”與“應用”關聯:先將文獻文本向量化,再聚類找出其中的“技術”和“應用”詞匯,最后使用共現分析法發現它們的關聯關系。本文以機器學習領域為例,驗證改進算法的有效性,并做了“技術——引用”發現的實證。
1文獻綜述
盡管“技術——應用”關聯分析的研究價值巨大,但目前已有的“技術——應用”關聯研究較少,最相關的是“技術——功效”的關聯分析研究。陸佳偉等[1]引入技術——功效導向的領域本體規范輔助完成技術功效圖,其中,功效詞與技術詞由人工整理獲得。翟東升等[2]使用TF-IDF和模式匹配的方法實現技術和功效詞的抽取,然后通過數據倉庫技術實現技術功效圖的挖掘和對具體專利進行識別。許海云等[3]通過專家指導的方式獲得技術主題和功效主題,進而通過2模網絡分析識別相似的核心專利或核心簇。Cheng T Y[4]使用國際專利分類號劃分技術特征詞,進而構建技術功效矩陣。Kuotsan[5]以UPC專利分類中的名稱作為技術名,待解決的技術問題作為功效詞,提出一種基于大數據和云平臺的技術功效矩陣構建框架。這些研究以技術及技術的功效作為研究對象,通過構建技術功效共現矩陣實現關聯分析。
本文的“技術——應用”關聯分析與“技術——功效”分析類似,也可以使用共現矩陣實現關聯,但兩者也存在不同。從定義上看,“應用”相比“功效”更宏觀、更抽象。從詞的表述上看,應用詞一般為獨立詞的組合,如“語音識別”、“機器翻譯”,而功效詞的表述更多為短句,如“提高穩定性”、“安裝操作方便”等,這也使得應用詞的提取與功效詞不同,前者的抽取更自動靈活,后者需要更多的人工參與。從關注重點來看,“技術——功效”的分析重在評估技術在功效上的差異,而本文研究的“技術——應用”重在發現技術與應用之間的關聯。綜上所述,“技術——功效”需要保證共現詞的有效性和準確性,人工參與度高,構建的共現矩陣維度較小;而“技術——應用”的目的是盡可能發現更多共現詞間的關聯,需要構建更大的共現矩陣,對自動化的要求高。因此,對于本文的研究,自動化處理相關的詞向量技術和聚類方法是較好的選擇。
本文研究的對象形式是文本。文本是一類特殊的符號數據,使用獨立字符的自然語言表示。自然語言是經過人類抽象處理的數據,含有豐富的語義信息。最初使用基于邏輯、規則及本體等符號化的方式處理,但由于歧義性和可變性等特點,逐漸被基于統計的機器學習方法替代。早期的機器學習處理算法有感知機[6]、線性支持向量機[7]、邏輯回歸[8]等,但都在稀疏特征向量上訓練,容易陷入維數災難[9]。從20世紀90年代開始,隨著計算能力的發展,統計語言模型出現并受到關注,并逐漸衍生出詞向量模型,如C&W[10],CBOW[11],Skip-gram[11],GloVe[12]等。
聚類是一種非監督式的機器學習方法[14],是將對象集合分成由類似對象組合成多個類的過程。其依據的假設是同類之間的對象相似度高,不同類之間的對象相似度低。文本聚類,是一種將文本集合自動歸類的過程[15]。由于沒有訓練過程,也無須對數據預先標注,操作過程簡單且高效,因此受到廣泛使用。文本聚類通過相似度的差異對文本分類,將相似的文本歸并到一起。常用的聚類算法有基于劃分的方法(如K-means[16]),基于密度的方法(如DBSCAN[17]),基于層次的方法(如Birch[18])等。文本聚類主要針對非結構化文本,需要考慮文本間的語義關聯等隱含信息的影響,首要任務是將無結構的自然語言轉化為可計算的特征文本,即向量化表示。由于詞向量的訓練簡單,效果好,目前已成為文本聚類常用的向量化方法。
詞向量與文本聚類的結合使用在國內外已有較多的案例。夏天[19]通過Word2vec將維基百科中文數據轉化為詞向量并聚類,將其詞向量的聚類結果應用到TextRank的關鍵詞抽取中,改善了抽取效果。林江豪等[20]將新聞和微博文本通過Word2vec得到詞向量的模型,并用K-means聚類實現新聞評論話題的抽取,獲得了較好的實時話題分析研究結果。章程志等[21]將在線用戶評論轉化為詞向量表示,并對候選屬性詞集聚類,最后得到細粒度的產品屬性集。Nikfarjam等[22]將社交媒體中的非正式文本轉化成詞向量,再通過文本聚類的方式提取藥物的不良反應以測試公共衛生的監測水平。Mac Kim等[23]將Twitter中的個人資料文本集向量化后聚類,并提出一種機器學習的方法檢測探查用戶的社會角色。
這些方法都是以Word2vec的CBOW或Skip-gram模型對文本進行訓練,獲得詞向量后進行文本聚類,為下一步研究做準備或直接分析聚類結果獲得結論。這兩個模型使用了上下文窗口內的文本,精簡了神經網絡的隱藏層,有較高的運行效率,可以在更大規模的語料上訓練詞向量,但本身對語義捕獲的能力也有所降低[24]。相比之下,GloVe融入了全局的先驗統計信息,可以加快模型的訓練速度,又可以控制詞的相對權重,更加靈活[25]。
綜上所述,本文以學術論文為研究文本,使用詞向量和文本聚類相結合的方式獲取“技術”和“應用”詞匯,再通過共現分析法挖掘“技術——應用”關聯關系。本文以可操控性強、靈活度高的GloVe詞向量模型為基礎,提出一種針對本研究改進的算法。該算法通過優化詞向量表示,獲得更好的“技術”和“應用”詞聚類抽取,達到改進“技術——應用”的發現效果。
2研究方法
本文建立了基于改進GloVe詞向量的“技術——應用”發現模型,其研究流程如圖1所示,分為4個階段。在預處理階段,使用學術論文文摘作為數據來源,分離獲得標題、摘要、關鍵詞文本,并結合關鍵詞提取的專業詞表進行預處理(分詞,停用詞清洗,詞典規范化),獲得標題和摘要文本集;在WS-GloVe模型構建階段,使用新算法改進GloVe模型優化訓練的詞向量,然后進行相似度評價;在K-means聚類階段,使用輪廓系數法獲得最佳分類數K,并進行聚類性能評價和結果分析,再提取出“技術”和“應用”類詞匯;在“技術——應用”發現階段,以預處理后的摘要集為文本對兩類詞共現表示,并使用Gephi進行網絡關聯可視化分析。
212文本位置結構差異
目前,詞向量模型在應用時習慣于“一視同仁”,即僅考慮文本表達的信息,忽視文本的一些附屬信息,如文本所處的位置。顯而易見,詞語(指有意義的實詞)出現在標題和正文中的重要性不同。文章不同位置結構的用詞是作者思考態度的體現,往往表現為重要的詞會被安排在更突出的位置。對于正式的規范文本,如法律、專利、標準、論文文獻,這種位置結構的權重差異現象更為突出。
本文以學術論文為研究文本。詞向量模型訓練要求是連續的長文本,論文中涉及研究內容的長文本結構一般有標題、摘要和正文,位置結構權重逐級遞減。正文的篇幅大,但核心內容少、噪音多,且獲取有難度,故本文研究不使用正文。摘要規范性強、篇幅小,是論文的核心內容集合。而對于標題,通過閱讀發現,將應用場景和重要技術的詞匯寫在標題中是普遍現象,如“基于模糊支持向量機的軟件缺陷預測技術[26]”,“基于LDA模型的交互式文本主題挖掘研究——以客服聊天記錄為例[27]”等。標題文本中出現的“技術”和“應用”詞匯比摘要中出現的相應詞匯更加重要,若將這種隱含的重要性信息添加到詞向量模型中,就能獲得優化的詞向量。
213改進算法
本文在GloVe模型的基礎上,提出一種基于文本位置結構差異的改進算法,獲得加權改進后的新模型WS-GloVe(Weighted-Structure GloVe)。在本實驗中使用了標題和摘要兩種結構差異性文本。根據GloVe模型的原理,需先構建詞共現矩陣和計算全局詞頻。因此,可通過改變詞頻統計方式來調整權重,從而達到加權改進的目的。具體過程如下:
中心詞i語境下窗口內所有詞的共現次數,在摘要文本中如式(6)所示,在標題文本中如式(7)所示,N為詞表中詞的數量。在本研究中,以核心文本數據摘要集的詞作為詞表源,忽略在標題集中出現而摘要集中沒有的詞。
22K-means聚類
K-means[16]算法是典型的基于距離的聚類算法,以數據點到質心距離作為優化的目標函數,利用函數求極值的方法得到迭代運算的規則。該算法基于k個初始質心或均值的初始條件來確定類的數量,采用誤差平方和(式(13))作為聚類準則函數。
SSE=∑ki=1∑xj∈Si(xj-ui)2(13)
其算法過程如下:
1)從N個數據點中隨機選取k個作為質心。
2)對剩余的數據點測量其到每個質心的距離,并分配至距離最近的簇。
3)設置簇內所分配的數據點的均值為新質心。
4)迭代2~3步驟直到新的質心不再變化或小于閾值,結束迭代。
3實驗及評價
31實驗環境
本文的實驗平臺為Ubuntu 1604 TLS(64位),8G內存,128G SSD硬盤,主頻32GHz。
編程語言為Python35,分詞處理使用了哈工大LTP工具包[28],WS-GloVe模型實現是在作者提供的GloVe工具包[29]的基礎上修改而成,相似度評價和聚類實現使用了Gensim和Scikit-learn包,共現網絡可視化使用了Gephi軟件。
32實驗數據及預處理
本文選擇CNKI的期刊數據庫為數據來源,限定主題詞“機器學習”進行主題檢索,從2000年至檢索時間2018年9月30日為止,檢索得到的相關發文量總數為5 389篇。通過人工識別和技術輔助,剔除不符合實驗要求的文摘數據后,共獲4 957篇。
根據CNKI文摘數據的標識符:標題(T1),摘要(AB),關鍵詞(K1),通過編程自動提取各自對應的文本至標題集、摘要集和關鍵詞集。利用關鍵詞集篩選后獲得專業詞典,調用哈工大LTP軟件包結合專業詞典對標題集和摘要集分詞,去除停用詞等預處理后作為標題文本語料與摘要文本語料待用。
33相似度評價
算法是機器學習技術中的核心部分,算法名稱是技術交流中的信息量較多、出現頻率較高的詞匯。因此,本文在測試中選取20個常用的算法名稱詞匯進行相似詞的相似度計算,如表2所示。本文使用CBOW,GloVe,WS-GloVe詞向量模型分別進行詞向量訓練,并使用余弦相似度進行度量,從側面評價詞向量表示的效果。
通過表3可以發現,CBOW的余弦值均值均大幅高于其余兩者,但方差較大,范圍較小,準確率較低。通過對CBOW的其他詞向量余弦值測試比較,發現所有相關或不相關的詞匯的相似度都有很接近的余弦相似度,且相似詞的范圍極小,區分度差。本文分析,由于CBOW模型依賴于上下文窗口內的詞匯建立,需要大量的文本確定相似程度,而本文的數據量較小,導致詞匯間的模式不清晰,對CBOW模型影響較大。GloVe及其改進模型是結合上下文和全局詞頻統計建立的,在較少的文本數據下,相比能獲得更好的效果。實驗結果表明,WS-GloVe模型與GloVe模型相比,各個指標都獲得了提升,相似詞之間的相似性更高,區分度更好,在整體的性能上有所提升。
34K-means聚類
341選擇最佳K值
K-means聚類算法需預先確定分類數K,因此選擇恰當的K值能帶來較好的聚類效果。本文使用輪廓系數法輔助選擇K值。輪廓系數的數值越大,分類效果越好。理論上需要選擇輪廓系數最大時的K值,從圖2看出,當k=3時有較大的輪廓系數,但是此時的SSE也較大(SSE越小,分類效果越好),結合兩者來看,當k=5時,SSE較小且下降趨緩,輪廓系數與k=4時相差不大,且k=6時降幅明顯。綜合比較分析,本文選擇k=5作為類簇數。
342聚類性能評價
本文選擇外部指標對聚類效果進行評價[30]。根據聚類的外部指標的要求,需先構建參考模型分類,再根據參考分類與聚類結果進行比較獲得4個變量值,最后獲得指標的結果。如果參考模型有m個詞匯,需構建樣本對數量為C2m。根據語料領域和特點,結合專家意見,給定參考模型的詞及分類
圖2SSE和輪廓系數
為性能評價。從圖中簇1、3、4的集中度以及對于聚類的性能指標綜合來看,對這3類詞匯的推測合理。圖3中上方框選的點集為類簇3,下方的為類簇1,對這兩類簇詞提取,分別篩選得到所需的“技術”和“應用”類詞匯。
35“技術——應用”發現
通過聚類提取獲得了“技術”類和“應用”類的詞匯,經過篩選規范后整理成技術詞表和應用詞表。然后使用經過預處理的摘要文本集作為共現文本,編寫共現程序構建“技術——應用”共現詞矩陣,最后使用Gephi進行可視化。由于詞節點眾多,這里篩選去除共現頻次在2以下的詞節點,并經過調整后獲得結果,如圖4所示。藍色節點為技術方法,黃色節點為應用場景,兩者之間的節點通過紅色的邊相連,頻次越大邊越寬。出于謹慎和技術的綜合考慮,未將同一技術的中英文進行合并,需在最后整理分析階段進行處理。
從圖4可知,通過Gephi的可視化,可以直觀地看到“技術”和“應用”之間的關聯。中心部分的邊頻次權重大,節點應用比較寬泛,如“人工智能”,“數據分析”等;邊緣的邊頻次小,節點應用比較具體,如“圖像識別”、“異常檢測”、“垃圾郵件”等。從圖中提取幾個應用場景為中心的子網,得到這些應用場景中所使用的技術方法,如表7所示;提取以技術方法為中心的子網,得到這些技術的應用場景,如表8所示。
4結束語
本文使用機器學習技術學術論文文摘作為研究文本,以GloVe詞向量模型為基礎,提出一種基于文本位置結構差異的加權改進算法,并用改進后的WS-GloVe模型獲得詞向量后,聚類提取“技術”和“應用”類詞匯,最后使用共現方法對“技術——應用”發現進行關聯分析及可視化。經過實驗表明,在使用改進方法后,詞向量的相似度測評效果更佳,聚類效果好,可以較好地分離出“技術”和“應用”詞,最后實現“技術——應用”的共現網絡與關聯分析。
目前,本文在較小文本數據量的情況下進行實驗,下一步工作需要增加文本量,提升詞向量效果。而且,為控制詞匯數量,本文使用簡單規則篩除了較多的詞匯,下一步需細化規則保留更多的詞匯,發現更多的“技術——應用”關聯,為技術轉化提供應用場景的建議。在“技術——應用”的發現部分,本文僅進行了簡單的挖掘分析,下一步可以借助圖論網絡相關算法進一步進行分析,發現更多的潛在關聯關系。
參考文獻
[1]陸佳偉,慎金花,張更平,等.基于領域本體的專利技術-功效文本挖掘方法——以MOCVD技術為例[J].價值工程,2018,37(2):245-248.
[2]翟東升,蔡力偉,張杰,等.基于專利數據倉庫的技術功效圖挖掘方法研究——以3D打印技術為例[J].現代圖書情報技術,2015,(Z1):131-138.
[3]許海云,方曙.基于專利功效矩陣的技術主題關聯分析及核心專利挖掘[J].情報學報,2014,33(2):158-166.
[4]Cheng T Y.A New Method of Creating Technology/Function Matrix for Systematic Innovation Without Expert[J].Journal of Technology Management & Innovation,2012,7(1):18-27.
[5]Kuotsan.A Quick Approach to Get a Technology-function Matrix for an Interested Technical topic of Patents[J].International Journal of Arts and Commerce,2013,2(6):85-96
[6]孟秀萍,蘇工兵,吳奇明,等.基于Halcon多層感知機的織物色差檢測研究[J].棉紡織技術,2018,46(5):60-65.
[7]易校石.線性可分支持向量機的算法及應用[D].重慶:重慶師范大學,2018.
[8]Wagner H,Duller C.Bayesian Model Selection for Logistic Regression Models with Random Intercept[J].Computational Statistics & Data Analysis,2012,56(5):1256-1274.
[9]Rumelhart D E,Hinton G E,Williams R J.Learning Representations By Back-propagating Errors[J].Nature,1986,323(6088):399-421.
[10]Collobert R,Weston J.A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning[C]//International Conference on Machine Learning.ACM,2008:160-167.
[11]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].arXiv:1301.3781,2013.
[12]Pennington J,Socher R,Manning C.Glove:Global Vectors for Word Representation[C]//Conference on Empirical Methods in Natural Language Processing,2014:1532-1543.
[13]Kevin Lund,Curt Burgess,and Ruth Ann Atchley.Semantic and Associative Priming in High-dimensional Semantic Space[J].In Proceedings of the 17th Annual Conference of the Cognitive Science Society,1995,17:660-665.
[14]李秀霞,邵作運.“密度——距離”快速搜索聚類算法及其在共詞聚類中的應用[J].情報學報,2016,35(4):380-388.
[15]Sebastiani F.Machine Learning in Automated Text Categorization[J].ACM Computing Surveys,2002,34(1):1-47.
[16]Hartigan J A,Wong M A.Algorithm AS 136:A K-Means Clustering Algorithm[J].Journal of the Royal Statistical Society,1979,28(1):100-108.
[17]Ester M.A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[J].In Kdd,1996,96(34):226-231.
[18]Feng X J,Pan Q.The Algorithm of Deviation Measure for Cluster Models Based on the FOCUS Framework and BIRCH[C]//International Symposium on Intelligent Information Technology Application.IEEE Xplore,2008:44-49.
[19]夏天.詞向量聚類加權TextRank的關鍵詞抽取[J].數據分析與知識發現,2017,1(2):28-34.
[20]林江豪,周詠梅,陽愛民,等.結合詞向量和聚類算法的新聞評論話題演進分析[J].計算機工程與科學,2016,38(11):2368-2374.
[21]周清清,章成志.在線用戶評論細粒度屬性抽取[J].情報學報,2017,36(5):484-493.
[22]Nikfarjam,Azadeh,et al.Pharmacovigilance from Social Media:Mining Adverse Drug Reaction Mentions Using Sequence Labeling with Word Embedding Cluster Features[J].Journal of the American Medical Informatics Association,2015,22(3):671-681.
[23]Mac Kim,Sunghwan,Stephen Wan,and Cécile Paris.Detecting Social Roles in Twitter.Proceedings of The Fourth International Workshop on Natural Language Processing for Social Media,2016:34-40.
[24]來斯惟.基于神經網絡的詞和文檔語義向量表示方法研究[D].北京:中國科學院大學,2016.
[25]佚名.理解GloVe模型[EB].blog.csdn.net/u014665013/article/details/79642083,2018-03-21.
[26]程元啟,姚淑珍,譚火彬,等.基于模糊支持向量機的軟件缺陷預測技術[J].計算機工程與設計,2018,39(9):2753-2757.
[27]李莉,林雨藍,姚瑞波.基于LDA模型的交互式文本主題挖掘研究——以客服聊天記錄為例[J].情報科學,2018,36(10):64-70.
[28]劉挺.語言云(語言技術平臺云)[EB].http://www.ltp-cloud.com,2018-08-09.
[29]Jeffrey Pennington,Richard Socher,Christopher D.Manning.GloVe:Global Vectors for Word Representation[EB].https://nlp.stanford.edu/projects/glove/,2018-09-05.
[30]周志華.機器學習[M].北京:清華大學出版社,2016:198-199.
[31]Kaufman L,Rousseeuw P J,Massart D L,et al.Least Median of Squares:A Robust Method for Outlier and Model Error Detection in Regression and Calibration[J].Analytica Chimica Acta,1986,187(00):171-179.
(責任編輯:陳媛)