何濤 王桂芳 楊美妮 郭楷模
〔摘要〕[目的/意義]使用科技文獻數(shù)據(jù)庫進行文獻檢索時,檢索式中的關(guān)鍵詞如果不夠全面,將導致檢索結(jié)果查全率較低;檢索式中的關(guān)鍵詞如果一詞多義,則可能向檢索結(jié)果中引入無關(guān)文獻,導致查準率較低。[方法/過程]針對這兩類問題,本文提出使用詞嵌入這一新穎的文本數(shù)據(jù)化表現(xiàn)形式,一方面通過語義分析對檢索關(guān)鍵詞進行擴充從而提高查全率;另一方面通過發(fā)現(xiàn)語義異常點來提高查準率。[結(jié)果/結(jié)論]本文將該方法應用于人工智能領(lǐng)域中深度學習方向上的文獻檢索式構(gòu)建,實驗結(jié)果表明該方法能在一定程度上提高檢索的查全率和查準率。
〔關(guān)鍵詞〕 深度學習;詞嵌入;查準率;查全率;檢查式構(gòu)建
DOI:10.3969/j.issn.1008-0821.2018.11.010
〔中圖分類號〕G2527〔文獻標識碼〕A〔文章編號〕1008-0821(2018)11-0055-04
Construction of Precise Search Queries Based on Word EmbeddingHe Tao1Wang Guifang1Yang Meini2Guo Kaimo1
(1.Wuhan Documentation and Information Center,Chinese Academy of Sciences,Wuhan 430071,China;
2.Department of Mathematics,Naval University of Engineering,Wuhan 430033,China)
〔Abstract〕[Purpose/Significance]During the literature search by using the academic databases,the search query of incomplete keywords would result in a low recall ratio;besides,the search query of polysemous keywords could introduce irrelevant literature and lead to a low precision ratio still.[Method/Process]To solve these two problems,this paper presented a novel manifestation for datafication of texture,namely word embedding:on one hand,to supplement the keywords by semantic analysis so as to improve the recall ratio;on the other hand,to enhance the precision ratio by detecting the semantic outliers.[Result/Conclusion]In this paper,the method was applied to the construction of literature search queries for deep learning in the field of artificial intelligence(AI),and the experimental results suggested that this method could improve the recall ratio and precision ratio to a certain extent.
〔Key words〕deep learning;word embedding;precision ratio;recall ratio;construction of search queries
隨著科學技術(shù)的快速發(fā)展,科技文獻的數(shù)量呈現(xiàn)出爆炸性增長的趨勢,從海量科技文獻中精準地獲取所需知識正變得越來越困難。常用的文獻檢索方法是由領(lǐng)域?qū)<沂止?gòu)建檢索式,然后使用檢索式在科技文獻數(shù)據(jù)庫中進行匹配以獲得檢索結(jié)果。這種情況下檢索式的精準程度直接決定著檢索結(jié)果質(zhì)量的好壞。
領(lǐng)域?qū)<以跇?gòu)建檢索式的過程中容易出現(xiàn)兩個方面的問題。一個是領(lǐng)域?qū)<以跈z索式中所使用的關(guān)鍵詞可能不夠全面,遺漏部分關(guān)鍵詞,導致檢索結(jié)果查全率較低;另一個是檢索式所使用的關(guān)鍵詞由于一詞多義的原因,導致該詞不僅在檢索的目標文獻中使用,也可能在其他非檢索目標文獻中使用,采用這樣的關(guān)鍵詞進行檢索就可能向檢索結(jié)果中引入無關(guān)文獻,導致查準率較低。所以構(gòu)建精準檢索式需要有效解決這兩類問題。
之前的工作使用上下位主題詞、同義詞、近義詞、選擇規(guī)范專業(yè)用語等方法[1-3],或者使用邏輯運算符、位置運算符和通配符來提升檢索結(jié)果的查準率和查全率[4-5]。這些方法大多依賴于已經(jīng)構(gòu)建好的詞表或者領(lǐng)域?qū)<业慕?jīng)驗,缺少對科技文獻數(shù)據(jù)庫全部文獻內(nèi)容的全局把握,而這正是導致以上兩類檢索問題的重要原因。
在大規(guī)模科技文獻摘要的基礎上所生成的詞嵌入(Word Embedding)蘊含著科技文獻數(shù)據(jù)庫中文獻內(nèi)容的全局語義信息,因此可以利用詞嵌入在一定程度上解決上述兩類檢索問題。詞嵌入(Word Embedding)是隨著人工智能領(lǐng)域中深度學習技術(shù)(Deep Learning)的迅猛發(fā)展而產(chǎn)生的一種新穎的文本片段數(shù)據(jù)化的表示方式[6]。本文首先采用深度學習技術(shù),生成蘊含全局科技語義信息的詞嵌入。然后在此基礎上計算出和檢索式中關(guān)鍵詞的科技語義信息最為接近的詞,并將這些詞提供給領(lǐng)域?qū)<易鳛閷υ缄P(guān)鍵詞的補充,以解決查不全的問題。接著在詞嵌入的基礎上,對原始檢索結(jié)果的作者關(guān)鍵詞進行科技語義信息投影,在投影空間中采用異常點識別算法,以識別出與檢索結(jié)果的主體語義差異較大的關(guān)鍵詞,將這些關(guān)鍵詞所對應的文獻提供給領(lǐng)域?qū)<曳治觯越鉀Q查不準的問題。該方法應用于人工智能領(lǐng)域中深度學習方向上的檢索式構(gòu)建,實驗結(jié)果證實該方法能夠在一定程度上有效解決以上兩類問題,輔助領(lǐng)域?qū)<覙?gòu)建出較為精準的科技文獻檢索式。
2018年11月第38卷第11期現(xiàn)代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于詞嵌入語義的精準檢索式構(gòu)建方法Nov.,2018Vol38No111詞嵌入
詞嵌入是隨著深度學習技術(shù)的興起而產(chǎn)生的一種新穎的文本片段數(shù)據(jù)化的表示形式,這種數(shù)據(jù)表示形式蘊含著豐富的語義信息。本文在大規(guī)模科技文獻摘要的基礎上,生成了自然科學常見詞匯的詞嵌入表現(xiàn)形式。
11詞嵌入的語義
把詞、短語或者句子抽象表示為一定的數(shù)據(jù)形式是對文本進行語義計算的基礎。隨著深度學習技術(shù)的全面興起,產(chǎn)生了詞嵌入這種新穎的文本數(shù)據(jù)化表示形式,通過該方式能夠把詞、短語或者句子抽象表示為連續(xù)、稠密、低維度的實數(shù)向量。比如Book這個詞可以被表示為{0035,0076,…,0081}這樣一個400維的實數(shù)向量。
圖1相機品牌和汽車品牌詞嵌入在語義空間中的分布情況
詞嵌入蘊含著豐富的語義信息[7]。其生成的依據(jù)是該詞在大規(guī)模文本中的上下文語境,在語言學中認為語義相近詞的上下文語境也相似[8],因此語義相近的詞嵌入的空間距離也比較接近。比如,依據(jù)上下文語境生成5個常見的數(shù)碼相機品牌和5個常見的汽車品牌的詞嵌入,然后使用主成分分析(Principal Components Analysis,PCA)[9]把這些詞嵌入降至兩維,將結(jié)果展現(xiàn)在二維坐標中,如圖1所示。從圖1中可以看到,汽車類品牌BMW,Lotus,Audi等的詞嵌入聚集在一起,數(shù)碼相機品牌Nikon,Leica,Pentax等的詞嵌入聚集在一起,這樣的語義空間分布特點使得詞嵌入能夠用于解決之前所提到的查不準和查不全這兩類問題。
12詞嵌入生成
詞嵌入的生成需要一定規(guī)模的語料文本作為基礎,本文在大規(guī)模SCI論文摘要的基礎上生成所需要的詞嵌入。通常來說,用于生成詞嵌入的語料文本與詞嵌入所希望體現(xiàn)的語義信息相關(guān)程度越高越好。本文計劃利用詞嵌入進行自然科學文獻的精準檢索式構(gòu)建,因此希望詞嵌入能夠體現(xiàn)出自然科學的語義信息。所以本文選用Web of Science中的SCI論文摘要作為詞嵌入的生成語料基礎。通過Web of Science所提供的網(wǎng)頁官方下載途徑,收集整理了中國與美國的SCI論文摘要合計約450萬份,這些摘要大致涵蓋了自然學科的主要研究領(lǐng)域,這為詞嵌入能夠蘊含較為全局的自然科學語義信息提供了保障。
使用詞嵌入進行精準檢索式構(gòu)建時,會使用到專業(yè)詞匯的詞嵌入表示。專業(yè)詞匯依據(jù)其組成可以分為兩類,一類是由一個單詞構(gòu)成,另外一類是由多個單詞構(gòu)成。由一個單詞構(gòu)成的專業(yè)詞匯使用詞嵌入生成方法能夠直接構(gòu)建出其詞嵌入,由多個單詞構(gòu)成的專業(yè)詞匯則需要在原始語料中將這些單詞進行拼接,然后才能生成該專業(yè)詞匯的詞嵌入。為了實現(xiàn)這一過程,將這些SCI論文的作者關(guān)鍵詞進行了頻次統(tǒng)計,從中篩選出出現(xiàn)頻次大于1次的作者關(guān)鍵詞合計約116萬個,將其中由多個單詞構(gòu)成的專業(yè)詞匯在原始語料中進行了拼接,從而使得能夠生成這種類型專業(yè)詞匯的詞嵌入表示。
本文使用Word2Vec工具生成自然科學詞匯的詞嵌入表示形式。Word2Vec工具在詞嵌入生成過程中有許多參數(shù)需要設置,這些設置直接影響著所生成詞嵌入的質(zhì)量好壞。在這些參數(shù)中,選用哪種模型、上下文窗口長度、詞嵌入維度是其中最為重要的3個參數(shù)。為了確定這些參數(shù)設置,Word2Vec提供了類比語義關(guān)系測試數(shù)據(jù)集、語法關(guān)系測試數(shù)據(jù)集,使用這些測試數(shù)據(jù)集能夠?qū)λ稍~嵌入的質(zhì)量進行評估。本文首先使用不同的參數(shù)設置生成多個詞嵌入,然后使用測試數(shù)據(jù)集對這些詞嵌入的質(zhì)量進行了對比,從中選擇出質(zhì)量最好的詞嵌入用于精準檢索式的構(gòu)建。該詞嵌入所使用的模型參數(shù)為連續(xù)詞包模型(CBOW),上下文窗口長度設置為10,詞嵌入維度設定為400。通過這樣的方式,在大規(guī)模SCI論文摘要的基礎上生成了合計約170萬自然科學詞匯的詞嵌入表現(xiàn)形式。由于自然科學領(lǐng)域非常宏大,其中的詞匯多種多樣,所以詞匯量也非常巨大。
2檢索式構(gòu)建
在詞嵌入的基礎上,一方面通過對領(lǐng)域?qū)<业臋z索關(guān)鍵詞進行科學語義擴充來提高查全率;另一方面通過對檢索結(jié)果的作者關(guān)鍵詞進行語義異常點的識別,從而提高查準率,下面詳細闡述。
21使用詞嵌入提高查全率
領(lǐng)域?qū)<覙?gòu)建的檢索式中關(guān)鍵詞可能不夠全面,直接導致檢索結(jié)果的查全率不高。比如說檢索人工智能領(lǐng)域中深度學習技術(shù)相關(guān)的文獻,如只使用關(guān)鍵詞“Deep Learning”是不夠的,還需要使用“Deep Neural Net”、“Deep Network”、“Convolution Neural Net”等相關(guān)詞匯。
本文使用詞嵌入對檢索式中的關(guān)鍵詞進行科技語義擴充,將擴充的新關(guān)鍵詞提交給領(lǐng)域?qū)<遥蛊淠軌蛞源藶橐罁?jù)對原始檢索式的關(guān)鍵詞進行補充,為查全率提供一定的保障。具體操作如圖2所示,將原始檢索關(guān)鍵詞使用詞嵌入投影到科學語義空間中,計算出與原始檢索關(guān)鍵詞(用圓圈表示)的詞嵌入余弦距離(Cosine Distance)最接近的N個詞(用三角表示),把這些詞提供給領(lǐng)域?qū)<遥I(lǐng)域?qū)<揖湍軌蛟诖嘶A上對原始檢索式的關(guān)鍵詞進行補充,從而提高查全率。
此方法的依據(jù)是詞嵌入所體現(xiàn)的是該詞的上下文語境信息,那么與原始檢索關(guān)鍵詞的詞嵌入距離比較接近的詞匯,它們的上下文語境與原始檢索關(guān)鍵詞的上下文語境也會比較相似,所以這些詞通常是目標檢索文獻的常用詞匯,可以用來對原始檢索式的關(guān)鍵詞進行擴充。
22使用詞嵌入提高查準率
盡管領(lǐng)域?qū)<宜褂玫臋z索關(guān)鍵詞是與檢索的目標文獻密切相關(guān)的,但是其中某些關(guān)鍵詞也可能出現(xiàn)在其他非檢索目標的文獻之中,使用這樣的關(guān)鍵詞進行檢索,就可能向檢索結(jié)果引入一定程度的噪音文獻,導致查準率不高。比如人工智能中的深度學習“Deep Learning”這個詞,不僅出現(xiàn)在人工智能領(lǐng)域[10-11],同時也出現(xiàn)在傳統(tǒng)的教育教學研究方向上[12-13],使用這樣的多義詞進行檢索,檢索結(jié)果會同時包含人工智能和教育教學的相關(guān)文獻,直接導致查準率不高。之所以出現(xiàn)這樣的情況,是由于領(lǐng)域?qū)<抑粚ξ墨I數(shù)據(jù)庫中其自身的研究方向比較熟悉,但是對文獻數(shù)據(jù)庫的全局信息缺乏整體把握所導致的。本文所構(gòu)建的詞嵌入建立在大規(guī)模科技文獻摘要的基礎之上,可以近似的認為包含科技文獻數(shù)據(jù)庫的全局科技語義信息,所以本文使用詞嵌入來解決這一問題。
具體過程如圖3所示,首先把原始檢索式檢索結(jié)果的作者關(guān)鍵詞通過詞嵌入投影到科學語義空間(檢索目標文獻關(guān)鍵詞使用圓點表示,異常點關(guān)鍵詞使用方塊表示)。然后通過異常點檢測算法Isolation Forest[14],從科學語義空間中識別出與檢索結(jié)果主體語義偏離程度比較大的異常點關(guān)鍵詞。最后把含有異常點關(guān)鍵詞的文獻返回給領(lǐng)域?qū)<疫M行解讀,對其中的非檢索目標文獻進行移除。
通常來說含有異常點關(guān)鍵詞的文獻,大多是由一詞多義的檢索關(guān)鍵詞所引入的無關(guān)文獻。在科學語義空間中,檢索目標文獻的關(guān)鍵詞由于上下文語境比較相似,所以這些關(guān)鍵詞的詞嵌入在科學語義空間中會聚集在一起,形成聚類,比如圖3中的聚類1和聚類2;對于檢索式中一詞多義的關(guān)鍵詞,其所產(chǎn)生的檢索結(jié)果的作者關(guān)鍵詞會含有其他研究方向的詞匯,而這些詞匯的上下文語境與檢索目標的上下文語境差異較大,從而造成其詞嵌入與檢索目標主體語義的詞嵌入偏離程度比較大,形成空間分布異常點。這是本文方法能夠一定程度上解決這類查不準問題的原因。
3深度學習檢索式構(gòu)建
深度學習技術(shù)被認為是人工智能研究50年來的重大突破[15]。AlphaGo戰(zhàn)勝圍棋名將李世石更是將該項技術(shù)的關(guān)注程度推向了高潮。下面將通過本文方法建立面向深度學習研究方向較為精準的檢索式,用于該研究方向從2009年首次在語音識別(Speech Recognition)取得突破至今的相關(guān)科學文獻分析[16]。
深度學習技術(shù)的英文表述是“Deep Learning”,首先使用詞嵌入對該詞進行多輪關(guān)鍵詞擴充,以提升查全率。具體來說,首先通過詞嵌入計算與“Deep Learning”科技語義相似度最高的詞,從中選出適合的詞作為檢索式的補充關(guān)鍵詞,然后對補充關(guān)鍵詞再次依據(jù)詞嵌入進行關(guān)鍵詞擴充,這樣的步驟迭代多次,直至沒有新的相關(guān)詞匯出現(xiàn)為止,通過迭代向檢索式添加的內(nèi)容如表1所示(星號代表通配符)。使用“Deep Learning”在SCI中共能檢索到2009年至今Article和Proceedings Paper類型的文獻3 464篇,使用擴充后的檢索式能夠檢索到相關(guān)文獻6 521篇(2018年6月19日)。
接下來對擴充后檢索式的檢索結(jié)果進行異常語義發(fā)現(xiàn),以提高查準率。部分異常語義內(nèi)容如表2所示,不難看出語義異常的文獻主要是教育教學類相關(guān)文獻,與人工智能沒有任何關(guān)系。通過分析發(fā)現(xiàn),這是因為深度學習“Deep Learning”這個詞在教育教學領(lǐng)域也是一個重要的概念[12-13],這表1使用詞嵌入對“Deep Learning”一詞多次迭代擴充
迭代次數(shù)檢索式添加內(nèi)容1“Deep Neural Net*”;“Deep Network*”;“Convolution* Neural Net*”;“Convolution* Net*”;“Deep Belief Net*”;“Word Embedding*”;“Deep Architecture*”2“Deep Recurrent Neural Net*”;“Recursive Neural Net*”;“Deep Boltzmann Machine*”些文章由于“Deep Learning”一詞多義而被檢索結(jié)果所包含。將這些無關(guān)文獻移除后,人工智能領(lǐng)域的深度學習相關(guān)文獻是6 416篇。
綜上所述,作為實驗對比如果只使用“Deep Learning”作為關(guān)鍵詞的搜索結(jié)果,移除由于該詞一詞多義所引入的無關(guān)文獻后,文獻總數(shù)是3 359篇,而本文方法能夠獲得的檢索結(jié)果是6 416篇,檢索結(jié)果總量增加了91%;與此同時領(lǐng)域?qū)<译S機抽樣對6 416篇文獻的1/3進行了解讀,抽樣
查準率為98%。由此可見,在該檢索過程中本文方法在保障較高查準率的同時,提高了查全率。
4結(jié)論及下一步研究
本文構(gòu)建了常見自然科學詞匯的詞嵌入表現(xiàn)形式,該形式蘊含著豐富的科技語義信息。以此為基礎,在進行自然科技文獻檢索時,一方面對檢索關(guān)鍵詞進行科技語義擴充,通過向檢索式補充關(guān)鍵詞的方法提高檢索結(jié)果的查全率;另一方面對檢索結(jié)果的作者關(guān)鍵詞進行異常語義發(fā)現(xiàn),從中識別出與檢索結(jié)果主體語義差異程度較大的關(guān)鍵詞,這些關(guān)鍵詞所在的文獻很可能是由于檢索關(guān)鍵詞的一詞多義而引入的無關(guān)文獻,通過從檢索結(jié)果中移除這些無關(guān)文獻以提升檢索結(jié)果的查準率。最后使用此方法在人工智能領(lǐng)域的深度學習方向上進行了應用實踐,取得了一定的效果。
構(gòu)建精準的檢索式,提高檢索結(jié)果的查全率和查準率是一個復雜的問題,盡管本文方法能產(chǎn)生一定的作用但仍然存在一些問題。目前使用詞嵌入計算詞之間的科技語義相關(guān)程度效果較好,但計算詞組合間的科技語義相關(guān)程度效果不夠理想。有些檢索式的語義信息是通過多個檢索關(guān)鍵詞之間的組合來體現(xiàn)的,這類語義信息是詞嵌入目前所難以表現(xiàn)的,也是本文方法未來的改進方向。
參考文獻
[1]李育嫦.文獻檢索中提高查全率與查準率的方法探討[J].圖書館學研究,2002,(11):92-93.
[2]周嬰.談談提高查新檢索查全率和查準率的方法[J].圖書情報工作,1997,(5):38-39.
[3]朱康玲.同義詞的獲取對醫(yī)學科技查新查全率和查準率的影響[J].中華醫(yī)學圖書情報雜志,2012,21(3):78-80.
[4]孫君,陳陶.提高文獻查全率和查準率的有效途徑-邏輯運算符,位置算符和通配符的靈活運用[J].現(xiàn)代情報,2006,26(10):167-169.
[5]李璐,江葆紅,孫紅紅.如何提高文獻信息檢索中的查全率與查準率[J].科技文獻信息管理,2010,24(1):23-25.
[6]Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and Their Compositionality[C]//Proceedings of the Advances in Neural Information Processing Systems.Curran Associates,2013:3111-3119.
[7]Mikolov T,Yih W-t,Zweig G.Linguistic Regularities in Continuous Space Word Representations[C]//Proceedings of the HLT-NAACL.ACL,2013:746-751.
[8]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].中文計算語言學,2002,7(2):59-76.
[9]Everitt B S,Dunn G.Applied Multivariate Data Analysis,Second Edition[M].Oxford University Press,2013:48-73.
[10]LeCun Y,Bengio Y,Hinton G.Deep Learning[J].Nature,2015,521(7553):436-444.
[11]Schmidhuber J.Deep Learning in Neural Networks:An Overview[J].Neural Networks,2015,61:85-117.
[12]Warburton K.Deep Learning and Education for Sustainability[J].International Journal of Sustainability in Higher Education,2003,4(1):44-56.
[13]Vos N,Van Der Meijden H,Denessen E.Effects of Constructing Versus Playing an Educational Game on Student Motivation and Deep Learning Strategy Use[J].Computers & Education,2011,56(1):127-137.
[14]Liu F T,Ting K M,Zhou Z-H.Isolation Forest[C]//Proceedings of the Eighth IEEE International Conference on Data Mining.IEEE,2008:413-422.
[15]松尾豐.人工智能狂潮[M].北京:機械工業(yè)出版社,2016:110-111.
[16]Deng L,Yu D,Hinton G.Deep Learning for Speech Recognition and Related Applications[C]//Proceedings of the NIPS Workshop.Neural Information Processing Systems Foundation Inc,2009.
(責任編輯:陳媛)2018年11月第38卷第11期現(xiàn)代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于貝葉斯網(wǎng)絡的網(wǎng)絡輿情危機節(jié)點診斷研究Nov.,2018Vol38No11
收稿日期:2018-08-02