999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向全文本的微觀實體抽取及擴散研究*

2021-03-19 10:59:34葉書路柳力元
圖書館論壇 2021年3期
關鍵詞:特征模型

安 欣,徐 碩,葉書路,柳力元

0 導言

不同學科之間知識的流動與交換越來越頻繁,學科邊界越來越模糊,知識的擴散與吸收促進了學科的協同、交叉、融合與創新,對學科間知識的有效傳播與管理已成為重要課題。知識擴散是知識通過不同媒介的交流與傳播,從生產行為過渡為消費行為,從創造主體轉移至學習主體的活動,是知識生產轉化為知識應用的中間環節與中介性過程。知識擴散的最終目的是知識的利用與創新,知識獲取、轉化、創新和應用等環節都需要通過知識擴散來實現。探究知識擴散的作用機理和演化模式,將有助于理解知識擴散的傳播類型和途徑,為學科知識的融合、轉化與創新提供可靠的理論與實證依據。

學術論文是科學知識擴散、傳承和發展的主要載體,凝聚了科研人員對工具、方法、數據等知識性微觀實體進行思維創造、編碼、加工的智慧。自開放獲取以來,隨著學術資源共享程度提高,越來越多的學術論文全文被大規模地開放獲取,為基于全文本的微觀實體擴散研究提供了便利的數據基礎和廣闊的應用前景。因此,本文以分子生物學領域學術文獻全文本數據為基礎,利用BiLSTM-CRF模型抽取微觀實體,借助可視化工具探究微觀實體的發展軌跡和擴散模式等。

1 相關研究

1.1 微觀實體抽取

微觀實體抽取方法可分為兩大類:基于模式匹配的方法和基于機器學習的方法。早在1992年Hearst就提出利用啟發式規則匹配的方法[1],該方法準確率較高,但召回率偏低,領域適應性較差。鄭家恒等[2]針對地名、人名和組織機構名三類實體,提出基于模式匹配的自動識別方法。Shi等[3]通過比較發現基于模式匹配的方法更適合名詞類短語的抽取。基于機器學習的方法大多將微觀實體抽取轉化為序列標注(sequence labeling)問題,所用模型從隱馬爾科夫模型(HMM)、最大熵(MaxEnt)、條件隨機場(CRF),一直發展到最近的深度學習。Xu等[4]基于CRF研發了生物醫學領域微觀實體抽取系統,F值0.82左右。Huang等[5]首次將BiLSTM模型與CRF模型相結合,用于識別命名實體。朱丹浩等[6]重新定義了循環神經網絡(RNN)模型的輸入和輸出,提出了字符級別的循環網絡標注模型,將深度學習應用于微觀實體的抽取研究。Li 等[7]和Gridach[8]利用BiLSTM-CRF模型識別生物醫學領域中的不規則實體,得到了較高的識別率。BiLSTM-CRF模型的優勢在領域實體和術語抽取任務上進一步得到了驗證[9-10]。

1.2 微觀實體評估

微觀實體評估研究涉及數據、工具和方法等類型。Pettigrew等[11]追蹤信息科學領域100多種理論的使用情況,發現其在信息科學領域之外并未得到很好的引用。Mckeown等[12]在380萬篇Elsevier全文和4,800萬條WoS元數據的基礎上,通過提取全文特征和元數據特征來預測科學概念的未來影響。丁楠等[13]依據數據發布量、數據被引量、數據平均被引頻次、h指數等指標,構建基于引用的數據評價體系。Belter[14]以海洋學領域數據集為例,依據被引次數開展數據集引用行為研究。Park[15]使用全球350多個存儲庫中超過50萬個開放式研究數據實體,評估數據共享和重用對科學、技術、工程和數學領域數據引用的影響。楊波等[16]分析生物信息學領域論文中科學軟件的使用行為,并以此為基礎度量軟件的質量與影響力。趙蓉英等[17]借助Python社區中軟件的下載量、文獻被引次數、軟件復用次數等指標,評估開源軟件的學術影響力。Pan等[18]研究科學軟件對圖書情報領域研究的貢獻,章成志等[19]則對自然語言處理領域十大數據挖掘算法的影響力進行了量化評估。

1.3 知識擴散研究

知識擴散研究最早可追溯至1924年卡耐基基金會Learned編著的《美國公共圖書館與知識擴散》。目前知識擴散研究主要借助文獻引證及作者合著關系,探討知識在學科間擴散過程中形成的靜態分布和歷史演變,研究對象涉及篇章、期刊、作者、主題、地區及國家等。Liu等[20]通過引文關系構建中國跨學科知識網絡,研究學科間的知識交換結構及其演化過程。趙星等[21]構建中國82個文科領域的引文網絡,定量刻畫該領域的知識擴散情況。邱均平等[22]發現國內知識圖譜研究由科技管理領域擴散到圖書情報領域,進而推廣應用于教育學等領域。Ma 等[23]基于作者引文網絡揭示學科專業知識交流模式與特征。Nakamura等[24]提出引文滯后指標,用于表征某個學科領域內部的各分支子群之間的知識擴散情況。黃穎等[25]對跨學科的外部知識融合、內在知識匯聚與科學合作模式3 個維度進行分解和整合,探索不同測度方法的內在聯系。岳增慧等[26]以文獻引證作為學科知識傳播路徑,研究學科知識擴散特征。Ding 等[27]利用專利-論文引證數據,探索了促進從科學到技術的知識流動的文獻特征。梁鎮濤等[28]基于文獻引證網絡構建知識模因(knowledge meme)的擴散級聯網絡,計算分析擴散級聯網絡的基礎特征及其特征分布情況,以考察不同知識模因在學科領域內的擴散模式。Xu等[29]提出一種統計實體主題模型(CCorrLDA2模型),納入領域微觀實體知識,將科學與技術間的知識流動看作最優運輸問題進行求解,繪制知識流動強度圖譜。閔超等[30]通過被引、引用、文獻耦合與共被引等文獻關系為單篇論著構建引用擴散網絡,探討科學文獻網絡中的引文擴散。

2 數據獲取及預處理

生物醫學是戰略性前沿科技領域,涉及生物、醫學、化學、計算機以及材料等學科,跨學科性突出,學科間互動性強。分子生物學作為生物醫學領域中的高端細分領域,涉及大量的理論、技術和方法創新,可下載大量XML 格式全文本數據,為基于全文本的微觀實體擴散研究提供了數據基礎。因此,本文以分子生物學領域作為分析對象,參考WoS期刊影響因子,選取分子生物學領域排名前十期刊(見表1),發表時間限定為2008-2018年,數據范圍限定于PubMed數據庫中的OA子集。為使分析結論具有普適性,從每種期刊按比例隨機抽取一定數量的文獻,共選取1,000篇文獻。然后編制XPATH規則,利用Java語言解析XML格式文本數據,提取文章的標題、摘要、期刊名、出版時間、引用語境、參考文獻等信息。最終,共提取41,679條引用語境,32,237條不重復的被引文獻。

表1 分子生物學領域Top 10種期刊中OA文獻及隨機抽取文獻的數量(單位:篇)

圖1 全文本學術文獻庫構建流程圖

為方便構建微觀實體擴散網絡,以DOI 為線索收集被引文獻,采用DoiCleaner 算法[31]清洗前綴、中綴和后綴等錯誤。具體地,根據被引文獻是否有DOI 號,將所有文獻數據分為兩部分(見圖1):(1)無DOI號文獻,手工下載對應的PDF 全文,利用PDFBox 轉換成文本數據,利用ParsCit解析并定位文中引用位置[32];(2)有DOI 號文獻,利用PubMed 在線服務將DOI 映射為PMID 或PMCID,基于E-FETCH API 函數獲取XML格式全文本數據,然后基于標簽解析并定位文中引用位置。還有一部分有DOI 號卻不能獲取XML全文本數據的文獻,通過下載并解析PDF文件的方式進行處理。

3 面向全文本的微觀實體抽取

3.1 微觀實體分類及標注

為方便微觀實體擴散研究,隨機選取500篇施引文獻和500篇被引文獻進行人工標注。初步分析發現,微觀實體主要有4類:一是理論概念類,包括理論、概念、定義、引理、推論或假設等;二是工具技術類,包括工具、方法、技術、程序、模型或算法等;三是數據信息類,包括數據、材料、結論或實驗結果等;四是特定領域類,包括基因、蛋白質、藥物、疾病、代謝組等。理論概念類的微觀實體主要由名詞和動詞構成,線索詞主要有concept、theoretical、hypothesize等;工具技術類微觀實體的線索詞主要有algorithm、method、model、software等;數據信息類微觀實體的線索詞主要為動詞,如view、show、reveal、find;特定領域類的微觀實體,主要出現在引用語境主語和賓語的位置且大多數為名詞。本文分別用THEORY、TOOL、INFORMATION和DOMAIN來表示4類微觀實體,采用BIO標注體系,B表示微觀實體的開始單詞,I表示微觀實體的中間單詞,O表示除四大實體之外的單詞。

3.2 同義微觀實體及縮略語識別

在抽取微觀實體時會遇到同一實體不同表達形式(如“Aspirin”與“Acetylsalicylic Acid”)、縮略語(如“Acetylsalicylic Acid”與“ASA”)的問題。為識別同義微觀實體,以UMLS和Freebase為知識庫,提取同義微觀實體“種子”集合,然后映射到文獻全文本數據,基于遠程監督(distant supervision)完成同義微觀實體的識別。對微觀實體縮略語的識別,根據前期研究發現[33],絕大部分縮略語與其全稱表現出“全稱(縮略語)”或“縮略語(全稱)”模式,且組成縮略語的字母通常來源于其全稱,因此基于規則抽取微觀實體的縮略語以及對應的全稱,嵌入字母對齊機制,過濾掉假陽性的縮略語與其全稱候選對。

3.3 微觀實體抽取

將標注文獻按照10折交叉驗證的方式隨機分為訓練集和測試集,采用一般語義特征、字符特征、大小寫特征、詞聚簇特征來對數據進行刻畫[4],與CRF模型對比,考察BiLSTM-CRF模型的合理性、科學性和優越性。利用CRF++,選用Unigram 模板,在構造詞聚簇特征時,選擇500、1,000、1,500、2,000 簇 進 行 布 朗(Brown)聚類[34],得到4種不同簇的特征表示。還考慮不加入詞聚簇特征的情形,由此共有5種特征設置。從表2看出,加入詞聚簇特征的CRF模型均優于未加入詞聚簇特征的CRF模型。當聚類的簇數為500時,CRF模型的召回率、F1值效果最好,故本文將詞聚簇數目設置為500。

表2 CRF模型在不同特征設置條件下的性能

圖2 CRF和BiLSTM-CRF模型評價指標對比圖

類似于CRF模型,BiLSTM-CRF模型同樣考慮一般語義特征、字符特征、大小寫特征和500 簇布朗詞聚類特征。圖2 給出CRF 模型和BiLSTM-CRF模型的性能對比,精確度、召回率、F1值3個評價指標的數值都比CRF模型高,特別是召回率和F1 值的提升較為明顯,說明BiLSTM-CRF 在識別微觀實體任務上要優于CRF模型。實驗結果與文獻[10]的理論分析相一致:CRF模型能夠靈活設置特征空間,因此能夠處理一些復雜情況,但主要不足是不能考慮遠程上下文信息,使得模型性能在一定程度上依賴于特征工程的優劣[4];BiLSTM-CRF模型完全保留了CRF模型的優點,新增了BiLSTM層,能夠有效考慮前后兩個方向的長程和近程上下文信息,彌補了CRF模型的不足。

4 分子生物學領域微觀實體擴散

4.1 微觀實體擴散網絡構建

類似于敘詞表,將同義微觀實體及其縮略語看作同一個實體概念的不同標識符,選擇使用頻率最高的那個標識符作為實體概念的主題詞,其他標識符與主題詞間可看作“用代”關系。為揭示微觀實體的擴散模式,需要構建微觀實體擴散網絡。以圖3為例,假設施引文獻包含4個實體概念,被引文獻包含2個實體概念,如果滿足兩個條件,將“微觀實體2”與“微觀實體5”之間建立“引用”關系:(1)“微觀實體2”與“微觀實體5”指向同一個實體概念;(2)該實體出現在施引文獻對被引文獻施加引用行為的引用語境中。通過這種方式構建的微觀實體間“引用”關系,強調微觀實體的出處;而Ding等[35]將施引文獻與被引文獻中的所有微觀實體對之間均建立“引用”關系,這為后續微觀實體擴散模式的研究人為引入了大量噪聲。

圖3 微觀實體擴散網絡構建示意圖

4.2 宏觀層面微觀實體擴散

本文構建微觀實體擴散網絡是一種異構信息網絡,借助Gephi軟件[36],從宏觀和微觀兩個層面對微觀實體的擴散模式進行可視化分析。為了從宏觀層面對微觀實體的擴散有個直觀認識,將施引文獻和被引文獻作為文獻節點,將4類微觀實體作為知識單元節點,施引文獻和被引文獻之間的邊為“引用與被引用”的關系,文獻與微觀實體之間的邊為“包含與被包含”的關系,構建全局異構信息網絡。整體上,除了文獻節點外,表示數據集中特定領域類微觀實體的數量最多,在論文與論文之間特定領域類微觀實體流動也最為頻繁。學者引用文獻時,在相應引文語境中提及最多的是特定領域類的微觀實體,比如某個特定的基因、蛋白質、藥物、疾病、代謝組等。這個觀察與人們對這個領域的直觀認識相一致,學者們更多是對自身研究領域內的參考文獻中特定知識的引用和描述。其他3類微觀實體也有少量擴散,但相對于特定領域類微觀實體,其擴散較弱,學者們在施引文獻時較少關注數據信息、工具技術和理論概念類微觀實體。

4.3 微觀層面微觀實體擴散

從宏觀層面上分析,能整體把握哪種類型的微觀實體在論文之間的流動最為頻繁,人們在進行引用時更偏向引用哪類微觀實體,但不能具體地了解某種類型微觀實體中某個具體實體的擴散以及特定微觀實體在論文之間的流動方向與路徑。所以,需要從微觀層面,更加細粒度地分析和闡述微觀實體的擴散模式。由于網絡中節點和邊較多,不能完全展示,本節選取一個具體的微觀實體進行分析,見圖4。青色圓點表示施引文獻和被引文獻,紫色圓點表示特定領域類微觀實體,黃色圓點表示數據信息類微觀實體,綠色圓點表示工具技術類微觀實體,藍色圓點表示理念概念類微觀實體,所有節點之間的邊都用灰色表示。

在圖4 中,文獻代碼為a44 的文章被文獻代碼為320這篇文獻所引用,a44 文獻中含有mutation、cellar proliferation、tumor cells、metabolism、cellular proliferation、cancer cells 6 種特定領域類微觀實體,說明這6 種微觀實體從文獻a44 流動到320 這篇文獻中,可以清晰地看到,文獻320 在引用文獻時更多是對a44 文獻中特定領域類微觀實體的描述,從文獻320 標題(Predicting selective drug targets in cancer through metabolic networks)可以大概看出這篇文獻主要介紹通過代謝網絡預測癌癥藥物的選擇性靶點,從文獻a44 標題(The M2 splice isoform of pyruvate kinase is important for cancer metabolism and tumour growth)可以看出,該文獻主要介紹對癌癥代謝和腫瘤生長有重要作用的酶,說明文獻320 和文獻a44 在一定程度具有相似性。這樣,從微觀層面能更加清晰地看到具體某個微觀實體在論文之間的擴散路徑。如果擴大數據范圍,可以更加全面地分析微觀實體在論文之間的流動方向、流動路徑以及一些新興微觀實體的產生和舊微觀實體的消失,為學者在研究方向上的拓展和研究技術的改進提供參考。

圖4 微觀實體擴散網絡片段

5 結語

微觀實體擴散研究有助于厘清科學發展的脈絡,明晰微觀實體在學科間流動演化的規律與模式,預測微觀實體未來發展的熱度以及擴展或者收縮趨勢,為學科知識的融合、轉化與創新提供可靠的理論與實證依據,具有重要的意義。本文以分子生物學領域1,000篇全文本數據為例,完成了4類微觀實體的抽取和識別,借助可視化工具從宏觀和微觀層面揭示了微觀實體的擴散模式。本文的主要貢獻有3個方面。

第一,分子生物學領域全文本數據標注。制定了微觀實體標注規范,完成了分子生物學領域1,000篇文獻的人工標注,涉及實體主要為理論概念類、工具技術類、數據信息類、特定領域類,為后續基于引文網絡的微觀實體研究提供良好的參考和數據研究基礎。

第二,BiLSTM-CRF模型在微觀實體抽取任務中可以得到較好的效果。BiLSTM-CRF模型保留了CRF 模型的優點,同時又加入了BiLSTM層,能夠考慮遠程的上下文信息,納入前后兩個方向的長短距離信息。在本文微觀實體的抽取任務中,精確度、召回率和F1值分別為0.7618、0.7099和0.7349。

第三,在宏觀和微觀兩個層面揭示微觀實體的擴散模式。宏觀層面上,特定領域類微觀實體占比最高,學者在對被引文獻進行描述時傾向于引用所研究特定領域內的微觀實體;微觀層面上,可以清晰直觀地展示特定微觀實體在論文之間的流動路徑。

本研究仍有較大改進空間,本文僅考慮2008-2018年1,000篇文獻及其參考文獻,在將PDF轉換為文本數據時難免存在錯誤。未來將進一步擴大數據范圍,基于機器學習方法構建數據校正模型,建立一套容量更大、體系更完備的數據集,使揭示的微觀實體擴散模式更具一般性。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 日韩 欧美 国产 精品 综合| 日韩无码白| 久久成人国产精品免费软件| 午夜福利在线观看成人| 精品久久香蕉国产线看观看gif| 99视频精品在线观看| 国产www网站| 亚洲欧美日韩另类| 日本一区二区三区精品国产| 精品一区二区无码av| 毛片手机在线看| 99在线观看视频免费| 亚洲综合色区在线播放2019| 久久精品亚洲专区| 日本尹人综合香蕉在线观看| 国产精品短篇二区| 午夜国产大片免费观看| 免费aa毛片| 欧美在线精品怡红院 | 最新加勒比隔壁人妻| 中文字幕va| 国产福利一区视频| 精品视频一区在线观看| 天天视频在线91频| 亚洲天堂视频在线观看| 日本手机在线视频| 国产va欧美va在线观看| 毛片免费观看视频| 成人精品午夜福利在线播放| 久久久久国产一级毛片高清板| 亚洲成年人片| 全部毛片免费看| 热这里只有精品国产热门精品| 波多野结衣中文字幕久久| 午夜激情婷婷| 国产成人高清精品免费| 亚洲一级毛片免费看| 亚洲国产91人成在线| 第一区免费在线观看| 91青青视频| 内射人妻无套中出无码| 亚洲欧美日韩成人在线| 91精品人妻一区二区| 国产精品女主播| 在线播放国产99re| 中文字幕自拍偷拍| 免费毛片网站在线观看| 国产在线小视频| 欧美精品xx| a在线观看免费| 欧美va亚洲va香蕉在线| 波多野结衣在线一区二区| 久久青草精品一区二区三区| 欧美一级视频免费| 奇米精品一区二区三区在线观看| 国产精品第一区在线观看| 中文字幕欧美日韩| 国产精品久久久免费视频| 亚洲va欧美va国产综合下载| a毛片免费观看| 亚洲国产欧美自拍| 久久精品电影| 精品国产Ⅴ无码大片在线观看81| 99热国产在线精品99| 91国内视频在线观看| 亚洲乱码在线视频| 香蕉精品在线| 国产女人18毛片水真多1| 91麻豆国产在线| 99热在线只有精品| 亚洲天堂网在线播放| 亚洲AⅤ永久无码精品毛片| 日韩欧美中文| 国产成人一二三| 久久国产精品77777| 国产精品无码AV中文| 女人av社区男人的天堂| 日本午夜精品一本在线观看| 99精品免费在线| 少妇精品在线| 亚洲精品视频网| 亚洲男人天堂2018|