999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識圖譜的科技論文創新點動態識別研究

2022-11-28 02:21:36曹樹金曹茹燁
現代情報 2022年12期
關鍵詞:科技方法模型

曹樹金 曹茹燁

(中山大學信息管理學院,廣東 廣州 510006)

習近平總書記曾提到,“科技創新,就像撬動地球的杠桿”[1]。黨的十八大以來,我國大力實施創新驅動發展戰略,努力實現高水平科技自立自強。為更好地支持創新,圖書館學情報學應責無旁貸地將關于創新成果的記錄加工為認識創新、引領創新的情報。科技論文作為基礎研究類科技活動的主要成果,是科技創新情報的源頭。目前,我國科技論文總體產出持續增長,據中國科學技術信息研究所發布的《2021年中國科技論文統計報告》顯示,我國在國際頂尖期刊中的論文數量升至世界第2位[2]。高質量科技論文的大幅增加使得多樣化的創新觀點和創新性解決方案不斷被提出,同時也在不斷被替代和更新,體現了科技創新成果具有的價值時效性。如何從已有的成果中發現創新情報,幫助科研人員準確把握科技創新規律,從現有創新中汲取經驗進而提高創新活動效率,就需要通過對科技論文創新點的識別和創新知識的挖掘來實現。同時,科技論文創新點的識別也有助于從內容角度為科學評價科技成果的多元價值提供新的思路,更好地貫徹習近平總書記關于“堅持正確的科技成果評價導向”思想[3],完善科技成果評價機制。反之,科技成果評價的結果也有利于創新情報的獲取與利用。

識別科技論文中的創新點需要先明確創新的含義。關于論文創新,有學者認為是對已有知識成分進行前所未有的重組[4],亦或在研究成果中提出一些新概念,比如Heinze T等指出的新現象、新方法、革命性新理論等[5]。根據Diego I M D等的觀點,一篇論文的創新點是與先前知識相比的不同之處[6]。可見,創新是一個相對的概念,現有研究的創新是相對于先前研究而言。然而,創新本身及其表述具有復雜性和多樣性,是隱藏在語義空間的知識單元。對創新點的挖掘首先需要從語義層面進行知識揭示。目前,最為高效、智能的知識組織形式為知識圖譜,它能夠將實體、概念、實體間關系轉換為基于圖的語義網絡,并以“實體—關系—實體”的三元組形式表達。科技論文的研究內容可以由若干個三元組進行概括,隱藏在研究內容中的創新點必然會在三元組中有所體現,表現為三元組中某一個或多個新的元素。

本文將利用知識圖譜挖掘和呈現特定領域現有科技論文中的知識元素,作為新發表論文創新點識別的比對庫,發現論文中新出現的實體或關系,即創新點。由于科學技術是不斷進步的,科技創新活動是一個動態過程,將從現階段研究成果中識別出的創新點補充入知識圖譜中,可以作為后續成果創新點抽取的參照,從而實現科技論文創新點的動態識別。本文旨在從理論層面進一步豐富科技論文知識抽取與創新識別的方法,為現有科技成果的創新性評價提供新思路;從實踐層面為研究人員提供創新情報,促進更多的科技創新。

1 相關研究

1.1 科研論文創新點識別相關研究

科研論文創新點的識別包括句子級[7]和知識元級別[8]的抽取,多采用基于本體、基于規則或機器學習的方法實現。Cannon D C等開發了TIN-X應用程序,通過對生物醫學文獻的文本挖掘,提供基于本體的創新點識別[9]。溫有奎等構建了科研成果創新點的本體模型,并利用特征詞模式匹配的方法對碎片化科研創新點進行動態挖掘[10]。也有學者以領域詞表和本體中的關系為基礎構建識別規則,然后采用基于主題詞重疊度的冗余度計算方法過濾出創新點[7]。Ert?z L等將論文的創新檢測轉化為主題聚類問題,認為如果一個主題下僅涵蓋一篇論文,那么該論文的主題具有創新性,采用的方法是最近鄰聚類算法[11]。溫浩等提出了一種基于機器學習的認知分析方法,通過詞匯語義分布一致性分析、謂語動詞語義理解、語用功能分類等層面對學術文摘的創新點進行了挖掘[12]。周海晨等利用BERT深度學習模型結合細粒度抽取規則實現對學術論文中創新貢獻短語的識別[13]。曹樹金等利用BERT深度學習模型結合依存句法分析,識別論文創新句并提煉出創新對象與創新維度[14]。Amplayo R K等以arXiv開放獲取網站中一定時間范圍內的科技論文作為數據集,構建了基于作者、關鍵詞、主題詞等實體的引用圖譜,當新的論文被添加時圖會發生變化,這些變化量體現了該論文的創新點,將其輸入自動編碼器神經網絡中可以進行創新檢測[15]。

1.2 學術領域知識圖譜的構建與應用研究

知識圖譜是2012年由Google提出的概念,其本質是一種語義網絡,可分為通用知識圖譜和領域知識圖譜,前者面向全領域,常用于知識問答與檢索、信息推薦等場景,比如DBpedia、Yago、Wikidata等。領域知識圖譜則將知識的覆蓋范圍和使用方式限定于特定領域[16]。近年來,一些科研機構和學者開始探索學術領域知識圖譜的構建與應用。云南省高校數據科學與智能計算重點實驗室構建了“基于COVID-19論文集的學術知識圖譜”(OpenKG),上海交通大學構建了知識圖譜AceKG,都涵蓋了豐富的學術屬性信息,實體類型涉及論文、作者、機構、研究領域[17]。Zhao H X等基于Text CNN的主題信息抽取模型,自動抽取科技文獻的主題、標題、狀態、會議、組織機構等信息,構建技術領域知識圖譜[18]。Rossanez A等提出了一種基于規則的半自動方法,從一組生物醫學論文的摘要中識別生物醫學命名實體和關系,生成知識圖譜,并將其鏈接到生物醫學領域的本體中[19]。Xu R等采用一種半監督迭代學習方法,從生物醫學文獻中提取疾病與疾病風險的關系對,生成知識庫用于輔助疾病病因發現[20]。鐘將等以人工智能、大數據等領域的最新科技論文為語料集,構建了一個學術知識圖譜,并設計了基于輔助任務意圖信息增強神經網絡方法的問答系統[21]。此外,有學者針對圖書情報領域,分別構建了面向學術論文創新內容[22]和面向知識問答系統[23]的知識圖譜。

1.3 知識抽取相關研究

知識抽取是知識圖譜構建的前提和基礎,包括實體識別和關系抽取。命名實體識別研究經歷了從早期基于規則與字典的方法,到隱馬爾可夫模型(HMM)、條件隨機場(CRF)等傳統機器學習方法,再到深度學習方法的發展過程。近年來,不少學者開始探索深度學習模型的結合或變體,改進模型效果。目前使用較為廣泛的有LSTM-CRF[24]、Bi-LSTM-CRF模型[25],還有適用于小規模語料集的遷移學習模型,比如一些學者提出的Trans-NER[26]、TrBiLSTM-CRF[27]以及基于遠程監督的深度遷移學習命名實體識別模型[28]。關系抽取即通常所說的“三元組”抽取。在關系抽取的相關研究中,有學者采用語義角色標注(SRL)[29]、依賴于句法模式的依存句法分析[30]等方法。隨著深度學習的發展,關系抽取的手段更加多樣化,并通常被作為分類問題處理,即預先定義好關系類型的限定域關系抽取。比如Zhang D等采用遞歸神經網絡(RNN)[31]、Liu C Y等采用卷積神經網絡(CNN)[32]進行實體關系的識別與抽取。潘理虎等提出了一種融合位置、詞性和句法依存等信息的分段卷積神經網絡,用于小樣本關系抽取[33]。除此以外,基于遠程監督的關系抽取以及實體關系的聯合抽取模型也在不斷被發掘。

以上研究為本文提供了重要的理論依據和方法參考。但在科研論文創新點識別的相關研究中,大都僅考慮了主題詞、短語等孤立的元素,未考慮到它們之間的語義關系,并且較少涉及創新點的動態識別。另外,在現有的學術領域知識圖譜的構建與應用研究中,較少將其用于學術搜索和問答以外的其他場景中,更未發現將知識圖譜作為科技論文創新點識別及科技成果評價的工具來使用。因此,本研究將以“人工智能+神經病學”交叉領域的中文科技論文為例,從文獻摘要中抽取出代表論文研究問題、方法、技術要點、結論等的實體及關系集合,構建知識圖譜,并基于所構建的知識圖譜動態識別中文科技論文的創新點。

2 理論基礎與研究設計

2.1 理論基礎

著名的英國情報學家布魯克斯于1974年提出了情報作用于知識結構的方程K(S)+ΔI=K[S+ΔS][34]。其中,K(S)是個人原有的知識結構,ΔI是人們能夠理解并整合到自己原有知識結構中的情報,K[S+ΔS]則是新的知識結構。此方程強調了ΔI的重要性,這一小部分的情報帶來的不僅是知識量的變化,還是整個知識結構的改變。在此基礎上,1980年布魯克斯又發表了《情報學基礎》的系列論文,主張情報學的核心任務是探索與組織客觀知識,并提出了“認知地圖”的概念,被稱為“天才設想”。“認知地圖”是對文獻中的邏輯內容進行分析,找到人們在知識創造過程中相互影響及聯系的節點,通過類似地圖的形式直觀展示知識的有機結構[35]。有學者認為廣義的認知地圖是基于認知科學的人類對事物及其關系的關聯圖示,包括概念地圖、專家地圖、知識網絡、社會網絡、語義網絡等[36]。

知識圖譜作為一種揭示實體間關系的語義網絡,是知識結構的最新表示形式,也可以看作“認知地圖”的高級形態。本文嘗試將布魯克斯的知識結構方程擴展到一個領域的知識結構及其變化來表述創新。利用知識圖譜呈現特定領域已有研究成果中的知識結構K(S),發現新增成果中的創新情報(體現為論文中的創新點)即ΔI,然后將ΔI添加入K(S)中,形成該領域新的知識結構。隨著科研創新成果的不斷產出,重復以上過程,不斷識別創新點,不斷發現創新情報,不斷更新領域知識結構,有益于領域的持續創新。

2.2 研究設計

2.2.1 研究框架

本研究總體框架如圖1所示。主要分為兩個階段:一是構建交叉學科領域知識圖譜;二是基于知識圖譜識別科技論文中的創新點并補充知識庫形成動態識別機制。首先,知識圖譜的構建方式有兩種:自頂向下和自底向上。自頂向下需要先定義本體,構建模式層,然后將實體加入知識庫,即構建數據層;自底向上的方法則是先對數據進行分析,抽取出實體和關系,進行匯總后構建上層的模式層。本研究將采用自底向上的方法,選取近年來熱門且筆者較為熟悉的研究領域,即“人工智能+神經病學”中所有的中文科技論文摘要作為語料集。因為摘要通常包含最重要的概念和知識,而避免了其他部分理論基礎(背景、相關研究等理論基礎)的干擾[37]。之后,對數據進行預處理,包括文獻去重、數據清洗、句子切分等步驟。在數據收集階段預留出近期發表的科技論文作為待分析的對象,其余文獻納入語料集中。在知識圖譜構建模塊,首先需要進行知識抽取,擬采用實體與實體關系聯合抽取的方法,預先設定實體及關系類別,采用Bert4keras深度學習框架訓練知識抽取模型,抽取出語料集中所有指定類型的三元組。然后進行知識融合、知識存儲與可視化,構建知識圖譜。最后,采用訓練好的知識抽取模型抽取出待分析論文中的三元組,與知識圖譜中的實體及關系進行對比,識別創新點,并將其補充入知識圖譜中,如此循環往復形成動態識別模式。

圖1 總體研究框架

2.2.2 知識抽取

1)定義Schema約束集合。知識圖譜的最小單元由兩個節點及它們之間的關系構成,在NLP領域一般被稱為“SPO三元組”,可表示為(主語,謂語,賓語),即(Subject,Predicate,Object),SPO三元組正是知識抽取的對象。在進行實體關系抽取任務之前先定義好需要什么樣的實體和實體關系,而用來描述實體類型、關系類型及它們之間搭配的一般模式被稱為“Schema”,如表1所示。

表1 Schema舉例

本文分析的對象是非結構化的文本數據,字段的含義、數量和內容等都是不明確的。因此,在定義Schema約束集合時,主要依據科技論文摘要的內容進行提煉。首先,將中國科學院文獻情報中心開發的科技文獻知識AI引擎(SciAIEngine)作為輔助工具。SciAIEngine提供了科技文獻分類、關鍵詞識別及命名實體識別等各項功能,可通過平臺的API接口進行使用。本文借助SciAIEngine中的中文科研實體識別功能和中文醫學領域實體識別功能,參考兩個功能模塊實體識別的結果確定實體的類型,并從摘要內容本身確定實體關系的類型。其次,對初步定義的實體及關系類型進行篩選,篩選的標準是能夠反映論文研究問題、方法、主要結論、關鍵技術等內容的描述,確定最終的Schema框架。

2)基于Bert4keras的知識抽取。Bert4keras是一個開源的基于Keras的文本預訓練框架,可支持BERT、RoBERTa、ALBERT、NEZHA等多種預訓練模型,相較于Google的BERT源碼更加簡潔。在實際的三元組抽取任務中,句子結構較為復雜,從一個句子中會抽出多個三元組。比如“針灸可以治療面癱和神經痛”抽取的結果是1個S和多個(P,O),即(針灸,治療,面癱)和(針灸,治療,神經痛);此外還可以有“多個S、1個(P,O)”,如“針灸和熱敷都可以用于治療面癱”,以及“1對(S,O)和多個P”,如“支氣管鏡可以診斷并治療氣道異物”等各種形式。針對此類復雜的信息抽取任務,蘇劍林借鑒了Seq2seq概率圖的思想,先預測S,之后傳入S來抽取O、P,并采取了一種“半指針—半標注”的策略,在關系分類時用Sigmoid激活函數代替Softmax[38]。在此基礎上,他提出了一種基于BERT的三元組抽取模型,并采用Bert4keras進行實現[39]。本文將該深度學習框架用于交叉學科領域知識抽取任務中,具體的三元組抽取模型如圖2所示。整體思路為,首先將原始的句子序列轉換為id并傳入到Bert的編碼器中,獲得編碼序列后接兩個二分類的分類器用來預測主語S;然后基于傳入的S,從編碼序列中抽取出S首尾所對應的編碼向量,并以其作為條件,針對編碼序列做一次條件Layer Norm;最后,用經過Conditional Layer Normalization后的編碼序列預測S所對應的O和P。圖2所示的例子中需要抽取出兩個三元組,分別是(腦膠質瘤,術后并發癥,顱內壓增高)、(開顱手術,治療,腦膠質瘤)。在訓練階段,采樣1個S(如腦膠質瘤)并傳到下一步訓練,抽取出對應的O和P,再采樣下一個S,如此完成對句子中所有三元組的抽取。

圖2 基于Bert的三元組抽取模型結構

2.2.3 知識融合與存儲

完成“SPO三元組”抽取以后,對缺失的以及重復的三元組進行清洗。通過對照專業詞典,對一詞多義以及同一實體的不同表述(如帕金森病和PD)進行整合,以消除矛盾和歧義,同時也可避免因作者對術語或概念的誤用而導致創新點識別錯誤的問題。最后,利用具有嵌入式、高性能等優勢的Neo4j數據庫存儲三元組。Neo4j是一種基于JAVA語言開發的面向網絡的NoSQL圖形數據庫。三元組中的實體在圖譜中被映射為節點,實體關系則被映射為邊。Neo4j通過后端架構對已連接數據的檢索、遍歷、增刪及修改等操作進行了優化。本文在存儲三元組時,擬通過用于對接Neo4j的Python庫Py2neo實現。導入數據之后,對各個節點的顏色進行調整,用于區分不同類型的實體,完成知識圖譜的構建與可視化展示。

2.2.4 知識對比與補充

在完成知識圖譜的構建以后,從近期發表的單篇科技論文中抽取特定關系類型的SPO三元組,并與知識圖譜中的實體及關系進行對比。對比的方式通過Neo4j圖數據庫的查詢語言Cypher實現。Cypher適用于點對點模式(ad-hoc)的查詢,焦點在于如何從圖中找回。通過Cypher的查詢語句Match(),獲得與任一實體相關的所有實體及其關系類型,通過對比后去除知識圖譜中已有的三元組,即重復的知識,進而識別出該論文中的創新點。最后,利用Cypher的Create()語句將新的實體及關系補充入知識圖譜中,作為后續論文創新點識別的依據,形成動態識別模式。

3 實證研究

3.1 數據采集與預處理

本文的研究對象是“人工智能+神經病學”交叉學科領域的中文科技論文。為了實現較高的查全率,選取了中國知網(CNKI)、百度學術兩個綜合性學術平臺,以及萬方醫學網、中國生物醫學文獻服務系統(SinoMed)兩個專業性學術平臺作為數據源。首先,依據中圖分類號限定檢索范圍,人工智能領域為TP18(人工智能理論)或TP242.6(智能機器人)以及它們的下位類目,神經病學領域為R749及其下位類,構建檢索式((分類號%TP18) OR (分類號%TP242.6)) AND (分類號%R741)。檢索后發現返回結果漏檢率較高,因為人工智能是計算機科學的一個分支,且屬于新興領域,其分類號的賦予沒有很強的邊界。因此,本文同時采用主題詞檢索的方式作為補充,即(主題=人工智能 OR 智能機器人 OR AI OR 機器學習OR 深度學習 OR 人工神經網絡 OR 卷積神經網絡 OR 循環神經網絡 OR 認知計算 OR 強化學習OR 集成學習 OR 監督學習),并且文獻分類為神經病學。上述兩種檢索方式均不限制論文發表的時間范圍,論文類型選擇期刊論文和學位論文,檢索日期為2022年1月20日。綜合兩種檢索方式的結果,將從4個學術平臺中得到的文獻題錄、摘要導出。之后,對數據進行清洗,包括去除不同來源的重復文獻、會議通知、報道以及其他不相關的文獻(如由主題詞AI會檢索出包含“載脂蛋白AI”的論文),最終共獲得2 094篇科技論文。

對原始數據集進行初步清洗后,去除綜述類的論文,并將2021年10月至檢索時發表的53篇論文作為待識別創新點的論文集,剩余的1 783篇作為構建知識圖譜的語料集。最后,通過Python中的re模塊對每篇論文的摘要進行分句,調用split()方法,以中英文的分號、問號、感嘆號、句號等作為分隔符號對句子進行切分,并對錯誤切分的句子進行人工處理,最終共獲得17 100余條句子。

3.2 實驗過程

3.2.1 確定實體及關系類型

限定域的信息抽取是預先定義好實體關系類別的抽取任務。本文在定義Schema約束集合時,基于SciAIEngine的NER_MED_CN(醫學領域科技文獻命名實體識別)和NER_SCI_CN(中文科研實體識別)功能,識別出實體及實體類型,單篇論文識別的結果分別如圖3和圖4所示。由于單篇論文涉及的實體類型有限,因此采用SciAIEngine的API接口功能,隨機上傳了50篇論文的摘要,綜合參考兩個功能模塊的返回結果,關系類型的定義則根據句子描述進行提煉。從理論上來講,每個句子中包含至少1個三元組,但科技論文摘要的句子結構復雜,且包含諸多背景信息,如“就目前的醫療水平,未能明確該病的病因,無法徹底治愈帕金森病,只能在早期控制該病的發展”一句,從中無法獲取有用的三元組。因此,本文主要依據“反映論文研究問題、方法、主要結論、關鍵技術”的標準,總結出了19類需要抽取的三元組,包含10類實體、19類關系。此外,科技論文中細粒度的概念、實體及關系都是為了揭示特定研究問題,孤立的三元組意義不大,比如方法A優于方法B是在特定的研究問題下得出的結論。為了解決這一問題,本文補充了另一種三元組類型,即論文—包含—實體,將屬于同一篇論文的實體聯系起來。綜上,本文定義的Schema集合如表2所示。

圖3 NER_MED_CN識別結果

圖4 NER_SCI_CN識別結果

表2 Schema約束集合

表2(續)

3.2.2 人工標注

根據Schema約束集合,從論文摘要中選取包含預定義實體及關系類型的句子,共有3 635個,表3列舉了待抽取的句子實例。因為數據量較少,為了達到較好的模型訓練結果,本文將選取較大比例的數據(2 635句)進行人工標注,剩余的1 000條句子用訓練好的模型進行三元組抽取。數據標注工作由一名醫學信息學領域的博士完成,之后邀請專家核對。人工標注的數據以json格式進行存儲,具體格式如表4所示。

表3 待抽取三元組的句子舉例

3.2.3 基于Bert4keras深度學習模型的知識抽取

本文采用百度LIC2020的關系抽取賽道中開源的非官方Baseline進行訓練,并在Python3.6.3、Tensorflow 1.14平臺上完成,具體的實驗環境配置如表5所示。訓練時,將標注好的數據集以4∶1的比例劃分為訓練集(train_data.json)和驗證集(dev_data.json),在訓練集上訓練模型,在驗證集上評估模型。實驗參數的設計為:maxlen=256、epochs=20、batch_size=16、learning_rate=2e-5,加載大規模中文預訓練模型—24層RoBERTa進行訓練。模型的好壞通過對驗證集中預測結果與真實標注的對比實現,如圖5所示。“text”是待抽取三元組的句子,“spo_list”是人工標注的結果,“spo_list_pred”是深度學習模型預測的結果,“new”是預測結果比標注數據多出的三元組,“lack”是未預測出的三元組。評價指標采用準確率(Precision)、召回率(Recall)和f1值,當跑完20個Epoch之后,效果最佳的模型會被保存。除了24層RoBERTa模型以外,實驗還加載了12層RoBERTa模型、BERT模型、ALBERT模型,對不同預訓練模型進行了總結對比,如表6所示。從中可以看出,最優模型是24層RoBERTa。最后,利用最優模型對未標注的數據集進行知識抽取,并進行人工校對,糾正預測錯誤的數據并補充遺漏的三元組。

表4 數據標注舉例

表5 實驗環境配置

表6 知識抽取模型測試結果

圖5 驗證集預測結果示例

3.2.4 知識融合與存儲

從所有數據集中共抽取出7 408個三元組,加上“論文—包含—實體”的關系后,最終共獲得22 224個三元組。科技論文中同一實體有多種表述,如“腦卒中”又稱“中風”,“卷積神經網絡”的英文縮寫“CNN”,“功能性步行分級(FAC)”的不同表述“功能性步行量表(FAC)”,因此需要進行實體對齊。該過程是在參考專業詞庫的基礎上由醫工交叉領域的學生輔助完成。之后,將融合后的實體關系三元組存儲到Neo4j圖數據庫中,采用Py2neo創建節點和關系,并通過merge()函數進行實體匹配,避免重復創建節點。在“論文—包含—實體”的三元組關系中,為每篇論文賦予序號標簽。最終創建的知識圖譜局部示意圖如圖6所示,從圖中可以直觀地看出,“卷積神經網絡(CNN)”與多個實體之間存在直接關系,被用于預測“癲癇發作”、提取“深層語音特征”、識別“高頻振蕩信號(HFOs)”、分類“顱內出血亞類型”等;“腦出血”通過“顱腦CT圖像”診斷,并有研究采用“共享淺層參數多任務學習方法”對其進行分類。圖7是“論文—包含—實體”的三元組關系局部示意圖,可以將同屬于一篇論文的實體聯系起來,比如第26篇論文中包含了實體“急性腦卒中”“SVM”“血管內取栓(EVT)治療后預后”“選擇算子(LASSO)回歸模型”“相關分析”“單因素分析”“血管內取栓(EVT)”“最小絕對收縮算子(LASSO)算法”“彌散加權成像DWI的影像組學特征”9個實體,在整體的知識圖譜中,這些實體之間的關系也可以直觀地獲取,由此可以得出該論文的主要技術要點為采用支持向量機(SVM)預測腦卒中血管內取栓(EVT)治療后預后。圖8是“方法模型—預測—疾病癥狀”的三元組關系局部示意圖。從中可以得出,針對同一種疾病癥狀,現有研究都采用了哪些方法模型對其進行預測;而針對同一種方法模型,目前都用于預測哪些疾病癥狀。

圖6 面向“人工智能+神經病學”領域科技論文的知識圖譜(局部)

圖7 “論文—包含—實體”的三元組關系示意圖(局部)

3.2.5 創新點識別與知識補充

1)創新點識別。將近期發表的未納入知識圖譜中的53篇論文作為創新點識別的實驗對象,針對每篇論文抽取預定義類型的三元組,然后與知識圖譜進行對比。以2021年11月發表的論文“基于LSTM-SVM模型和SNP遺傳信息的帕金森疾病識別問題研究”為例,從摘要中抽取的三元組包括“LSTM-SVM模型—檢測—帕金森疾病”“LSTM-SVM模型—采用—單核苷酸多態性(SNP)數據”“LSTM網絡—自動提取—SNP關鍵特征”。利用Neo4j中的Match()函數構造查詢語句match(n:‘疾病癥狀’{name:‘帕金森病(PD)’})<-[r:‘檢測’]-(p)return p,n,r,即利用關系和終點查詢起點,結果如圖9所示。現有研究中用于檢測“帕金森病(PD)”的方法模型有DNN(深度神經網絡)、決策樹、深度卷積神經網絡、基于時間的長短期記憶網絡(LSTM)、SVM、AdaBoost等,但未發現將LSTM和SVM聯合使用的模型。其次,利用查詢語句match(n)--(p:‘數據資料’{name:‘單核苷酸多態性(SNP)數據’}) return n 或者match(n)--(p:‘數據資料’{name:‘SNP數據’}) return n查詢所有和p有連線的節點,未發現基于此類數據利用人工智能方法檢測帕金森病的相關中文論文。最后,通過match(n)<-[r:‘檢測’]-(p:‘方法模型’{name:‘長短期記憶(LSTM)網絡’}) return n語句,查詢是否已有研究采用LSTM模型提取SNP特征,結果是否定的。因此,上述3個三元組便反映了該論文的創新點。2021年12月發表的論文“鏡像療法聯合下肢康復機器人治療對腦卒中偏癱患者下肢運動和平衡功能的影響”摘要中涵蓋的三元組有:“鏡像療法聯合下肢康復機器人—輔助康復—腦卒中偏癱患者”“下肢康復機器人—改善—下肢步行能力”“下肢康復機器人—改善—平衡功能”,通過同樣的方法與知識圖譜中的三元組進行匹配,發現這些實體及關系均已存在,因此該論文在預定義類型的知識框架中沒有相應的創新點。

圖9 檢測關系中尾實體“帕金森病(PD)”對應的頭實體查詢結果

在創新點識別的過程中,可以挖掘出更深層次的知識。如根據帕金森疾病的現有檢測方法與其他疾病節點之間的聯系,推測這些疾病與帕金森的共性,發現與這些疾病相連的其他方法模型、治療手段,以及各類方法模型之間的性能對比等。利用知識圖譜各節點之間錯綜復雜的關系,幫助研究人員挖掘更多的隱性知識,通過現有知識重組或引入新理論、新方法、新的研究對象等方式實現多維度的科技創新。對于識別出的創新點,從單篇論文來看是概括和提煉出的創新情報元素。從整個研究領域而言,在時間維度上將不同論文之間的創新點關聯起來可反映領域創新演化的過程,形成一種創新情報鏈,揭示創新的發展規律,可以為科研人員提供知識結構化、網絡化視角下的創新借鑒。此外,這些創新點也可以作為科技論文創新性評價的依據。

2)創新點識別效果評估。為評估上述方法在科技論文創新點識別中的效果,特邀請3名生物醫學工程領域的專家,利用自身經驗從53篇論文中提煉出創新點,并與該方法識別出的結果進行對比。經過3輪征詢統一專家意見,最后共提取出50個創新點,分布在25篇論文中。通過本研究方法共抽取出196個三元組,識別出47個創新點,分布在24篇論文中。如果以專家判斷為準,識別錯誤(即非創新點識別為創新點)的有1個,遺漏的有4個,識別的精確率為97.87%(46/47),召回率為92%(46/50)。總結原因,可能與三元組抽取的局限性有關,比如句子“根據臨床背景歸納離散型變量類型并進行編碼,統一連續性變量取值”中主謂賓不明確,無法抽出有用的三元組,進而會對創新點識別產生影響。

3)知識補充。對新發表的論文識別出創新點以后,通過Neo4j中的Create()方法將新的實體及關系補充入知識圖譜中,比如create(p:‘方法模型’{name:‘LSTM-SVM模型’})-[:檢測]->(n:‘疾病癥狀’{name:‘帕金森病(PD)’})。對于特定學科領域,每發表一篇科技論文,在識別其創新點之后將其補充入知識圖譜,如此循環往復形成一種動態識別的模式,實時監測領域科技創新發展的動態。情報機構可以根據知識圖譜實時更新的結果為研究人員提供創新情報推送服務,為研究人員對

已有創新的借鑒、對前沿技術的研判提供支撐,為科技政策制定者、高校、高新技術企業等各類創新主體提供決策支持。

4 討論分析

本研究利用知識圖譜對“人工智能+神經病學”領域科技論文中的知識進行了細粒度地揭示、描述及關聯,并實現了科技論文創新點的動態識別。該方法的優勢主要體現在以下幾個方面:

1)創新科技論文的知識組織方式。提供了一種從非結構化數據中抽取、整合知識的技術方案,構建了基于論文內容而非外部特征(如題名、作者、單位等)的知識圖譜,對同一領域的研究成果進行知識關聯,能夠深層次、直觀地揭示現有研究問題、研究方法、理論基礎、結論等創新要素。

2)發現創新情報、動態監測并推動科技創新。面向特定領域研究成果的知識圖譜全面揭示了該領域的研究問題、技術與方法等創新要素及其潛在關聯,一方面有助于發掘創新情報,分析現有研究從哪些角度進行了創新,從而為后續創新提供借鑒;另一方面,通過與知識圖譜的對比可以判斷最新研究成果中是否出現了新的觀點、技術或方法,重復創新點的識別與填充,能夠動態監測該領域的科研創新。最重要的是,研究人員可以根據知識圖譜中實體及其相互聯系,發現創新的突破口。比如,現有研究中預測癲癇發作的AI方法有哪些,并根據“論文—包含—實體”的關系鎖定采用這些方法的文章,獲悉其分析對象是病歷數據、腦電數據亦或是磁共振影像數據,從而獲得新的啟發。通過重用領域知識,從知識重組、提出新方法或面向新的研究對象等方面找到科技創新的切入點。

3)助力科技論文創新性評價。一方面,在期刊審稿與選稿過程中,該方法能夠通過單篇論文與領域知識圖譜匹配的方式快速識別論文創新點,一定程度上可以節省專家評審論文的時間與精力;另一方面,知識圖譜對特定研究領域全景式的知識揭示,可以彌補專家自身知識結構中的模糊空間,有助于兼顧論文創新性評價的客觀性與科學性。

然而,本研究在實證部分也存在一些局限:首先,數據采集過程中,從4個學術平臺獲取數據集,同時也不斷調整和改善檢索方式,盡可能地提高查全率。但由于網絡學術資源的分散性、異源異構性以及獲取權限的問題,并不能覆蓋特定領域的全部中文科技論文。其次,知識抽取是在預設實體及關系類型前提下的限定域抽取,并不能反映論文中的所有知識點。針對上述問題,待識別創新點的論文與知識圖譜構建的論文集來源渠道、獲取方式一致,對比的三元組類型一致,因此研究結果是可靠的,但仍然需要不斷探索解決方案,比如嘗試開放域的知識抽取方法,擴大數據收集范圍等。

5 總結與展望

基于知識圖譜識別科技論文的創新點,對于促進科學研究的創新發展具有重要意義。研究主要得出以下結論:基于“半指針—半標注”策略的Bert4keras深度學習模型能夠有效抽取科技論文中的細粒度知識,準確率較高;將知識圖譜應用于科技論文創新點的動態識別任務中具有一定的可行性,效果良好。

基于研究結論,提出以下建議:在現有的學術資源檢索系統中,參考該方法嵌入知識問答和創新情報推送的功能模塊。一方面,針對特定研究領域,基于知識圖譜中潛在的知識關聯,為科研人員提供關于具體研究問題、研究方法、研究對象以及研究結論的自動問答服務,把握該領域研究進展;另一方面,監測某一領域的科技創新情況,發現并向研究人員提供創新性科技論文、細粒度的創新點、獨特的創新視角等情報,幫助他們從已有創新中啟發新的研究思路。同時,這兩項功能也可以作為專家評審論文的借鑒。

本研究存在的不足主要體現在:僅采用交叉學科領域的中文科技論文摘要作為研究對象,數據覆蓋范圍有限,抽取的實體及關系類型有限,普適性不夠強。在后續的研究中,將進一步擴大研究范圍,拓展學科領域,結合論文摘要與總結探索更多樣的實體關系類型,使該方法具有更廣泛的適用性。

猜你喜歡
科技方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
科技助我來看云
科技在線
3D打印中的模型分割與打包
科技在線
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
科技在線
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 精品久久久久无码| 亚洲愉拍一区二区精品| YW尤物AV无码国产在线观看| 欧美日韩亚洲国产主播第一区| 老司机久久99久久精品播放| 日韩无码黄色| 少妇人妻无码首页| 国产精品久线在线观看| 中文国产成人精品久久| 91精品专区| 九色综合视频网| 超薄丝袜足j国产在线视频| 亚洲精品成人7777在线观看| 亚洲国产系列| 欧美一级夜夜爽www| 国产在线麻豆波多野结衣| 在线免费无码视频| 2020国产精品视频| 亚洲第一精品福利| 欧美午夜视频在线| www.亚洲一区| 久爱午夜精品免费视频| 国产无套粉嫩白浆| 亚洲乱码在线视频| 美女无遮挡拍拍拍免费视频| 国产a v无码专区亚洲av| 亚洲天堂精品在线观看| 亚洲人成人无码www| 99久久国产综合精品2020| 99在线国产| 精品国产免费观看一区| 91精品最新国内在线播放| 韩国福利一区| 成人午夜久久| 亚洲av日韩av制服丝袜| 91无码人妻精品一区二区蜜桃| 中文字幕乱码二三区免费| 夜夜操狠狠操| 久久国产精品麻豆系列| 久久精品丝袜高跟鞋| 欧洲高清无码在线| 亚洲精品大秀视频| AV天堂资源福利在线观看| 欧美激情二区三区| 啦啦啦网站在线观看a毛片| 在线精品视频成人网| 国产日韩久久久久无码精品| 女同久久精品国产99国| 精品国产黑色丝袜高跟鞋| 嫩草在线视频| 亚洲第一在线播放| 久久精品这里只有国产中文精品 | 狠狠五月天中文字幕| 欧美色视频在线| 色综合a怡红院怡红院首页| 国产丝袜91| 欧美国产日韩在线观看| 国产成人麻豆精品| 成人伊人色一区二区三区| 香港一级毛片免费看| 亚洲视频三级| 97青草最新免费精品视频| 99热这里只有免费国产精品| 国产欧美日韩18| 第一页亚洲| 国产高颜值露脸在线观看| 波多野结衣一区二区三视频| 呦女亚洲一区精品| 狠狠v日韩v欧美v| 毛片在线播放a| 98精品全国免费观看视频| 国产日韩精品一区在线不卡| 久久人搡人人玩人妻精品| 天天视频在线91频| 亚洲天堂日韩av电影| 国产精品一区二区国产主播| 国产精品九九视频| 青青草一区二区免费精品| 国产精品福利一区二区久久| 欧美成人精品一区二区| 亚洲天堂网视频| 欧美高清三区|