999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學術文摘創新點挖掘的認知分析方法

2021-06-14 02:12:52何茜茹
情報學報 2021年5期
關鍵詞:語義分類

溫 浩,何茜茹

(西安建筑科技大學信息與控制工程學院,西安 710055)

1 基于文摘創新點的知識問答服務

如何有效利用海量文本學術資源為人類提供最直接的內容知識問答服務,而不僅僅是信息檢索服務,一直是人工智能在自然語言處理領域研究的目標。目前的科技學術文摘是以文本方式組織而成的,如果想要利用人工智能技術解決知識服務問題,就需從科技學術文摘內容中挖掘出具有獨立存在的創新點事實單元,將其分解為問題、方法、結果的實體和語義關系,建立以創新點事實為知識單元的知識庫。文獻[1]對《計算機學報》文摘進行數據統計分析,研究了文摘創新點中特征詞匯的句子分布規律,對文摘創新點中名詞-動詞的語義關系進行了聚類分析,構建了期刊文摘創新點的語義本體模型,建立了文摘創新點的對象名詞與語義動詞部分詞庫。實驗結果表明,研究具有很好的語義識別與分類準確率,但是這一基于統計學習的方法受到詞庫數量、領域變化、寫作者風格等因素的限制,嚴重地影響著從中文科技期刊文摘中挖掘表達創新點的“問題、方法、結果”三元組知識單元的挖全率,影響著基于三元組建設智能化知識創新點問答服務系統需求的急迫性。

在前期研究的基礎上,本文對科技文摘創新點的報道性、詞匯語義分布的一致性、謂語動詞的語義理解性、語用功能的分類性和句法模型的隱含性五種認知分析方法進行了深入的研究,期望找到科技文摘創新點挖掘的認知分析方法,對基于創新點知識庫的建設和智能問答系統的服務提供理論和方法的指導作用。

2 學術論文文摘報道創新點的認知分析

為了規范文摘編寫和便于國際化信息交流,國際標準化組織頒布了國際標準ISO 214-1976(E)(Documentation-Abstracts for Publications and Docu‐mentation)[2];我國也公布了相應的國家標準《文摘編寫規則》(GB 6447-86)[3]和國家標準《科學技術報告、學位論文和學術論文的編寫格式》(GB 7713-87)[4]。

國際標準ISO 214-1976(E)指出,文摘是對原文獻內容準確、扼要而不附加解釋或評論的簡略表述,其規定:文摘應包括目的、方法、結果與結論以及附帶信息。國家標準(GB 7713-87)規定,摘要是報告、論文的內容不加注釋和評論的簡短陳述。摘要應具有獨立性和自含性,即不閱讀報告、論文的全文,就能獲得必要的信息,要便于檢索。摘要應說明研究工作的目的、方法、成果和結論,要突出本論文的新見解,語言精練。

國家標準(GB 6447-86)還規定了文摘編寫詳細規則的5個要素:①目的(研究、研制、調查等的前提、目的和任務,所涉及的主題范圍);②方法(所用的原理、理論、條件、對象、材料、工藝、結構、手段、裝備、程序等);③結果(實驗的結果、研究的結果、數據,被確定的關系,觀察結果,得到的效果,性能等);④結論(結果的分析、研究、比較、評價、應用,提出的問題,今后的課題,假設,啟發,建議,預測等);⑤其他(不屬于研究、研制、調查的主要目的,但就其見識和情報價值而言也是重要的信息)。

對于文摘研究的文章有很多,文獻[5]把科技文摘的形式分為4類:報道性(informative)、指示性(indicative)、混合性(indicative-informative)和評論性(review abstract)。并強調報道性文摘概述原文內容的要點,特別是創新點,向讀者提供定量和定性信息,反映原文的技術內容,包括研究對象、工作目的、結果、性質、方法和條件等有關的各種資料,適用于學術論文和技術報告。

本文對學術文摘的認知分析方法可以歸納為:①學術文摘是論文內容要點的概括;②報道創新點是學術文摘的核心;③文摘具有與原文的獨立性和自含性;④文摘的功能便于信息檢索;⑤文摘報道創新點的核心內容便于今后用于知識發現。

目前,文摘的信息檢索功能已經被普遍使用,但由于受到技術的制約,利用文摘的創新點進行知識發現還未實現,本文的研究目的就是對自然語言表述的文摘的創新點語句進行詞匯特征統計,語義關系識別,語用功能分類、句法模式挖掘,建立以“問題方法-結果”為三元組結構的知識庫,基于三元組知識庫開展知識問答服務、加速新知識的發現。

3 文摘創新點詞匯語義分布的認知分析

3.1 文摘動詞和名詞的詞匯數量分布

雖然國際標準和國家標準均對文摘的寫作規范給出了明確的規定,但作者寫作的語言表達風格卻是不一樣的,因此,智能挖掘文摘創新點首先需要進行語義識別。語言學家認為,作為語義分析的基本單位是從詞(比語素高一層的語言單位)開始的,因為詞是語言中能夠獨立運用的最小單位,所以要找出語義的基本單位必須先從詞入手[6]。為揭示學術文摘中作者表達創新點的詞匯語義分布特征,需要了解文摘的語言特點,包括高頻詞匯的分布信息。本文從北京萬方數據股份有限公司獲得的3410篇《計算機學報》文摘和8235篇《電子學報》文摘,對這些文摘進行動詞和名詞的統計分析工作。統計方法有:①利用ICTCLAS分詞工具對文摘進行分詞;②統計文摘動詞的詞頻和名詞的詞頻;③統計兩種學報文摘的高頻動詞和高頻名詞分布的一致性;④統計文摘動詞在句子中的分布特征。

統計結果表明,3410篇《計算機學報》文摘的總字數為226111個,動詞的數量為30944個,平均每篇文摘有9.07個動詞,詞頻最高的動詞是“提出”,詞頻高達到5284次,占總動詞30944的17.1%,平均每篇文摘有1.55個“提出”這個動詞。8235篇《電子學報》文摘的總字數為1681116個,動詞的總數為224048個,平均每篇文摘有27.02個動詞,頻率最高的動詞是“提出”,頻率高達到8423次,占動詞總數224048個3.8%,平均每篇文摘有1.023個“提出”這個動詞。

《計算機學報》文摘和《電子學報》文摘的部分高頻動詞和高頻名詞統計結果如表1所示。

表1《計算機學報》文摘和《電子學報》文摘的高頻動詞和名詞

3.2 兩種文摘高頻動詞和高頻名詞一致性分布

取兩種學報文摘動詞詞頻最高的前2286個動詞進行分析。其中,兩種學報共有的動詞為1403個,平均一致性為0.61。兩種學報文摘共有的動詞詞頻最高的是“提出”,兩者前10個動詞共同有的為7個,前50個動詞共同有的為31個,前100個動詞共同有的為61個,前500個動詞共同有的為326個,前1000個動詞共同有的為650個,前2000個動詞共同有的為1262個。兩種學報文摘的高頻動詞一致性分布如圖1所示,橫坐標為對數坐標。

圖1 兩種學報文摘的高頻動詞一致性分布

取兩種學報文摘名詞最高的前2949個名詞,兩種學報最高詞頻共同有的名詞為1076個,平均一致性為0.36。兩種學報文摘共有的最高詞頻名詞為“算法”,兩者前10個名詞共同有的為7個,前50個名詞共同有的為34個,前100個名詞共同有的為54個,前500個名詞共同有的為263個,前1000個名詞共同有的為477個,前2000個名詞共同有的為810個。兩種學報文摘的高頻名詞一致性分布如圖2所示,橫坐標為對數坐標。

圖2 兩種學報文摘的高頻名詞一致性分布

統計結果表明,兩種學報文摘的動詞一致性為0.61,名詞的一致性為0.36。這說明了高頻動詞的變化規律比較平穩,而高頻名詞隨著專業的不同和數量的增大變化比較大。這一結果說明,建立動詞庫比建立名詞庫更具有分析文摘創新點特征的價值。然而,實驗結果表明,僅使用高頻動詞的分類,效果不夠理想,因為一個句子中的動詞有多個,有的分詞工具會將名詞分為動詞,只采用動詞對文摘進行問題、方法和結果分類的準確率只能達到0.36,因此,還需要考慮動詞在句子中的位置分布特征。

3.3 高頻動詞的句子位置分布特征

動詞的詞頻變化規律對于文摘創新點的分析具有重要意義,同時,高頻動詞的句子位置分布特征信息也具有重要價值。為了尋找高頻動詞的句子位置分布規律,本文對《計算機學報》文摘中的高頻動詞句子位置分布特征進行統計分析。《計算機學報》文摘的句子最多為10句、最少為3句。部分高頻動詞的句子位置分布如表2所示,表中列出了前23個高頻動詞在文摘的每個句子中的分布數量。

從表2可以看出,動詞不僅有頻率的分布信息,還有位置的分布信息。動詞主要集中分布在文摘句的第1~4句上,每個動詞在句子的分布上具有其一定的位置特征。例如,“提出,利用,分析,提高,證明,得到,研究,解決,處理,建立,介紹”在第1句上分布較多,“實現,具有,采用,使用,能夠,求解,設計,存在”在第2句上分布較多,“表明”在第4、3、5句上較多,“提供”在第4、5句上分布較多。因此,通過動詞在文摘句的位置分布信息可以掌握動詞表達句子的語義信息,但由于位置信息的分布還比較廣泛,通過動詞的詞頻和位置信息還難以對文摘創新點進行有效分類。

為了進一步對文摘的動詞進行深入分析,本文把文摘句進一步細分為以句號結尾的句子和以分號與逗號結尾的子句,分析文摘中的動詞在某個句子的某個子句中的位置信息。表3給出了前10個高頻動詞在前4個句子中的子句位置上的分布特征。表3中用x表示句子,y表示子句,如x1y2表示每個文摘中第1個句子中的第2個子句中的動詞位置數量。

表2 高頻動詞的句子位置數量分布特征

從表3可以看出,高頻動詞在每個句子和其子句的分布上表現出明顯的個性化分布特性。例如,“提出”在1個句子上出現的次數最高(1932次),在第1句的子句上出現次數分別是:1047、518、196、92、34、14、5、8、6、3。又如,“表明”在第4句上出現的次數最高(431次),在第4句的子句上出現的次數分別是:351、44、23、9、2、0、1、1、0、0。

表3 高頻動詞在子句中的位置數量分布特征

本文利用表2和表3文摘中動詞在句子和子句中的分布特性,可以為建立創新點的本體結構圖的語義關系提供理論依據和技術方案。例如,通過問題類的動詞{針對、存在},方法類的動詞{提出,利用,采用},結果類的動詞{表明,提高,得到,解決}。問題類的名詞{問題,不足,熱點,瓶頸,難題},方法類的名詞{模型,定義,模式,性質,誤差,算法,方法,理論},結果類的名詞{策略,效率,優點,冗余度,指標,穩定性},建立文摘創新點的語義本體結構。

考慮了動詞的位置分布特性后,本文對文摘的問題、方法、結果分類的準確率可達到78%,比未考慮動詞位置的準確率提高了1倍。

研究結果表明,統計分析的挖掘方法操作起來比較簡單,但從表1和表2可以看出,同一個詞匯被標記成動詞和名詞,如“研究、分析、設計、應用、仿真、影響”,這不僅表現出目前的分詞工具質量不高的問題,還在于缺乏對句子的謂語動詞的語義識別,也是影響文摘創新點準確分類的本質問題。

4 文摘創新點謂語動詞語義理解的認知分析

4.1 中文分詞工具會扭曲句子的語義理解

目前,中文分詞工具的準確性不高會造成中文句子語義理解的困難。本文采用了三種分詞工具對《電子學報》文摘進行分詞實驗,下面給出一條文摘(8089號)的分詞結果。選擇這條文摘是因為這條文摘只有兩句話,第一句話為一條獨立的句號句的句子;第二句話是含有14個逗號句的句子。這類文摘在以后的分類中也會帶來很多分類處理上的麻煩。表4~表6分別給出了三種分詞工具對這條文摘部分內容的分詞處理結果:表4為采用ICTCLAS分詞工具的分詞結果,表5為采用Stanford Parser分詞工具的分詞結果,表6為采用哈工大-SecureCRT.rar分詞工具的分詞結果。展示的(8089號)文摘部分內容帶有6個逗號、分號和句號。比較幾個分詞工具可以看出,ICTCLAS分出20個動詞,Stan‐ford Parser分出8個動詞,哈工大-SecureCRT.rar分出18個動詞。其中,哈工大-SecureCRT.rar依存樹工具對這條兩個句號的文摘句只給出了一個句子的謂語動詞,另一句話沒有識別出來。

表4 ICTCLAS分詞處理后的文摘句

表5 Stanford Parser分詞處理后的文摘句

表6 哈工大-SecureCRT.rar分詞處理后的文摘句

通過表4~表6的分詞結果可以看出,Stanford Parser分詞工具分詞的準確性相對較高,對逗號句也能給出謂語動詞,但仍然有分錯的地方。例如,在這一例子中,Stanford Parser分詞處理結果中的“支持/VV,并行/VV,存在/VV,面臨/VV”,這4個動詞都不是謂語動詞。在ICTCLAS分詞處理結果中的“構/v,計算/v,構/v,編程/v,支持/v,應用/v,構/v,構/v,構/v,并行/v,優化/v,構/v,存在/v,面臨/v,挑戰/v”,這15個動詞都不是句子的謂語動詞。在哈工大-SecureCRT.rar分詞處理結果中的“異v,計算v,發展v,支持v,應用v,發展v,并行v,編程v,優化v存在v,面臨v,挑戰v”,這12個詞也不是句子的謂語動詞。

目前,常用的分詞工具雖然取得了很大的進展,但還存在一些問題:①準確率還需要進一步提高;②對名詞等不起語法和語義作用的詞進行了過細的劃分。例如,“提出了一種能夠解決現有問題的方法。”經過分詞系統的劃分之后,能夠/解決/有/都被標定為動詞,那么這些詞就有可能被誤判為這句話的謂詞。然而,這句話的謂語應該是“提出了”。所以對名詞再進行細分有時候是得不償失的;③有些介詞雖然不是句子的核心成分(謂語),但是卻起到了引導特定類別句子、短語的引導詞的作用。例如,“針對這個問題,提出了一種算法。”在這句話中,“針對”是個介詞,當然也不是這句話的謂語,然而這個詞卻引出了問題句的短語,相應的該問題句應該被分離出來。所以綜合這三個問題,現有的分詞工具還不能被用于進行語義單元的提取。

因此,利用目前的分詞工具進行分詞和詞性處理后的句子,仍然達不到機器語義理解的要求。

4.2 文摘句謂語動詞語義識別與主謂賓結構轉換

在對句法、語義關系這個語法學中心問題的研究上,中外許多語法學家和語法流派都十分強調動詞是敘事句的中心。文獻[7]認為,“從語義結構探討句子的形式與意義的關系,有益于正確認識句子的表層結構(形式結構、結構模式)和深層結構(語義模式)之間的相互聯系,加深理解句子形式與意義的關系。”文獻[8]認為,“動詞是句子的中心、核心、重心,別的成分都跟它掛鉤,被它吸引。”文獻[9]認為,“以動詞謂語句而言,謂語動詞是語義結構的核心(動核),而句中的名詞性成分都是這一核心的種關系(動元)。”文獻[10]認為,“動詞跟受其支配的語義成分可以構成一個最小的語義結構。這些最小的語義結構,都具有一定的表述性,能表達一個相對完整的命題或意義,能投射成一個具有相對獨立表述功能的意義自足的最小主謂句。”

更為重要的是,因為一個漢語句子可以有多個動詞,每個逗號短語句都可包含有謂語成分的語義關系。文獻[11]認為,“漢語多動詞謂語句是漢語句子基本結構的一個重要特點。理解這類句子時,必須分析這些動詞之間的語義聯系,譯成英語時,常常只將其中的一個動詞譯成英語謂語動詞,而將其他動詞轉換成非謂語動詞或其他形式。”文獻[12]認為,“在確定一個句子和基本單元時,把句點顯性標識的一個語言片段稱為句子,以逗號分隔的語言片段稱為小句,認為小句對應于句子關系的基本單元。”因此,本文認為對于科技文摘創新點句子的謂語動詞分析,不僅僅是句子結構的分析,還要從最小的逗號句進行分析,所以識別句子的謂語動詞,挖掘句子的主謂賓結構是文摘創新點句子理解的關鍵。由此漢語文本語言的語義識別的核心問題可以看作是尋找句子和逗號子句(或小句)準確的謂語動詞的難題。

因此,本文提出了通過句子的謂語動詞的識別來解決語義理解的認知分析方法結構,開發了一套《中文科技文摘句謂語動詞識別與句子的主謂賓結構轉換軟件工具》,這個軟件工具能夠將中文科技文摘句很好的轉換為機器理解所需要的語義關系結構,并且這種語義結構的句子在后續建立知識庫和謂詞的語義推理中將發揮重要作用。

為了建立高準確率的文摘句的謂語動詞的語義識別率,為今后的謂詞推理建立可靠的基礎,本文研究了句子謂語動詞的智能識別問題,先利用ICT‐CLAS分詞工具對《電子學報》文摘句進行了分詞;然后對分詞后的文摘句進行謂語動詞識別,并將句子的其他標記成分取掉,把句子改造成為主謂賓結構。表7給出用中文科技文摘句子謂語動詞識別與主謂賓轉換軟件對文摘(8089號)處理的結果。

表7 句子謂語動詞識別與主謂賓轉換后的文摘句

由表7可以看出,文摘(8089號)為2個句號句子,14個逗號子句,共識別出16個謂語動詞。每個由“逗號、分號、句號”組成的句子都包含有謂語動詞,這些謂語動詞準確的表達了句子的語義和語用關系,去掉了其他多余的詞性標記會更能清晰的表達句子的語用功能,這對機器理解中文文本的語義和語用功能帶來了更大的好處。

5 文摘創新點語用分類的認知分析

5.1 文摘語用功能的句子分類數量分布

按照文摘中句子所表達語用功能的特征,本文把文摘句子分為6種語用類型:第1類(問題句)、第2類(方法句)、第3類(結果句)、第4類(問題句、方法句)、第5類(方法句、結果句)、第6類(問題句、方法句、結果句)。先進行第一次6分類,然后將6分類中的第4、5、6類混合類進行二次單一類分類,最后與第一次分出的第1、2、3類句合并,完成三種語用功能的分類任務。

本次研究對象來自萬方數據庫提供的文摘,經過預處理后為8235條(32686個句號句),平均每條文摘3.48句,最長的一條文摘為13個句號句子。表8是本文對8235條文摘進行第一次6分類結果的統計數據。

表8 語用功能的文摘句子6分類數量分布

我們把表8分為兩部分,第一部分為可直接分類為第1、2、3類的單一類句子,這類句子表達的語用功能單一。第1、2、3類的句子數為26382,占總句子32686的81%。此外,從表8可以看出,第1類主要分布在第一句、第二句、第三句上,第2類主要分布在第二句、第一句、第三句上,第3類主要分布在第三句、第四句、第二句上。第二部分為第4、5、6類句子,這類句子的語用功能結構復雜、有多個語用關系,不能直接分為第1、2、3類。第4、5、6類句子數量為6304,占總句子32686的19%。第4、5、6類句子屬于混合類句,需要進行二次分類。此外,第4類主要分布在第一句、第二句上,第5類分布在第二句、第三句上,第6類分布在第一句、第二句上。

5.2 二次分類與合并的數量分布

第4~6類句子的二次分類結果如表9所示。

由表9可以看出,“句子大序號”是本文對《電子學報》8235條文摘按逗號分句后建立的數據庫順序號;“文摘號”是數據庫的文摘編號;“文摘內句子號”是對每條文摘中句子的編號,其中,1、2分別表示這條文摘的第1個句號句和第2個句號句,這條文摘只有2個句號句子;“原分類號”指的是經過第一次6分類后給出的分類結果,其中,6表示這個文摘的第2句被分為第6類;“新分類號”是經過二次分類后給出的分類號,文摘號為8098文摘的第2句話被第二次分類分成了1、2、3類,并分成了14個逗號句。

經過二次分類與一次分類的1、2、3類合并后,全部文摘分類的1、2、3總分類句的數量分布如表10所示。一次分類的句子(句號句)數量為32685,二次分類合并后的句子(逗號、分號、句號)為43999。

由表10可以看出《電子學報》文摘創新點的1、2、3類的分布有兩個特點:①第1類占總句(包括逗號、分號、句號)的31.1%,第2類占總句的45%,第3類占總句的24%,說明了文摘表達第2類的句子數量比較多。②第1類主要分布在第1、2、3、4句,第2類分布在2、1、3、4句,第3類主要分布在第3、2、4、5、1句。

通過人工抽查驗證,本文提出的按照文摘句的語用功能進行6分類,再二次分類方法操作簡單,且取得的分類準確率較高。經過人工對300條文摘檢驗,準確率高到達96%以上。

6 文摘創新點隱含句法模型的認知分析

6.1 文摘中第1類數量缺少問題

參與實際分類的《電子學報》文摘數為8235條,經過二次分類合并后每條文摘同時含有第1、2、3類的文摘數量為6505條,占84%;同時,含有第1、2、3類的句子數為37399句(包括逗號,分號,句號),占85%。如表11所示。

表9 二次分類(新分類)與一次分類的對比舉例

表10 全部文摘的1、2、3類句數量分布

表11 同時含有第1、2、3類的文摘數量

由表11可以看出,①第1類占總文摘的84%,第2類占總文摘的96.6%,第3類占總文摘的91%。②每篇文摘中同時都含有第1、2、3類的文摘只到達到84%。因此,尋找第1類句子缺失的問題就變成為文摘寫作語言模式的深度認知分析方法的任務。

6.2 文摘中隱含結構的特征分析

經過大量統計分析發現《電子學報》文摘不直接給出表達問題句和結果句的概率很高。這一特點表現在《電子學報》文摘的第一句為第2類的文摘達到25615條,占總文摘8235條的31.1%,而且此類文摘沒有直接的顯性問題句,這是《電子學報》文摘的特點,也是提取問題句的難點。為了方便研究,本文把這類文摘句稱為“問題隱含特殊句”。經過二次分類合并后《電子學報》文摘的這種“問題隱含特殊句”有1571條,占總文摘數8235的19.0%。

“問題隱含特殊句”的舉例:本文/r提出了/V一種在相控陣雷達回波數據序列中用高斯混合體模型(GMM)檢測與跟蹤運動目標的在線算法/n。

為此,本文從語言學的角度對這類文摘句進行語法結構分析。語言學文獻[13]指出,“謂詞特別是謂語動詞是整個句子的中心,與謂語動詞左側最近的名詞短語鄰居即為主語,與名詞左側最近的形容詞或形容詞性短語鄰居即為定語,與動詞左側最近的副詞或副詞短語鄰居為狀語,與動詞右側最近的副詞短語、介賓短語、動詞短語、孤立形容詞鄰居(不修飾名詞)為補語,除此之外的名詞或名詞短語為賓語。”對于賓語來說,在很多情況下,賓語的核心詞并沒有包含太多的信息,而賓語前的定語卻包含了很多信息。因此就會出現,“問題隱含特殊句”這種情況,即“問題隱含特殊句”是由賓語前的定語包含了要解決的問題的信息的句子。例如,將一個文摘的例句表達成下面的結構:

{[主語]本文/r}||{[謂語]提出了/V}||{[定語]一種在相控陣雷達回波數據序列中用高斯混合體模型(GMM)檢測/v與跟蹤/v運動目標的}||{[賓語]在線算法/n}。

在上述的例子中,“一種在相控陣雷達回波數據序列中用高斯混合體模型(GMM)檢測與跟蹤運動目標的”是“在線算法”的定語。在這個定語中,指明了直接賓語“在線算法”的適用范圍、前提條件和適用目的。也就表明了“在線算法”所要解決的問題。因此,把這類“問題隱含特殊句”的寫作方式可歸納為如表12所示的模板。

表12“問題隱含特殊句”的句法結構

按照表12處理“問題隱含特殊句”的模板結構,本文對“問題隱含特殊句”進行模式識別,并把定語中的“在XXXXXX中”和“處理對象ZZZZZZ”等抽取出來,為該文摘補充兩條第1類短語。這樣上述舉例文摘的第1類可以補充為:在相控陣雷達回波數據序列中,運動目標的檢測與跟蹤。

通過對“問題隱含特殊句”的處理,使得總文摘的第1類的數量由84%提高到92%,第1、2、3類全有的文摘數量由80%提高到89%,有效的解決了由于科技文摘寫作語言表述的豐富性帶來的分類和挖掘的困難,大大提高了科技文摘創新點的準確分類和有效挖掘的目標。為建立“問題(p)”“方法(M)”“結果(R)”三元組知識庫的問答服務系統提供了知識挖掘的理論和方法。

通過對本文提出的學術文摘創新點挖掘的5個認知分析方法的實驗,驗證了這5個認知分析方法在文本挖掘過程中具有明顯的階段性和遞增性現實特點,其是實現科技文摘創新點挖掘需要考慮的5個認知分析方法。經過5個階段的實驗,驗證了科技文摘中的創新點具有一定的事實性和動詞分布的一致性,謂語動詞的語義對語用分類的理解具有重要的決定性作用,科技文摘為了突出其創新點的表達,常常會采用復雜的句子和隱含的表達方式。下面將幾個認知階段的研究結果匯總在一起,如圖3和圖4所示。

圖3 識別率改善的幾個階段

圖4 考慮隱含句法的第1、2、3類全有的文摘數量

7 結束語

科技文摘最初設置的目的不僅是為了快速檢索,其有標題和關鍵詞的檢索功能,更重要的是表達文章創新點的核心功能。經過上百年來的發展,科技文摘的核心功能并沒有變,但承載科技文摘的介質從紙質形式上升到了數字化形式,數字化的形式使得人們對科技文摘的利用方式已不再只是人工閱讀的方式了,借助計算機技術和人工智能技術可能使科技文摘成為智能化的問答方式為人們服務。但是科技文摘創新點內容的表現方式不是結構化數據,而是人類使用的自然語言形式。目前的計算機技術和人工智能技術使用的是機器語言形式,自然語言形式和機器語言形式不能直接交流,需要將人類自然語言形式通過智能的模式轉換為機器可以理解的模式。本文對科技文摘的創新點做了認知分析方法的研究,從創新點的報道功能、詞匯語義分布的一致性、謂語動詞的語義理解性、語用功能的分類性和句法模型的隱含性五個方面進行了深入研究,期望能夠為機器處理自然語言的研究提供智能認幫助,對基于創新點知識庫建設和智能問答系統建立提供理論和方法的認知分析方法。后續的工作將建立創新點知識庫,進一步研究智能問答系統的推理技術,探索文摘創新點的智能化服務。

猜你喜歡
語義分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
語言與語義
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
給塑料分分類吧
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 国产杨幂丝袜av在线播放| 欧美日韩亚洲国产主播第一区| 亚洲国产精品日韩欧美一区| 欧美一级专区免费大片| 欧美日韩北条麻妃一区二区| 亚洲无码免费黄色网址| 激情无码字幕综合| 亚洲欧美成aⅴ人在线观看| 一级毛片高清| 亚洲AV人人澡人人双人| 啊嗯不日本网站| 伊大人香蕉久久网欧美| 波多野结衣亚洲一区| 一级毛片中文字幕| 国产午夜福利片在线观看| 亚洲伊人久久精品影院| 欧美不卡二区| 亚洲最黄视频| 高清无码不卡视频| 国产本道久久一区二区三区| 视频一区视频二区日韩专区| 日韩精品一区二区深田咏美| 一本一本大道香蕉久在线播放| 国产精品播放| 久久精品最新免费国产成人| 色九九视频| 成人国产小视频| 亚洲高清免费在线观看| 黄色网站不卡无码| 国产精品观看视频免费完整版| 国产欧美日韩在线一区| 国产精品不卡永久免费| 久久一级电影| 三级国产在线观看| 国产一二三区视频| 91人妻日韩人妻无码专区精品| 亚洲一区国色天香| 在线国产欧美| 国产成人免费观看在线视频| 午夜毛片免费观看视频 | 亚洲天堂视频网站| 亚洲人在线| 无码高潮喷水专区久久| 亚洲色图欧美一区| 亚洲日本中文字幕天堂网| 国产网友愉拍精品| 天天综合色网| 99久久精品美女高潮喷水| 国模粉嫩小泬视频在线观看| 88av在线| 在线一级毛片| 不卡视频国产| 91精选国产大片| 久久综合伊人77777| 67194亚洲无码| 亚洲欧美日韩另类| 国产一区成人| 免费高清自慰一区二区三区| 精品国产一区91在线| 亚洲最新网址| 夜夜操国产| 不卡的在线视频免费观看| 国产欧美在线观看一区| 国产亚洲欧美日韩在线一区| 中文字幕66页| 国产中文一区a级毛片视频| 亚洲一区色| 色屁屁一区二区三区视频国产| 九九热这里只有国产精品| 亚洲成肉网| 国产成a人片在线播放| 国产日韩精品欧美一区灰| 午夜一区二区三区| 91精品久久久无码中文字幕vr| 欧美精品1区| 久久久久久久蜜桃| 啦啦啦网站在线观看a毛片| 免费又爽又刺激高潮网址 | 日韩精品毛片人妻AV不卡| 香蕉久久国产超碰青草| 国产欧美视频在线观看| 亚洲综合色区在线播放2019|