999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞性標注規(guī)則的馬鈴薯文獻信息抽取方法

2023-10-12 09:45:44王騰陽趙小丹胡林
科學技術與工程 2023年27期
關鍵詞:規(guī)則文本信息

王騰陽,趙小丹,胡林

(中國農(nóng)業(yè)科學院,農(nóng)業(yè)信息研究所,北京 100081)

馬鈴薯是中國第四大糧食作物,除了能夠兼做糧食、蔬菜和飼料,還有很多加工用途,產(chǎn)業(yè)鏈較長,有很大的潛力增產(chǎn)增收[1]。馬鈴薯育種研究人員育成新品種后會以論文的形式發(fā)布研究成果,內(nèi)容通常包括馬鈴薯新品種的選育過程、特征特性、抗病性、品質(zhì)分析等[2]。由于論文采用自然語言編寫,缺少結(jié)構(gòu)化的表述信息,積累了大量的非結(jié)構(gòu)化文本數(shù)據(jù),因此大規(guī)模的育種文獻給人工整理品種數(shù)據(jù)帶來了極大的挑戰(zhàn)[3]。因此,亟需利用自然語言處理等技術自動分析馬鈴薯育種文獻文本,抽取文本中的品種名、親本、株高株型、抗病性等屬性。這些信息可以用來搭建馬鈴薯遺傳育種數(shù)據(jù)庫,為馬鈴薯智能育種決策提供基礎服務。

信息抽取指的是從自然語言文本中抽取指定類型的實體、屬性等信息,并形成結(jié)構(gòu)化數(shù)據(jù)的文本處理技術[4]。張萌等[5]對城市軌道交通安全事件案例的自由文本制定知識元屬性、構(gòu)建詞庫,并對文本進行分詞,利用正則表達式抽取事件信息,但因其抽取規(guī)則制定不完善,部分知識元抽取效果不理想。譚永濱等[6]研究提取交通微博文本信息的方法,提出基于線性參照方法構(gòu)建位置表達模式庫,并將模式庫表達為Trie樹,利用有限狀態(tài)機匹配微博文本中位置表達模式,識別并提取微博文本中的位置信息,其錯誤結(jié)果主要來自未登錄地名與模式不確定性。劉時翔[7]研究半結(jié)構(gòu)化金融文本信息抽取,用正則表達式抽取電話號碼等簡單項信息,利用行文格式、分隔符號等特點,用隱含馬爾柯夫模型(hidden Markov model,HMM)模型抽取復雜項信息,造成抽取結(jié)果錯誤的因素有文本塊的邊界難以劃分,大量過渡數(shù)據(jù)使文本塊數(shù)據(jù)連續(xù)性較差,合同結(jié)構(gòu)隨意性較大等。Feng等[8]提出基于主題識別和命名實體識別的信息抽取方法,提取新冠疫情通報文本信息的風險區(qū)域和疫情軌跡信息。Martin[9]研究使用深度學習的方法識別企業(yè)發(fā)票的結(jié)構(gòu)化文本,為企業(yè)節(jié)約人工提取成本。

雖然馬鈴薯育種文獻文本描述形式多樣,但論文作者對馬鈴薯特征特性的描述有規(guī)律可循,如“株高50 cm左右”“干物質(zhì)含量15.4%”“皮色淡黃”“肉色白色”等,目標詞可以歸類為某一具體詞性,并且相對于實體間的關系,任務更專注于提取實體的屬性值,所以可使用自然語言處理的方法,將待處理文本進行分詞,對分詞結(jié)果進行詞性標注,根據(jù)語句中的詞性獲取目標詞。因此,現(xiàn)面向馬鈴薯種質(zhì)資源領域,基于文本處理的分詞和詞性標注結(jié)果,編寫規(guī)則庫,根據(jù)規(guī)則對符合詞性的目標詞實現(xiàn)快速匹配,據(jù)此提出基于詞性標注和規(guī)則庫的馬鈴薯育種文獻信息抽取模型,以期實現(xiàn)馬鈴薯育種文獻中的種質(zhì)資源信息結(jié)構(gòu)化。

1 文獻信息抽取

1.1 實驗環(huán)境

本實驗編程語言使用Python 3.8。自然語言處理技術使用HanLP[10],包括中文分詞、詞性標注等。具體實驗流程如下文所述。

1.2 數(shù)據(jù)預處理

PDF文檔分為兩類,一類是文字內(nèi)容可以完整讀取的正常文檔;另一類是文字讀取與預期不符的文檔。文字讀取與預期不符的情況包括但不限于數(shù)字被符號代替、段落的行順序錯亂等。雖然光學字符識別(optical character recognition,OCR)可以實現(xiàn)該類文檔的文本化,但由于期刊論文正文存在左右排版方式,使用OCR自上而下地識別會造成文字順序混亂。因此需要先分割文檔圖像的各個文本塊,將分割出的圖片按閱讀順序排序,通過OCR獲取圖片內(nèi)的文字并進行匯總。

首先將待處理的PDF文檔頁面轉(zhuǎn)化為文字為白色、背景為黑色的反二值圖像,使用游程平滑算法將文字連通,形成連通圖。游程平滑算法[11]可以應用于文檔圖像分割處理,該算法對一行(列)上的兩個黑色像素點間的距離進行判斷,如果兩個相鄰黑色像素點間空白像素的個數(shù)小于設定的閾值時,就將這兩點之間的空白像素點全部填黑。當算法的水平閾值Thor=3、垂直閾值Tver=3時,運行效果如圖1所示。

圖1 游程平滑算法示意圖

通過開源計算機視覺庫(OpenCV)中的相關方法,檢測經(jīng)過游程平滑算法處理后的圖像中各個連通圖的矩形邊框,獲得其邊緣坐標。根據(jù)得到的坐標,截取源PDF文檔頁面圖像中的對應位置,按照從左到右、從上到下的順序,依次命名保存文字圖像,作為OCR文字識別的輸入源。處理流程如圖2所示,最終得到的文本塊分割結(jié)果,用矩形邊框標注。

圖2 處理文獻過程圖

由于直接提取PDF文檔或通過OCR文字識別提取文檔均存在全角字符、語句中存在多余換行符以及文字間存在多余空格等問題,因此需要先將文本內(nèi)容按順序進行如下處理:①全角字符轉(zhuǎn)化為半角字符;②去除文字之間多余空格;③刪除文字內(nèi)換行符。

1.3 基于詞性標注和規(guī)則庫的信息抽取方法設計

規(guī)則庫使用Json格式保存在文件。每一對鍵值對中,鍵表示抽取項的名稱,值表示抽取項的規(guī)則。規(guī)則的設計包含下面五類:①關鍵詞;②按照詞性標注的抽取規(guī)則;③目標詞中的屏蔽詞;④抽取關鍵詞所在關鍵句中不允許出現(xiàn)的詞;⑤提供預設詞進行匹配(以鍵值對表示,鍵表示匹配原始文本中的詞,值表示抽取結(jié)果中展示的詞)。

使用關鍵詞結(jié)合正則表達式,獲取目標抽取項所在語句,在獲取的所有語句列表中,刪除包含不允許出現(xiàn)的詞的語句,隨后對語句進行分詞、詞性標注,通過抽取規(guī)則定位關鍵詞位置和目標抽取項位置。對于一些表述不規(guī)律、不能使用分詞和詞性標注方法獲取的,例如,抗病性只有抗、不抗、高抗等幾種表述,但由于其表述時有多種疾病混在一起,很難通過分詞的方法來獲取,這種情況使用匹配預設詞并結(jié)合判斷目標項與預設詞的距離之間的距離的方法獲取目標項。信息抽取流程圖如圖3所示。

圖3 信息抽取流程圖

1.3.1 關鍵詞規(guī)則設計

關鍵詞用于在待抽取文本中提取目標項所在語句,根據(jù)關鍵詞的位置,在語句中使用基于詞性標注規(guī)則和預設詞的方法實現(xiàn)抽取目標項。用戶建立關鍵詞庫,需要根據(jù)提取項,在待提取文本中找到相關表述。用戶在人工校對提取結(jié)果時若發(fā)現(xiàn)抽取項的新關鍵詞,可以將其添加至關鍵詞庫,從而優(yōu)化提取效果。使用正則表達式獲取關鍵詞所在語句,具體方法為從關鍵詞開始向前(后)直到達到20個文字或者遇到標點符號為止。本文使用關鍵詞定位抽取項所在文本句,對于關鍵詞規(guī)則的設計,考慮如下幾種情況:①關鍵詞之間是“或”的關系;②關鍵詞之間是“與”的關系;③關鍵詞之間是互斥的關系;④關鍵詞之間是上述幾種關系結(jié)合的關系。

關鍵詞規(guī)則如“A(BC,D,^E)/F/G”,表示提取的文本句需要符合包含A或F或G;在包含A的情況下,需要滿足同時包含B或C,以及包含D,但不能包含E。目標提取項所在句可能涉及多個不同的關鍵詞,在上述示例規(guī)則中,A、F、G稱為主關鍵詞,每一個主關鍵詞后面允許加括號,括號內(nèi)的詞稱為次關鍵詞,與主關鍵詞的關系和“邏輯與”相同,表示提取語句需要同時包含主關鍵詞和所有的次關鍵詞。主關鍵詞之間以 “/”分割,次關鍵詞之間以 “”分割,與“邏輯或”相同。用“^”符號表示不允許提取語句中包含的關鍵詞。

1.3.2 分詞與詞性標注

分詞與詞性標注使用HanLP自然語言處理工具包。首先將提取的關鍵詞語句進行分詞。在進行詞性標注前,對分詞結(jié)果進行預處理有利于后續(xù)的信息抽取過程。

對分詞結(jié)果的預處理主要為合并部分分詞內(nèi)容。例如,中國馬鈴薯品種的命名方式大多為“X薯X號”,在分詞時通常會將品種名中的“X薯”和“X號”分開,在進行信息抽取前將其合并會提高抽取的準確率。同理,對單引號、雙引號等內(nèi)部無需分詞的內(nèi)容統(tǒng)一進行合并,可以有效改善抽取效果。另外,需要添加關鍵詞到自定義詞典,防止關鍵詞被分詞影響后續(xù)抽取過程。

詞性標注使用CTB(chinese treebank)標注集(表1)[12],結(jié)合自定義詞庫對分詞結(jié)果進行詞性標注。

表1 部分CTB詞性標注集

1.3.3 基于詞性標注的規(guī)則庫設計

規(guī)則基于分詞和詞性標注結(jié)果制定,在規(guī)則中,每一個匹配項使用CTB詞性標注集中的標簽代替。每一條規(guī)則都要包含作為提取依據(jù)的關鍵詞和需要提取的目標詞。關鍵詞使用“KEYWORD”代替,目標詞使用“TARGET”代替,用“ANY”代替兩個標簽間任意數(shù)量、任意詞性的標簽。抽取規(guī)則允許在同一位置有多種詞性標簽,標簽間用“/”分割,因為目標詞有可能被分詞,采用的解決方法是在規(guī)則中使用多個“TARGET”標簽,在抽取完成后將抽取的多個“TARGET”進行合并得到抽取結(jié)果。“TARGET”標簽設計為可以指定特定的詞性標簽或不允許為某個特定詞性標簽。語法同關鍵詞的設計類似,指定特定的標簽間用“/”分割;在標簽前加“^”符號表示不允許抽取某個特定標簽。

抽取過程如下:①定位在規(guī)則中關鍵詞和目標詞的所在位置;②定位關鍵詞在分詞結(jié)果中的位置;③迭代檢查詞性標注結(jié)果是否符合規(guī)則;④合并、返回抽取結(jié)果。

設關鍵詞在分詞結(jié)果的位置為Pt,在規(guī)則中的位置為Pr,以規(guī)則中包含的元素個數(shù)N作為迭代次數(shù),用i表示,即i=0,1,2,…,N-1。

詞性標注結(jié)果中迭代索引映射為

Index=Pt-Pr+i

(1)

每次迭代都要判斷詞性標注結(jié)果是否符合規(guī)則,具體的判斷依據(jù)有:①索引是否位于有效范圍內(nèi);②詞性標注結(jié)果是否在規(guī)則內(nèi);③索引是否為特殊情況(例如:索引為關鍵詞位置時,不要求②成立)。當不滿足上述條件時,跳出迭代并返回空字符串。抽取數(shù)據(jù)文本樣式如圖4所示(關鍵詞以加粗斜體表示)。

部分抽取語句示例如表2所示,在“原語句”列中,關鍵詞為加粗字體。

1.3.4 基于預設詞的抽取規(guī)則設計

在馬鈴薯育種文獻中,對于如抗病性的表述方法比較多樣,使用詞性標注的抽取方法不能滿足需求,但需要提取的目標詞的表述較為統(tǒng)一。例如“抗晚疫病、PVX、PVY”,單純使用詞性標注的方法雖然可以獲得該品種對晚疫病的抗性結(jié)果,但對PVX和PVY的抗性難以制定規(guī)則獲得相關表述;又如“植株抗晚疫病、感輕花葉和重花葉病毒病”和“晚疫病:高抗”兩種表述中,若只根據(jù)第二種表述制定規(guī)則“關鍵詞(KEYWORD),標點符號(PU),目標詞(TARGET)”,則在第一句明顯會匹配錯誤的結(jié)果,對于此類使用詞性標注規(guī)則方法難以提取,且需要提取的目標詞表述較為統(tǒng)一的語句,使用基于預設詞的抽取方法。

預設詞使用鍵值對保存,鍵用于保存關鍵詞語句中的匹配詞,值用于保存給用戶輸出結(jié)果的詞。

抽取過程如下:①獲取關鍵詞、預設詞在句中位置;②在語句中所有的預設詞里,尋找距離關鍵詞最近的一個,添加進結(jié)果集。

1.3.5 抽取結(jié)果的匯總與清洗

完成通過基于詞性標注和基于預設詞的兩種抽取方法后,將兩種抽取結(jié)果添加進一個集合中進行匯總。通過詞性標注的抽取方法可能將不相關的詞也統(tǒng)計入抽取結(jié)果,因此需要將匯總后的抽取結(jié)果匹配規(guī)則庫中的違禁詞進行篩選,從而得到更加準確的抽取結(jié)果。

2 實驗結(jié)果及分析

2.1 數(shù)據(jù)來源與評價標準

測試集為馬鈴薯育種文獻115篇,文獻為PDF格式,通過人工標注抽取項和正確的抽取結(jié)果,針對每篇文獻內(nèi)容包含的馬鈴薯品種名稱、親本、株型株高、皮色肉色、抗病性等共20個數(shù)據(jù)項進行信息抽取實驗。由于部分文獻中不包含全部抽取項,因此抽取項數(shù)目總計1 490項。由于文獻來自不同的年代,作者對馬鈴薯性狀描述的側(cè)重點不同,大部分文獻不包含全部的20個抽取項。測試集文獻的抽取項數(shù)目分布如圖5所示。

圖5 測試集抽取項數(shù)目分布

文本信息抽取總共分為四種情況:TP表示文本中有數(shù)據(jù),并且成功抽取到數(shù)據(jù);FP表示文本中缺失數(shù)據(jù),但抽取到了數(shù)據(jù);TN表示文本中缺失數(shù)據(jù),也沒有抽取到數(shù)據(jù);FN表示文本中有數(shù)據(jù),但沒有抽取到數(shù)據(jù)。以精確率P、召回率R和F作為性能評價標準,計算公式[13]為

(2)

(3)

(4)

2.2 方法結(jié)果對比

為了進一步驗證本文方法的有效性,使用了傳統(tǒng)信息抽取方法作為對比。作為對比的基于普通規(guī)則的傳統(tǒng)信息抽取方法與本文基于詞性標注和預設詞信息抽取方法的文本預處理、關鍵詞與規(guī)則庫的處理方式相同,主要區(qū)別在于信息抽取部分。傳統(tǒng)信息抽取方法使用正則表達式定位關鍵詞,以某個指定字符作為邊界,截取關鍵詞到指定字符范圍之間的內(nèi)容作為抽取結(jié)果。各方法的抽取結(jié)果統(tǒng)計見表3。

表3 抽取結(jié)果統(tǒng)計

在普通規(guī)則方法中,抽取成功的比率達87.38%,能夠有效抽取信息,但其準確率僅為53.89%,表明該方法提取有近一半不需要的干擾信息。基于詞性標注規(guī)則中,抽取成功的。普通規(guī)則的抽取方法使用正則表達式提取目標信息,該方法的局限性在于注重于語句的字數(shù)、結(jié)構(gòu)是否合規(guī),缺少對文本內(nèi)容的判斷,導致提取到過多的無效信息。本文使用的基于詞性標注規(guī)則彌補了普通規(guī)則的缺陷,使用詞性標注判斷文本內(nèi)容是否有效,達到去除無效信息的效果。

本文抽取結(jié)果評價如圖6所示,由圖6可知,不論是基于詞性標注規(guī)則還是基于預設詞的抽取方法,召回率接近甚至達到100%,但準確率在基于詞性標注規(guī)則中為82%,在基于預設詞中為84%,本文所使用的基于詞性標注規(guī)則的方法能夠有效提取馬鈴薯育種文獻中所需信息,但提取出不需要的結(jié)果的數(shù)量遠遠超過提取失敗結(jié)果的數(shù)量。

圖6 信息抽取結(jié)果評價

通過分析提取結(jié)果得知,提取失敗的原因主要有以下幾種。

(1)分詞結(jié)果不準確;在分詞時,有時會存在目標詞被分詞和不被分詞兩種情況,在制定規(guī)則時會針對兩種情況分別制定,例如,在處理品種名“晉薯1號”時,會將其分詞為“晉”“薯”和“1號”三個部分;但在處理“威芋3號”時,會將其分為“威芋”和“3號”兩個部分,導致在規(guī)則的制定和分詞結(jié)果的預處理上難以進行處理從而無法準確提取品種名。

(2)文獻中涉及的品種不止一個,還涉及對其親本的描述;在有些文獻中提到其親本信息,例如在“天薯13號[14]”的描述文獻中,不僅有對“天薯13號”的特征描述,還存在對其母本和父本的株型、高度、淀粉含量和皮色肉色等特征的描述,模型會將其特征描述全部提取作為結(jié)果,對正確的結(jié)果造成干擾,因此造成召回率不變,準確率降低。

(3)部分文獻所屬的期刊在排版中,存在有其他文章的頁面,導致提取到其他文章中的內(nèi)容。

(4)部分年代較為久遠的育種文獻,文檔信息化程度較差,不論是直接提取PDF文檔文字,還是使用OCR對其內(nèi)容進行文字識別,文字提取效果均不理想,造成文獻信息提取效果較差。

3 結(jié)論

以馬鈴薯育種文獻為對象,提出一種基于詞性標注和規(guī)則庫的信息抽取模型,結(jié)果表明,總體正確率達82.97%,召回率達99.73%,F值為90.58%,因為抽取結(jié)果需要人工進行校對再輸入進育種數(shù)據(jù)庫,所以希望模型在具有較高的準確率的同時,擁有更高的召回率,從而能減輕人工錄入的工作量,因此本文使用的抽取模型能夠有效提取文獻內(nèi)信息。該模型的重點在于分析分詞與詞性標注結(jié)果,因此該抽取模型具有通用性,只需編寫所需規(guī)則庫,就能應用到其他領域的抽取任務。該模型不僅能完成文本內(nèi)容的信息抽取,而且還實現(xiàn)了文本圖片的文本塊分割,根據(jù)頁面閱讀順序進行排序,使用OCR文本識別提取文字內(nèi)容完成信息抽取。通過分析抽取結(jié)果,得出造成抽取錯誤的原因主要有以下幾種。

(1)分詞結(jié)果不準確。

(2)論文中涉及的品種不止一個,作者也對其親本品種有所描述,造成抽取結(jié)果中有其他品種的屬性信息。

(3)期刊將其他文章與待抽取文章排版到同一頁面,抽取到其他文章的信息。

(4)提取PDF文件內(nèi)文字與預期不符等。

未來將實現(xiàn)通過識別抽取屬性與主體間的關系,抽取論文內(nèi)所有主體的屬性信息,提高抽取準確率的同時,獲得更多品種的種質(zhì)資源數(shù)據(jù);針對農(nóng)業(yè)領域訓練或微調(diào)分詞和詞性標注模型,改善語句分詞效果,進而提高信息抽取的準確性。

猜你喜歡
規(guī)則文本信息
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
TPP反腐敗規(guī)則對我國的啟示
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲综合网在线观看| 中国一级特黄视频| 热九九精品| 久久综合一个色综合网| 亚洲三级片在线看| av性天堂网| 高清不卡毛片| 三级欧美在线| 亚洲欧美另类视频| 美臀人妻中出中文字幕在线| 91欧美在线| 亚洲色中色| 成AV人片一区二区三区久久| 国产精品久久精品| 精品国产一区91在线| 激情六月丁香婷婷| 国产网站黄| 国产一级毛片网站| 国产呦视频免费视频在线观看| 玩两个丰满老熟女久久网| 无码免费的亚洲视频| 操国产美女| 国产在线高清一级毛片| 国产精品久久久久久久伊一| 亚洲专区一区二区在线观看| 手机在线国产精品| 久久精品国产999大香线焦| 永久免费AⅤ无码网站在线观看| 亚洲色图欧美激情| 亚洲最大综合网| 国产成人精品18| 午夜日本永久乱码免费播放片| 国产精品美女在线| 国产亚洲精品资源在线26u| 精品色综合| 免费在线色| 国产精品网曝门免费视频| 亚洲欧美人成人让影院| 91精品视频网站| 国产亚洲欧美在线人成aaaa| 国产成人精品一区二区三在线观看| 三上悠亚一区二区| 波多野结衣一区二区三区AV| 视频一区亚洲| 久久国产高清视频| 99精品久久精品| 国产乱子伦一区二区=| 亚洲伊人久久精品影院| 亚洲人成网站在线观看播放不卡| 成人在线亚洲| 日韩视频精品在线| 亚洲综合片| 日韩麻豆小视频| 色综合中文字幕| aaa国产一级毛片| 国产色图在线观看| 高清无码不卡视频| 亚洲综合色吧| 夜夜操天天摸| 日韩人妻无码制服丝袜视频| 青青久久91| 国产黑人在线| 亚洲欧洲一区二区三区| 秋霞午夜国产精品成人片| 欧美日韩国产在线播放| 日韩中文精品亚洲第三区| 国产福利在线观看精品| 黄色一级视频欧美| 国产精品免费电影| 高清视频一区| 国产精品永久久久久| av在线手机播放| 日韩a级毛片| 91小视频版在线观看www| 国产在线精品美女观看| 日本91视频| 在线观看亚洲精品福利片| 国产极品美女在线| 高潮毛片无遮挡高清视频播放| 国产成人综合网在线观看| 国产对白刺激真实精品91| 亚洲国产天堂久久综合226114|