周曉航 周曉宇



摘? 要: 針對原有語義精準抽取系統抽取結果精度較差的問題,設計基于漢英雙語語料的語義精準抽取系統。硬件部分沿用原有系統硬件部分,僅對語義信息錄入設備與信息存儲設備設計。軟件部分設計,構建自動語義知識庫,增加漢英雙語語料信息;根據tf?idf算法制定抽取規則;利用計算機編程語言控制抽取過程,實現精確抽取。至此,基于漢英雙語語料的語義精準抽取系統設計完成。構建測試環境,完成性能測試,通過與原有系統對比可知,此系統抽取準確率與信息召回率遠高于原有系統。由此可知,該系統抽取精度更高,更為有效。
關鍵詞: 語義抽取; 系統設計; 雙語語料; 制定抽取規則; 精準抽取; 性能測試
中圖分類號: TN912.34?34; TP391? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)10?0156?04
Design of semantic precise extraction system based on Chinese?English bilingual corpus
ZHOU Xiaohang1, ZHOU Xiaoyu2
(1. Beijing University of Information Technology, Beijing 100192, China; 2. Institute of Automation, Heilongjiang Academy of Sciences, Harbin 150090, China)
Abstract: In allusion to the poor accuracy of the extraction results in the original semantic precise extraction system, a semantic precise extraction system based on Chinese?English bilingual corpus is designed. In the hardware part, the hardware part of original system is used, and the semantic information input equipment and information storage equipment are designed merely. In the software design part, the automatic semantic knowledge base is constructed and the Chinese?English bilingual corpus information is added; the extraction rules are set according to tf?idf algorithm; the extraction process is controlled by means of the computer programming language to achieve accurate extraction. Thus, the design of semantic precise extraction system based on Chinese?English bilingual corpus is completed. The testing environment is constructed to complete the performance test. In comparison with the original system, it can be seen that the extraction accuracy and information recall rate of this system are much higher than that of the original system. Therefore, this system has higher extraction accuracy and is more effective.
Keywords: semantic extraction; system design; bilingual corpus; set extraction rule; precise extraction; performance test
隨著信息技術的發展與應用,程序設計的要求也隨之增加,越來越多的程序信息被創造出來。網絡信息呈爆炸式增長,如何從海量信息中提取所需的語義信息成了有待解決的問題,因此在過往對于語義的研究過程中,大量專家學者構建語義精準抽取系統[1?2]。但這些語義抽取系統對雙語語料的抽取效果較差,常常出現抽取精度差的問題[3]。針對這些問題,設計基于漢英雙語語料的語義精準抽取系統。
1? 基于漢英雙語語料的語義精準抽取系統硬件設計
此次設計僅針對語義抽取精度,相關的硬件設計僅針對此部分,其他硬件沿用原有程序部分,在硬件設計時注重此次設計硬件與原有硬件之間的連接與組合。為保證此次設計的有序性,對硬件設計部分的框架進行約束,具體情況如圖1所示。
此次硬件設計包括語義信息的錄入設備以及信息存儲整理設備。通過這兩種設備在信息輸入與存儲過程中保證信息的精度[4?5]。在設計的過程中,注重設備的利用率與適用性。
1.1? 語義信息錄入設備設計
根據上述硬件框架設定,完成語義信息錄入設備的設計。在此次設計中,采用便攜式設計理念,將整體錄入設備采用微縮化處理[6],具體參數如表1所示。
采用上述參數設計出的設備,可適用于多種環境,錄入方式簡單、快捷。中英結合操作界面,在設備設計中,增加斷電保護功能,保證錄入信息的完整性和抽取時的精確度。
1.2? 語義信息存儲整理設備設計
采用設計后的語義錄入設備將錄入語義信息存儲在處理設備。此次設備設計中,采用Cortex?A57四核心1.7 GHz處理器及64位構架,引擎部分為加密引擎。設備外觀設計如圖2所示。
存儲處理設備采用16 GB 內存,設定一個DDR4 Long?DIMM插槽,支持SATA 6 Gb/s硬盤槽。機架型機身電源設定為ATX250W,AC 100~240 V。設備內配置2個7 cm風扇,可使用SSD快取支援。整體設備尺寸[7?8]為90 mm×490 mm×540 mm。此次設計中的信息錄入設備與信息存儲設備,保證了語義信息源頭的錄入精度,成為系統實現的基礎。
2? 基于漢英雙語語料的語義精準抽取系統軟件設計
以上述硬件設計結果為基礎,針對原有系統抽取精度差的問題,設計基于漢英雙語語料的語義精準抽取系統軟件。
2.1? 構建自動語義知識庫
針對原有問題,構建對應語義知識庫,需要一系列基于語料的信息抽取技術,發掘大量非結構化數據名詞概念以及其中對應的語義關系。利用原有得到的概念以及語義關系知識庫完成此次自動語義知識庫構建。
此次構建需要概念抽取與語義抽取作為構建基礎。在知識庫的構建中,漢英雙語語料是其中的重要組成部分[9?10]。自動語義知識庫的構建過程與構造語義字典相同,在設計中設定自動知識庫中預存300萬個類別的概念,每一種類別的概念均有若干屬性,通過計算得出屬性之間的特定關系概率值。
知識庫構建完成后,采用統一的對齊模式保存。此次采用GIZA++詞對齊工具[11],并在自動知識庫中構建語料語義預處理模塊。將原始語料處理成詞對齊與句對齊的語料,為后續工作進行鋪墊。
2.2? 制定抽取規則
根據上述自動知識庫的建立,設定相應的語義抽取規則,在漢英雙語語料的基礎上,采用TF?IDF算法約束抽取過程,制定相應抽取規則[12]。設定2個信息之間的緊密程度通過互信息模型體現,公式為:
[Q=log2m(m+n+p+q)(m+n)(m+p)]? ? ? ?(1)
假設對應漢英語義的兩個詞語[P],[Q],[m,n,p,q]分別表示兩個詞語同時出現、第一個出現第二個不出現、第一個不出現第二個出現以及均不出現的次數。設定[R]為語義對應檢測值,公式為:
[R=m-(m+n)(m+p)a(m+n+p+q)] (2)
當通過上述公式得出的數值與0接近時,這個信息則不為抽取信息,將此信息剔除[13]。使用TF?IDF算法結合上述公式,得出抽取規則如下:
[U=2m·logmN(m+n)(m+p)+n·lognN(m+n)(n+q)+]
[p·logpN(p+q)(m+p)+m·logqN(p+q)(n+q)] (3)
式中,[N]為知識庫中語義信息的個數,通過計算,對信息語義進行抽取,并約束抽取過程。
2.3? 實現語義精準抽取
根據知識庫的信息存儲與抽取規則的制定,采用計算機編程的形式,實現語義精準抽取。針對精度較差的問題,將抽取過程分割為信息數據的預處理、關鍵字抽取以及語義抽取過程。設定部分編程語句如下:
…
Event eld "序號"anchor="觸發詞"langType="語音"
Erelemeveld="所屬語義"tld"信息序號"
aliReled1="信息1"eld="信息2"TRID="序號"
ARType=“關系類型”? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? //抽取
…
為保證抽取過程的有效性,對流程進行設定。首先,輸入所需要的語義信息;其次,對問題進行分類,載入系統之中處理為目標語句[14?15],對其進行實體識別,并對所需語義進行抽取;最后,保存抽取結果,展示給用戶,實現語義的精準抽取工作。
3? 系統性能測試
針對本文設計的基于漢英語義雙語語料的語義精準抽取系統的信息提取功能,構建測試環境。將其與傳統語義提取系統進行對比,測試兩者信息提取精度。通過對比測試結果得出本文設計系統的性能效果。
3.1? 構建測試環境
為保證本文所設計系統的有效性與科學性,設計性能測試實驗對其性能進行研究,構建相應的測試環境。對此次系統設計中使用的設備參數進行設定,具體參數如表2所示。
根據上述環境參數,構建此次實驗的環境,以保證實驗過程的有效性與科學性。
3.2? 確定性能指標
對語義精準抽取系統進行功能測試時,主要考察信息預處理過程、關鍵語義抽取功能以及語義相似度抽取功能能否正常運行,因而設定相應的性能指標。
[Precision=ef×100%] (4)
[Recall=eh×100%] (5)
[W=2·Recall·PrecisionPrecision+Recall] (6)
式中:[Precision]表示抽取的準確率;[Recall]表示語義信息召回率;[W]為此次測試的精度權重;[h]表示有效發出信息;[e]表示抽取到的語義信息;[f]表示庫中的總信息數。
在此次功能測試中,共進行10次抽取,發出信息100條,抽取相應語義信息,通過表格統計的形式描述測試結果。
3.3? 測試結果分析
采用測試環境與測試指標,完成此次系統性能測試,具體測試結果對比如表3所示。
通過上述實驗結果可知,采用本文設計系統完成語義信息抽取工作,其準確率明顯高于原有抽取系統,而且其信息召回率也高于原有系統。通過精度權重對比可以看出,本文設計系統權重遠高于原有系統。因此,本文設計系統在語義抽取的過程中,精度更高,效果更好。使用并普及本文設計系統可有效緩解原有系統造成的精準度低的問題,實現高精準度的語義抽取工作。
4? 結? 語
針對原有系統抽取精度較差的問題,設計新型的語義精準抽取系統,即基于漢英雙語語料的語義精準抽取系統。在此次系統的設計中,采用自動語義知識庫的形式,為語義抽取提供相應的抽取信息支持。設定新的抽取規則,保證在精準抽取的前提下,實現漢英雙語語料的應用。根據抽取規則,實現對語義的精準抽取。目前精準語義抽取系統的研發還在起步階段,因此該方向的研究還有廣闊的空間。在日后的研究中,將以本次研究成果作為基礎,構建更加精準的語義抽取系統。
參考文獻
[1] 樊峰峰,李戰懷,陳群,等.一種基于離群點檢測的自動實體匹配方法[J].計算機學報,2017(10):3?17.
[2] 柳路芳,李波,陳鵬,等.基于詞向量與可比語料庫的雙語詞典提取研究[J].計算機工程與科學,2018,40(2):368?373.
[3] 徐健,張棟,李壽山,等.基于雙語信息的問題分類方法研究[J].中文信息學報,2017(5):176?182.
[4] 陳雪梅,柴明颎.非平衡雙語者口譯語義加工路徑探究[J].上海大學學報(社會科學版),2018,35(5):127?136.
[5] 劉夢婕.英漢翻譯中語義重心的分析與處理[J].蘭州文理學院學報(社會科學版),2018(4):107?113.
[6] 朱順樂.融合深度學習特征的漢維短語表過濾研究[J].計算機技術與發展,2018(7):155?160.
[7] 夏國清,譚石堅,陳華珍.集散控制的智能精準投料控制系統設計[J].現代信息科技,2019,3(2):167?169.
[8] 肖小林,張莉,羅海波.基于GIS的精準扶貧作戰圖管理系統設計:以銅仁市為例[J].銅仁學院學報,2018(3):94?97.
[9] 王輝,郁波,洪宇,等.基于知識圖譜的Web信息抽取系統[J].計算機工程,2017,43(6):118?124.
[10] 黃政豪,崔榮一.基于術語自動抽取的科技文獻翻譯輔助系統的設計[J].延邊大學學報(自然科學版),2017,43(3):74?78.
[11] 馮慧敏,高娜娜,孟志軍,等.基于自動導航的小麥精準對行深施追肥機設計與試驗[J].農業機械學報,2018,49(4):60?67.
[12] 潘杰,王福平,焦方桐,等.基于LabVIEW開發環境下的農田智能精準灌溉系統設計[J].節水灌溉,2017(11):97?100.
[13] 俞琰,趙乃瑄.基于通用詞與術語部件的專利術語抽取[J].情報學報,2018(7):742?752.
[14] 江騰蛟,萬常選,劉德喜,等.基于語義分析的評價對象?情感詞對抽取[J].計算機學報,2017(3):12?15.
[15] 張志遠,趙越.基于語義和句法依存特征的評論對象抽取研究[J].中文信息學報,2018,32(6):85?92.