999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于漢英雙語語料的語義精準抽取系統設計

2020-07-14 08:35:56周曉航周曉宇
現代電子技術 2020年10期

周曉航 周曉宇

摘? 要: 針對原有語義精準抽取系統抽取結果精度較差的問題,設計基于漢英雙語語料的語義精準抽取系統。硬件部分沿用原有系統硬件部分,僅對語義信息錄入設備與信息存儲設備設計。軟件部分設計,構建自動語義知識庫,增加漢英雙語語料信息;根據tf?idf算法制定抽取規則;利用計算機編程語言控制抽取過程,實現精確抽取。至此,基于漢英雙語語料的語義精準抽取系統設計完成。構建測試環境,完成性能測試,通過與原有系統對比可知,此系統抽取準確率與信息召回率遠高于原有系統。由此可知,該系統抽取精度更高,更為有效。

關鍵詞: 語義抽取; 系統設計; 雙語語料; 制定抽取規則; 精準抽取; 性能測試

中圖分類號: TN912.34?34; TP391? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)10?0156?04

Design of semantic precise extraction system based on Chinese?English bilingual corpus

ZHOU Xiaohang1, ZHOU Xiaoyu2

(1. Beijing University of Information Technology, Beijing 100192, China; 2. Institute of Automation, Heilongjiang Academy of Sciences, Harbin 150090, China)

Abstract: In allusion to the poor accuracy of the extraction results in the original semantic precise extraction system, a semantic precise extraction system based on Chinese?English bilingual corpus is designed. In the hardware part, the hardware part of original system is used, and the semantic information input equipment and information storage equipment are designed merely. In the software design part, the automatic semantic knowledge base is constructed and the Chinese?English bilingual corpus information is added; the extraction rules are set according to tf?idf algorithm; the extraction process is controlled by means of the computer programming language to achieve accurate extraction. Thus, the design of semantic precise extraction system based on Chinese?English bilingual corpus is completed. The testing environment is constructed to complete the performance test. In comparison with the original system, it can be seen that the extraction accuracy and information recall rate of this system are much higher than that of the original system. Therefore, this system has higher extraction accuracy and is more effective.

Keywords: semantic extraction; system design; bilingual corpus; set extraction rule; precise extraction; performance test

隨著信息技術的發展與應用,程序設計的要求也隨之增加,越來越多的程序信息被創造出來。網絡信息呈爆炸式增長,如何從海量信息中提取所需的語義信息成了有待解決的問題,因此在過往對于語義的研究過程中,大量專家學者構建語義精準抽取系統[1?2]。但這些語義抽取系統對雙語語料的抽取效果較差,常常出現抽取精度差的問題[3]。針對這些問題,設計基于漢英雙語語料的語義精準抽取系統。

1? 基于漢英雙語語料的語義精準抽取系統硬件設計

此次設計僅針對語義抽取精度,相關的硬件設計僅針對此部分,其他硬件沿用原有程序部分,在硬件設計時注重此次設計硬件與原有硬件之間的連接與組合。為保證此次設計的有序性,對硬件設計部分的框架進行約束,具體情況如圖1所示。

此次硬件設計包括語義信息的錄入設備以及信息存儲整理設備。通過這兩種設備在信息輸入與存儲過程中保證信息的精度[4?5]。在設計的過程中,注重設備的利用率與適用性。

1.1? 語義信息錄入設備設計

根據上述硬件框架設定,完成語義信息錄入設備的設計。在此次設計中,采用便攜式設計理念,將整體錄入設備采用微縮化處理[6],具體參數如表1所示。

采用上述參數設計出的設備,可適用于多種環境,錄入方式簡單、快捷。中英結合操作界面,在設備設計中,增加斷電保護功能,保證錄入信息的完整性和抽取時的精確度。

1.2? 語義信息存儲整理設備設計

采用設計后的語義錄入設備將錄入語義信息存儲在處理設備。此次設備設計中,采用Cortex?A57四核心1.7 GHz處理器及64位構架,引擎部分為加密引擎。設備外觀設計如圖2所示。

存儲處理設備采用16 GB 內存,設定一個DDR4 Long?DIMM插槽,支持SATA 6 Gb/s硬盤槽。機架型機身電源設定為ATX250W,AC 100~240 V。設備內配置2個7 cm風扇,可使用SSD快取支援。整體設備尺寸[7?8]為90 mm×490 mm×540 mm。此次設計中的信息錄入設備與信息存儲設備,保證了語義信息源頭的錄入精度,成為系統實現的基礎。

2? 基于漢英雙語語料的語義精準抽取系統軟件設計

以上述硬件設計結果為基礎,針對原有系統抽取精度差的問題,設計基于漢英雙語語料的語義精準抽取系統軟件。

2.1? 構建自動語義知識庫

針對原有問題,構建對應語義知識庫,需要一系列基于語料的信息抽取技術,發掘大量非結構化數據名詞概念以及其中對應的語義關系。利用原有得到的概念以及語義關系知識庫完成此次自動語義知識庫構建。

此次構建需要概念抽取與語義抽取作為構建基礎。在知識庫的構建中,漢英雙語語料是其中的重要組成部分[9?10]。自動語義知識庫的構建過程與構造語義字典相同,在設計中設定自動知識庫中預存300萬個類別的概念,每一種類別的概念均有若干屬性,通過計算得出屬性之間的特定關系概率值。

知識庫構建完成后,采用統一的對齊模式保存。此次采用GIZA++詞對齊工具[11],并在自動知識庫中構建語料語義預處理模塊。將原始語料處理成詞對齊與句對齊的語料,為后續工作進行鋪墊。

2.2? 制定抽取規則

根據上述自動知識庫的建立,設定相應的語義抽取規則,在漢英雙語語料的基礎上,采用TF?IDF算法約束抽取過程,制定相應抽取規則[12]。設定2個信息之間的緊密程度通過互信息模型體現,公式為:

[Q=log2m(m+n+p+q)(m+n)(m+p)]? ? ? ?(1)

假設對應漢英語義的兩個詞語[P],[Q],[m,n,p,q]分別表示兩個詞語同時出現、第一個出現第二個不出現、第一個不出現第二個出現以及均不出現的次數。設定[R]為語義對應檢測值,公式為:

[R=m-(m+n)(m+p)a(m+n+p+q)] (2)

當通過上述公式得出的數值與0接近時,這個信息則不為抽取信息,將此信息剔除[13]。使用TF?IDF算法結合上述公式,得出抽取規則如下:

[U=2m·logmN(m+n)(m+p)+n·lognN(m+n)(n+q)+]

[p·logpN(p+q)(m+p)+m·logqN(p+q)(n+q)] (3)

式中,[N]為知識庫中語義信息的個數,通過計算,對信息語義進行抽取,并約束抽取過程。

2.3? 實現語義精準抽取

根據知識庫的信息存儲與抽取規則的制定,采用計算機編程的形式,實現語義精準抽取。針對精度較差的問題,將抽取過程分割為信息數據的預處理、關鍵字抽取以及語義抽取過程。設定部分編程語句如下:

Event eld "序號"anchor="觸發詞"langType="語音"

Erelemeveld="所屬語義"tld"信息序號"

aliReled1="信息1"eld="信息2"TRID="序號"

ARType=“關系類型”? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? //抽取

為保證抽取過程的有效性,對流程進行設定。首先,輸入所需要的語義信息;其次,對問題進行分類,載入系統之中處理為目標語句[14?15],對其進行實體識別,并對所需語義進行抽取;最后,保存抽取結果,展示給用戶,實現語義的精準抽取工作。

3? 系統性能測試

針對本文設計的基于漢英語義雙語語料的語義精準抽取系統的信息提取功能,構建測試環境。將其與傳統語義提取系統進行對比,測試兩者信息提取精度。通過對比測試結果得出本文設計系統的性能效果。

3.1? 構建測試環境

為保證本文所設計系統的有效性與科學性,設計性能測試實驗對其性能進行研究,構建相應的測試環境。對此次系統設計中使用的設備參數進行設定,具體參數如表2所示。

根據上述環境參數,構建此次實驗的環境,以保證實驗過程的有效性與科學性。

3.2? 確定性能指標

對語義精準抽取系統進行功能測試時,主要考察信息預處理過程、關鍵語義抽取功能以及語義相似度抽取功能能否正常運行,因而設定相應的性能指標。

[Precision=ef×100%] (4)

[Recall=eh×100%] (5)

[W=2·Recall·PrecisionPrecision+Recall] (6)

式中:[Precision]表示抽取的準確率;[Recall]表示語義信息召回率;[W]為此次測試的精度權重;[h]表示有效發出信息;[e]表示抽取到的語義信息;[f]表示庫中的總信息數。

在此次功能測試中,共進行10次抽取,發出信息100條,抽取相應語義信息,通過表格統計的形式描述測試結果。

3.3? 測試結果分析

采用測試環境與測試指標,完成此次系統性能測試,具體測試結果對比如表3所示。

通過上述實驗結果可知,采用本文設計系統完成語義信息抽取工作,其準確率明顯高于原有抽取系統,而且其信息召回率也高于原有系統。通過精度權重對比可以看出,本文設計系統權重遠高于原有系統。因此,本文設計系統在語義抽取的過程中,精度更高,效果更好。使用并普及本文設計系統可有效緩解原有系統造成的精準度低的問題,實現高精準度的語義抽取工作。

4? 結? 語

針對原有系統抽取精度較差的問題,設計新型的語義精準抽取系統,即基于漢英雙語語料的語義精準抽取系統。在此次系統的設計中,采用自動語義知識庫的形式,為語義抽取提供相應的抽取信息支持。設定新的抽取規則,保證在精準抽取的前提下,實現漢英雙語語料的應用。根據抽取規則,實現對語義的精準抽取。目前精準語義抽取系統的研發還在起步階段,因此該方向的研究還有廣闊的空間。在日后的研究中,將以本次研究成果作為基礎,構建更加精準的語義抽取系統。

參考文獻

[1] 樊峰峰,李戰懷,陳群,等.一種基于離群點檢測的自動實體匹配方法[J].計算機學報,2017(10):3?17.

[2] 柳路芳,李波,陳鵬,等.基于詞向量與可比語料庫的雙語詞典提取研究[J].計算機工程與科學,2018,40(2):368?373.

[3] 徐健,張棟,李壽山,等.基于雙語信息的問題分類方法研究[J].中文信息學報,2017(5):176?182.

[4] 陳雪梅,柴明颎.非平衡雙語者口譯語義加工路徑探究[J].上海大學學報(社會科學版),2018,35(5):127?136.

[5] 劉夢婕.英漢翻譯中語義重心的分析與處理[J].蘭州文理學院學報(社會科學版),2018(4):107?113.

[6] 朱順樂.融合深度學習特征的漢維短語表過濾研究[J].計算機技術與發展,2018(7):155?160.

[7] 夏國清,譚石堅,陳華珍.集散控制的智能精準投料控制系統設計[J].現代信息科技,2019,3(2):167?169.

[8] 肖小林,張莉,羅海波.基于GIS的精準扶貧作戰圖管理系統設計:以銅仁市為例[J].銅仁學院學報,2018(3):94?97.

[9] 王輝,郁波,洪宇,等.基于知識圖譜的Web信息抽取系統[J].計算機工程,2017,43(6):118?124.

[10] 黃政豪,崔榮一.基于術語自動抽取的科技文獻翻譯輔助系統的設計[J].延邊大學學報(自然科學版),2017,43(3):74?78.

[11] 馮慧敏,高娜娜,孟志軍,等.基于自動導航的小麥精準對行深施追肥機設計與試驗[J].農業機械學報,2018,49(4):60?67.

[12] 潘杰,王福平,焦方桐,等.基于LabVIEW開發環境下的農田智能精準灌溉系統設計[J].節水灌溉,2017(11):97?100.

[13] 俞琰,趙乃瑄.基于通用詞與術語部件的專利術語抽取[J].情報學報,2018(7):742?752.

[14] 江騰蛟,萬常選,劉德喜,等.基于語義分析的評價對象?情感詞對抽取[J].計算機學報,2017(3):12?15.

[15] 張志遠,趙越.基于語義和句法依存特征的評論對象抽取研究[J].中文信息學報,2018,32(6):85?92.

主站蜘蛛池模板: 真人免费一级毛片一区二区| 亚洲无码A视频在线| 免费一极毛片| 国产福利免费观看| 色综合狠狠操| a亚洲视频| 久久久久亚洲av成人网人人软件| 国禁国产you女视频网站| 91精品啪在线观看国产91九色| 制服丝袜亚洲| 99视频精品全国免费品| 久久鸭综合久久国产| 欧美国产综合视频| 久草网视频在线| 91视频免费观看网站| 大香网伊人久久综合网2020| 波多野结衣爽到高潮漏水大喷| 国产91全国探花系列在线播放| 国产精品露脸视频| 色婷婷在线播放| 91口爆吞精国产对白第三集| 亚洲精品大秀视频| 欧美一区国产| 中美日韩在线网免费毛片视频| 日本不卡视频在线| 中国毛片网| 欧洲高清无码在线| 亚洲区第一页| 成人蜜桃网| 在线无码私拍| 欧美国产三级| 国产一线在线| 精品自窥自偷在线看| 国产极品粉嫩小泬免费看| 91香蕉视频下载网站| 午夜人性色福利无码视频在线观看 | 香蕉久久国产超碰青草| 国产精品美人久久久久久AV| 性色在线视频精品| AV无码一区二区三区四区| 亚洲天天更新| 久久久无码人妻精品无码| 国产97公开成人免费视频| 欧美日韩国产精品va| 国产成人综合网| 国产精品爽爽va在线无码观看| a在线观看免费| 久久大香伊蕉在人线观看热2| 国产毛片高清一级国语| 精品夜恋影院亚洲欧洲| yy6080理论大片一级久久| 尤物精品视频一区二区三区| 久操线在视频在线观看| 精品国产自| 91青青草视频在线观看的| 亚洲欧美日韩成人高清在线一区| 日韩国产亚洲一区二区在线观看| 亚洲人成网18禁| 亚洲视频色图| 伊人久久精品无码麻豆精品| 国产自视频| 直接黄91麻豆网站| 成人免费黄色小视频| 九九久久精品免费观看| 成人久久18免费网站| 538国产视频| 国产成人成人一区二区| 首页亚洲国产丝袜长腿综合| 国产精品污污在线观看网站| 欧美a在线视频| 成人综合久久综合| 日韩精品一区二区三区大桥未久 | 无码丝袜人妻| 国产高清毛片| 高清久久精品亚洲日韩Av| 999国内精品视频免费| 青青草国产免费国产| 九九精品在线观看| 一级香蕉人体视频| 亚洲成aⅴ人在线观看| 国产成本人片免费a∨短片| 伊人久久精品无码麻豆精品|