999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于平行語料庫的英漢跨語言信息檢索設計研究

2021-09-05 11:43:22雪,梁
電子設計工程 2021年17期
關鍵詞:信息檢索單詞語言

葉 雪,梁 娟

(陜西財經職業技術學院,陜西 咸陽 712099)

信息時代中出現了大量的數字信息,文本信息為最常用、最基本的方式,為了能夠在海量文本信息中尋找自己所需要的,人們需要高效檢索工具。如何能夠對非結構數據進行存儲與查詢,屬于重點研究內容[1]。上世紀90年代,人們對信息檢索的要求越來越高,不再滿足同個語種檢索,要在檢索結果中具備多語種信息。在國際互聯網不斷發展的過程中,Internet中信息資源數量與類型越來越豐富,語言也具備不平衡性與多樣性。網絡用戶數量也越來越多,掌握語言也多樣化。因為網絡資源語種多樣性與網絡用戶對語言掌握的差異化,導致人們通過網絡對信息檢索出現語言障礙,為非英語國家用戶使用網絡信息帶來了不便[2]。因此,英漢跨語言信息檢索設計的研究具有重要意義。

1 系統結構設計

跨語言信息檢索(CLIR)中的查詢根據長度劃分為長查詢、短查詢與標題查詢,查詢翻譯已經成為針對跨語言信息檢索最流行的技術,性能達到單純檢索效率的50%~75%;并且創建查詢翻譯處理模塊和創建文檔翻譯處理模塊對比,前者比較容易實現[3]。所以,將基于平行語料庫的查詢翻譯作為跨越源語和目標語的語言界限方法,并且用英語雙語詞典作為主體的知識源實現查詢翻譯處理。在創建的面向英漢跨語言信息檢索系統中,重點為漢語IR與查詢翻譯。實現系統的思想為:使初始源語(英語)查詢翻譯成為目標語(漢語)單詞列表,之后通過翻譯處理進行查詢,利用漢語IR技術和概率方法得到相應文檔列表。通過全自動的方式實現全部查詢處理,包括短查詢、長查詢的翻譯處理[4],圖1為英漢跨語言信息檢索系統的結構。

圖1 英漢跨語言信息檢索系統的結構

2 英漢跨語言信息檢索的設計

2.1 翻譯算法

英漢跨語言信息檢索的翻譯算法主要包括預處理、預分析和翻譯處理,其中預處理指的是英語查詢分詞、大小寫變換、標記標點符號等預處理過程;翻譯處理為實現英語查詢短語層、詞匯層兩層翻譯的處理過程;預分析指的是實現英語查詢中單詞形態恢復、禁用詞標記、詞性分析等處理的過程[5]。

2.1.1 預處理

英語分詞查詢過程中,要利用不同標點符號啟發式方法分割句子,以空格作為標志,將每個句子字符切割成為單詞流;針對通過分詞處理得到的單詞流,使其中的標點符號實現標注處理;因為英語查詢大部分都是新聞報道標題,首字母都是大寫形式的詞匯,所以要正確判斷,針對單詞首字母進行大小寫變換處理,為后續操作提供正確信息[6]。

2.1.2 預分析

英語查詢通過預處理之后,預分析要標注其中的禁用詞,并且恢復變換形勢的單詞。一個詞可能會具有多種不同的詞性,在不同句子中的語法性能各有不同。所以,要決定一個詞的詞類需在具體句子中以其他詞的語法功能進行判定。基于隱馬爾可夫模型HMM詞性標注器實現正確地標注詞類[7]。

因為英語查詢中具備變化形式的單詞,不利于得到正確的翻譯結果,所以,要通過英漢雙語詞典,利用不規則形態恢復表和規則變化啟發式實現單詞形態恢復處理,得到相應的原形[8]。

2.1.3 翻譯處理

詞匯層翻譯是通過英漢雙語詞典的基本詞典部分進行逐詞翻譯,其中包括詞義消歧問題。語境條件為語法語義參數,在具體詞選擇的過程中,對詞義進行標記,此標記表示一定的語義、語法特征,即概念碼[9]。

短語層翻譯是通過英漢雙語詞典成語部分實現,涉及遠距離、近距離短語識別的問題,重點為近距離短語識別和翻譯處理過程,使用正向最大匹配法,過程為:

1)通過英漢雙語詞典得到以目前查詢詞作為領頭詞的短語集合;

2)創建基于目前查詢詞,并且具有詞匯數和短語集合各成員的短語。

對比所創建的短語和短語集合的各成員,假如有一對成功匹配,就進行短語標記,若除了處理部分以外第一個單詞屬于當前查詢詞,則重復匹配過程;假如有多對成功匹配,就要選擇長度最大的進行短語標記,并將其作為目前查詢詞,重復匹配過程;假如沒有匹配成功,使目前查詢詞相鄰的下個單詞成為目前查詢詞,重復匹配過程[10]。

在處理過程中,利用式(1)進行翻譯處理和排序:

以式(2)定義語項權重:

式(2)中的q(t)為語項t權重,一般為查詢頻率:

式(3)中,di(t)為語項t在文檔Di中出現的次數,k為語料庫不同的語項數目,n為文檔集文檔數目。

對于p(t)中Turing-Good的估計,利用pat(t)=pr(t)r*/N得到:

式中,r為語項t在文檔集中出現的次數,Nr為文檔集中r次語項數目,N為文檔集觀察得出的全部語項數目。針對每篇文檔,能夠通過以上公式實現處理和排序。

2.2 索引模塊設計

索引模塊在分析預處理純文本文件之后,創建倒排索引生成索引文件在磁盤中寫入,從而實現全文索引,圖2為索引用例圖,圖3為索引模塊圖。在開始索引時,要得到待索引文檔集路徑,需保存索引文件路徑,并分析是否要重建索引參數[11]。之后,新建索引對象、分詞模塊加載分詞詞典,對文檔進行讀取。如果文檔為中文,就調用分詞模塊實現分詞處理;如果是英文,則不需要分詞,通過解析器對文檔進行解析,以此為索引對象增加此文檔對象,最后利用寫索引機制使詞語單詞等信息寫入到索引中,并且生成索引文件保存在磁盤中[12]。

圖2 索引用例圖

圖3 索引模塊圖

在開始索引時,要將待索引文本路徑根據掃描的文本文件實現內容的讀入,之后創建寫索引對象,加載分詞詞典,調用分詞模塊并實現分詞處理,將得到的詞用空格分開[13]。最終,將此詞寫入索引,通過分析器分析。之后調用IndexEriter類中的addDocument對CLucene調用實現索引,用directory類對CLucene索引存儲的位置進行描述。其屬于抽象類,有兩個子類,能夠提供特定的存取索引方法。對于待索引大量文檔集,將文檔存儲路徑告知CLucene,實現Directory實例的生成,并且將此實例傳遞給構造函數[14]。然后,利用Directory實現IndexWrieer,在某個指定目錄中創建索引文件,并存儲在磁盤中。

在跨語言檢索過程中,用戶輸入索引式、索引文件路徑與查詢相關度范圍之后,系統能夠進一步處理檢索式,如果為中文檢索式,則通過分詞處理之后利用翻譯構成最終英文檢索式;如果為英文檢索式就直接翻譯,轉變為中文檢索式[15-16]。

3 系統測試

因為漢語查詢集都是通過Big5字符集實現編碼,漢語處理工具以基于GB字符編碼為主,所以針對初始漢語查詢集,要通過Big5碼-GB碼轉換器,使其朝著GB字符集編碼方式轉變。文中選擇3個新聞集合作為案例,一共有242 918篇文檔,表1為相關英語語料庫的統計數據。

表1 相關英語語料庫的統計數據

針對目前信息檢索系統,利用準確率與查全率對系統檢索性能進行衡量。在檢索過程中使用以下方法進行評價:利用多個檢索系統對同個查詢檢索之后,將其返回的最相關的前100篇文檔合并,并且對比文檔集進行人工相關性評價。該方法能夠降低評價工作量,還能夠使評價準確度得到提高[17]。

在訓練英語語料庫過程中,得到最好的結果平均查準率為0.386 9,在漢語查詢集和除了訓練部分之外的英語語料庫測試過程中,自動查詢模式通過分詞方式實現索引處理,最后單語使用基于n元組的切分方法實現索引處理。圖4為測試結果,表2為漢英跨語言信息檢索運行結果和平均中值對比。通過對比表明,漢英CLIR的運行中C-ECLIR1性能是最佳的。

表2 漢英跨語言信息檢索運行結果和平均中值對比

圖4 測試結果

目前,所創建的跨語言信息檢索系統已經初成規模。通過系統運行情況和測試評估可知,查詢翻譯器和漢語搜索引擎的系統性能滿足要求[18]。

4 結束語

跨語言信息檢索技術屬于全新信息處理技術,此技術為計算語言學信息處理帶來全新的解決途徑。文中設計面向英漢的跨語言信息檢索系統屬于機器翻譯技術在信息檢索領域中使用的全新嘗試,能夠有效促進跨語言信息檢索問題的解決。在英漢查詢翻譯中,主要將英漢雙語詞典作為主體的知識源。但是,除了詞典完整性問題,還要通過詞典中選擇單詞最佳翻譯。以此,文中創建了英漢翻譯處理模式和短語層翻譯處理模式,與詞類標記等信息結合,得到正確的翻譯結果。

猜你喜歡
信息檢索單詞語言
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
單詞連一連
看圖填單詞
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經網絡的個性化信息檢索模型研究
我有我語言
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
主站蜘蛛池模板: 欧洲av毛片| 在线免费a视频| 欧美亚洲中文精品三区| 国产小视频免费观看| 毛片久久网站小视频| 久久国产精品影院| 丰满人妻久久中文字幕| 久久久久亚洲av成人网人人软件| 午夜视频日本| 亚洲无线国产观看| 日本欧美视频在线观看| 国产成人亚洲精品蜜芽影院| 亚洲中文字幕手机在线第一页| 就去吻亚洲精品国产欧美| 日韩精品毛片人妻AV不卡| 国产精品视屏| 一本大道无码高清| 国产精品偷伦视频免费观看国产| 国产无码性爱一区二区三区| 国产丝袜啪啪| 亚洲美女一区二区三区| 亚洲福利视频一区二区| 国产高清不卡| 亚洲AV色香蕉一区二区| 亚洲男人在线| 免费在线国产一区二区三区精品| 国产又色又刺激高潮免费看| 成人午夜福利视频| 3D动漫精品啪啪一区二区下载| 免费看的一级毛片| 亚洲综合九九| 亚国产欧美在线人成| 久久精品66| 国产成人精品2021欧美日韩| 欧洲高清无码在线| 国产在线日本| 不卡午夜视频| 欧美啪啪网| 亚洲男人的天堂网| 免费女人18毛片a级毛片视频| 亚洲精品无码抽插日韩| 婷婷色中文网| 99精品视频在线观看免费播放| 亚洲水蜜桃久久综合网站| 麻豆国产精品一二三在线观看| 华人在线亚洲欧美精品| 国产视频欧美| 国产国模一区二区三区四区| 欧美19综合中文字幕| 热久久综合这里只有精品电影| 国产成人免费高清AⅤ| 成人在线不卡视频| 国产精品原创不卡在线| 国产精品欧美亚洲韩国日本不卡| 一级毛片免费观看久| 日韩福利在线观看| 99re免费视频| 精品欧美一区二区三区在线| 国产亚洲欧美日韩在线观看一区二区| 欧美日韩导航| 中字无码av在线电影| 99视频精品全国免费品| 亚洲精品第一页不卡| 亚洲无码视频图片| 伊人中文网| 成年免费在线观看| 亚洲国产成人在线| 国产免费网址| 国产成人乱无码视频| 日本在线视频免费| 久99久热只有精品国产15| 国产色婷婷| 久久国产精品麻豆系列| 国产成人久视频免费 | 亚洲色图另类| 青青青国产视频| 欧美劲爆第一页| 91成人在线观看| 国产麻豆aⅴ精品无码| 99激情网| 国产亚洲欧美在线中文bt天堂| 亚洲成人精品|