999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法研究

2017-04-10 20:38:56渠新峰
現(xiàn)代電子技術(shù) 2017年6期
關(guān)鍵詞:單詞

渠新峰

摘 要: 為了提高機(jī)器單詞翻譯的準(zhǔn)確性,需要進(jìn)行關(guān)鍵語(yǔ)義篩選和特征提取,故提出一種基于主題詞表自然語(yǔ)義信息抽取的海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法。首先構(gòu)建海量數(shù)據(jù)機(jī)器單詞的文本語(yǔ)義主題詞概念決策樹模型,采用語(yǔ)義信息轉(zhuǎn)換方式計(jì)算機(jī)器單詞中關(guān)鍵語(yǔ)義的利用規(guī)則、聚類中心等信息參量;然后采用主題詞表自然語(yǔ)義信息抽取方法進(jìn)行語(yǔ)義評(píng)估和翻譯可靠性測(cè)試,實(shí)現(xiàn)關(guān)鍵語(yǔ)義自動(dòng)篩選控制;最后進(jìn)行仿真測(cè)試。結(jié)果表明,采用該方法進(jìn)行機(jī)器單詞中關(guān)鍵語(yǔ)義篩選, 提高了文本機(jī)器翻譯的自適應(yīng)配準(zhǔn)能力,翻譯的準(zhǔn)確性得到有效提高。

關(guān)鍵詞: 海量數(shù)據(jù); 機(jī)器翻譯; 單詞; 語(yǔ)義篩選

中圖分類號(hào): TN911?34; TP391.1 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)06?0018?03

Abstract: In order to improve the accuracy of machine translation of words, the key semantic screening and feature extraction are needed. Because of this, a method of the key semantic screening of the massive data machine words based on thesaurus natural semantic information extraction is proposed. The thesaurus concept semantic decision tree model of the massive data machine words is build. The semantic information conversion mode is used to calculated the key semantic utilization rules of machine words and the information parameters of clustering center. The thesaurus natural semantic information extraction method is adopted to conduct semantic translation evaluation and reliability testing for realization of the automatic control of key semantic selection. The simulation test results show that the method has improved the adaptive ability of the text machine translation, and the accuracy of the translation effectively.

Keywords: massive data; machine translation; word; semantic screening

0 引 言

在大數(shù)據(jù)信息時(shí)代,需要采用機(jī)器翻譯處理大量的文字?jǐn)?shù)據(jù)信息,為了提高對(duì)海量文本數(shù)據(jù)的機(jī)器翻譯的準(zhǔn)確性,需要對(duì)機(jī)器單詞的關(guān)鍵語(yǔ)義進(jìn)行準(zhǔn)確的特征篩選,把握機(jī)器單詞的關(guān)鍵信息,提高對(duì)機(jī)器翻譯的面向?qū)ο笮院腿藱C(jī)交互能力。機(jī)器翻譯模型分為三個(gè)層次,分別為局部語(yǔ)義聚類[1?2]、語(yǔ)義情感分析[3]和表現(xiàn)模型。其中數(shù)據(jù)模型提供機(jī)器單詞翻譯的數(shù)據(jù)來(lái)源,作為原始語(yǔ)言的文本輸入,通過(guò)與翻譯對(duì)象的某個(gè)領(lǐng)域相關(guān)的數(shù)據(jù)集合分類,進(jìn)行程序控制,實(shí)現(xiàn)領(lǐng)域本體模型構(gòu)建;基于語(yǔ)義度量的RDF圖近似查詢[4],在語(yǔ)義模型中形成機(jī)器翻譯的概念匯聚點(diǎn),根據(jù)語(yǔ)義集合概念之間的上下層關(guān)系,進(jìn)行語(yǔ)義轉(zhuǎn)換和信息抽取實(shí)現(xiàn)語(yǔ)義篩選后的機(jī)器翻譯輸出。本文針對(duì)當(dāng)前的關(guān)鍵語(yǔ)義篩選方法的控制性不好和準(zhǔn)確性不好的問(wèn)題,提出基于主題詞表自然語(yǔ)義信息抽取的海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法。

1 海量數(shù)據(jù)機(jī)器單詞的文本語(yǔ)義主題詞表模型

1.1 文本語(yǔ)義主題詞的決策樹

為了實(shí)現(xiàn)對(duì)海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選,首先構(gòu)建海量數(shù)據(jù)機(jī)器單詞的文本語(yǔ)義主題詞表模型,構(gòu)建文本語(yǔ)義主題詞概念語(yǔ)義度量決策樹[4],根據(jù)L. Breiman,J. Friedman等人提出分類和回歸樹的思想[5?6],引入二叉分類回歸決策樹,構(gòu)建機(jī)器翻譯的語(yǔ)言評(píng)價(jià)集,對(duì)海量數(shù)據(jù)機(jī)器單詞進(jìn)行主分量特征優(yōu)化處理。假設(shè)語(yǔ)言評(píng)價(jià)集β[∈][0,T]為抽取類型性特征向量集S的主特征量。其中T為海量數(shù)據(jù)機(jī)器單詞評(píng)價(jià)集S中元素的個(gè)數(shù),數(shù)據(jù)集主特征向量β可由函數(shù)[Δ]表示為一個(gè)二元語(yǔ)義分布的決策樹模型,有:

2 關(guān)鍵語(yǔ)義篩選改進(jìn)

2.1 關(guān)鍵語(yǔ)義的利用規(guī)則計(jì)算

在上述進(jìn)行了文本語(yǔ)義主題詞概念集的基礎(chǔ)上,進(jìn)行海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法改進(jìn)設(shè)計(jì),提出基于主題詞表自然語(yǔ)義信息抽取的海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法,采用語(yǔ)義信息轉(zhuǎn)換方式計(jì)算機(jī)器單詞中關(guān)鍵語(yǔ)義的利用規(guī)則、聚類中心等信息參量[9],令[A=a1,a2,…,an]為主題詞表覆蓋表達(dá)概念的訓(xùn)練集的屬性集,[B=b1,b2,…,bm]為文本中抽取的特征詞的類別集,[ai]的語(yǔ)義特征抽取的屬性值為[c1,c2,…,ck],得到主題詞表的關(guān)鍵語(yǔ)義篩選的匹配信息表達(dá)式為:

2.2 關(guān)鍵語(yǔ)義自動(dòng)篩選實(shí)現(xiàn)

采用主題詞表自然語(yǔ)義信息抽取方法進(jìn)行語(yǔ)義評(píng)估和翻譯可靠性測(cè)試,實(shí)現(xiàn)關(guān)鍵語(yǔ)義自動(dòng)篩選控制,在實(shí)現(xiàn)關(guān)鍵語(yǔ)義篩選的算法設(shè)計(jì)之前,給出形式概念定義。

定義 形式概念(formal concept):設(shè)E是形式背景中的語(yǔ)義特征集合O的一個(gè)子集,定義[fE∶={AA|OE,ORA}](表示E中連接兩個(gè)主題詞的形式概念集);相應(yīng)的,設(shè)I是屬性集合A的一個(gè)主題詞表子集,定義[gI∶={OO|AI,ORA}](表示關(guān)鍵語(yǔ)義篩選查找屬性集的集合)。

若(E1,I1),(E2,I2)是海量數(shù)據(jù)機(jī)器單詞翻譯集合K=(O,A,R)上的兩個(gè)概念,根據(jù)偏序關(guān)系取出文檔中的主題詞,如果有概念C2≤C1,每條有向邊的距離滿足C2≤C3≤C1,構(gòu)建語(yǔ)義特征概念格,選擇相似度最小的連接節(jié)點(diǎn)對(duì)(E,I)進(jìn)行語(yǔ)義篩選,得到關(guān)鍵語(yǔ)義篩選的連通圖如圖2所示。

根據(jù)上述定義和關(guān)鍵語(yǔ)義篩選的連通圖設(shè)計(jì),得到關(guān)鍵語(yǔ)義自動(dòng)篩選的算法如下:

輸入:所有海量數(shù)據(jù)機(jī)器單詞的屬性主題詞集

輸出:形式關(guān)鍵語(yǔ)義篩選結(jié)果

BEGIN

Context = NEW relationship among parameters;

//初始化輸入?yún)?shù)集,生成可選的組合方案

Attr = NEW ontologies;

//初始化屬性集,進(jìn)行參數(shù)間的語(yǔ)義匹配

Text = NEW Web service []; //輸入?yún)?shù)映射

//依次處理每個(gè)輸出參數(shù)概念,進(jìn)行關(guān)鍵語(yǔ)義篩選的動(dòng)態(tài)匹配

FOR(int i=0; i< Situation; i++){

FileRihfer(Tfevdt[i]);

Obj = NEW RinsinList; //使用一階謂詞邏輯

//查找屬性集Attde的一個(gè)翻譯序列或歷史子任務(wù)

IF(characteristic similarity r IS NOT EMPTY){

FOR (int j=0;j

Obj.wfhi(j,"0");

}

} }

//規(guī)則屬性轉(zhuǎn)換成PDDL謂詞,或添加新的屬性,實(shí)現(xiàn)關(guān)鍵語(yǔ)義自動(dòng)篩選控制

END

3 實(shí)驗(yàn)測(cè)試分析

對(duì)海量數(shù)據(jù)機(jī)器單詞關(guān)鍵語(yǔ)義篩選的仿真實(shí)驗(yàn)建立在開(kāi)源代碼為Heritrix的環(huán)境中,其中操作系統(tǒng):Windows XP,機(jī)器單詞庫(kù)源于Google AJAX seArch AP,利用實(shí)際采集的單詞信息數(shù)據(jù)構(gòu)建海量數(shù)據(jù)機(jī)器單詞的特征詞集合完整概念格如圖3所示。

從圖3自頂向下觀察概念格可知,采用本文方法進(jìn)行語(yǔ)義篩選,每一個(gè)機(jī)器單詞的特征詞集合的父概念都包含了子概念的對(duì)象,說(shuō)明采用本文方法進(jìn)行語(yǔ)義篩選具有完備性,能有效覆蓋機(jī)器單詞翻譯的概念集。為了定量測(cè)試本文方法進(jìn)行機(jī)器單詞關(guān)鍵語(yǔ)義篩選的性能,抽取主題詞表的機(jī)器單詞語(yǔ)義對(duì)共2 800對(duì),采用本文方法和傳統(tǒng)方法進(jìn)行測(cè)試分析,參數(shù)設(shè)定自定義語(yǔ)義特征同義詞的判定閾值為0.23, 相似度值大于0.1,得到篩選的查準(zhǔn)率對(duì)比結(jié)果如圖4所示,從圖4得知,采用本文方法進(jìn)行海量數(shù)據(jù)機(jī)器單詞的關(guān)鍵語(yǔ)義篩選的查準(zhǔn)率較高,性能較好。

4 結(jié) 語(yǔ)

本文研究了海量數(shù)據(jù)機(jī)器單詞的優(yōu)化翻譯問(wèn)題,提出基于主題詞表自然語(yǔ)義信息抽取的海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法。實(shí)驗(yàn)結(jié)果表明,采用本文方法進(jìn)行機(jī)器單詞中關(guān)鍵語(yǔ)義篩選,查準(zhǔn)率指標(biāo)表現(xiàn)較好,說(shuō)明能有效提高機(jī)器翻譯準(zhǔn)確性。

參考文獻(xiàn)

[1] 辛宇,楊靜,湯楚蘅,等.基于局部語(yǔ)義聚類的語(yǔ)義重疊社區(qū)發(fā)現(xiàn)算法[J].計(jì)算機(jī)研究與發(fā)展,2015,52(7):1510?1521.

[2] 冶忠林,楊燕,賈真,等.基于語(yǔ)義擴(kuò)展的短問(wèn)題分類[J].計(jì)算機(jī)應(yīng)用,2015,35(3):792?796.

[3] 吳江,唐常杰,李太勇,等.基于語(yǔ)義規(guī)則的Web金融文本情感分析[J].計(jì)算機(jī)應(yīng)用,2014,34(2):481?485.

[4] 章登義,吳文李,歐陽(yáng)黜霏.基于語(yǔ)義度量的RDF圖近似查詢[J].電子學(xué)報(bào),2015,43(7):1320?1328.

[5] 孟祥福,嚴(yán)麗,馬宗民,等.基于語(yǔ)義相似度的數(shù)據(jù)庫(kù)自適應(yīng)查詢松弛方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(5):812?824.

[6] 寇月,申德榮,李冬,等.一種基于語(yǔ)義及統(tǒng)計(jì)分析的Deep Web實(shí)體識(shí)別機(jī)制[J].軟件學(xué)報(bào),2008,19(2):194?208.

[7] HERRERA F, HERRERA?VIEDMA E, MARTINEZ L. A fusion approach for managing multi?granularity linguistic terms sets in decision making [J]. Fuzzy sets and systems, 2000, 114(1): 43?58.

[8] 舒婷,劉泉,艾青松,等.基于梯形模糊數(shù)與二元語(yǔ)義需求權(quán)重確定方法[J].武漢理工大學(xué)學(xué)報(bào),2011,33(12):111?114.

[9] STOEAN C, PREUSS M, STOEAN R, et al. Multimodal optimization by means of a topological species conservation algorithm [J]. IEEE transactions on evolutionary computation, 2010, 14(6): 842?864.

猜你喜歡
單詞
What’s This?
Exercise 2
Exercise 4
Exercise 6
Exercise 1
Exercise 3
Exercise 5
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個(gè)人都不好了
主站蜘蛛池模板: 福利视频一区| 国产成人欧美| 激情爆乳一区二区| 久久狠狠色噜噜狠狠狠狠97视色| 精品视频一区二区观看| 无码网站免费观看| 中文字幕人妻av一区二区| 亚洲AV无码乱码在线观看代蜜桃| 久久鸭综合久久国产| 日韩在线观看网站| 无码网站免费观看| 亚洲无码电影| 91在线高清视频| 中文字幕一区二区人妻电影| 日韩欧美视频第一区在线观看| 国产主播一区二区三区| 亚洲精品福利视频| 国产特级毛片| 亚洲国产成人精品一二区| 黄色网站不卡无码| 日韩在线播放欧美字幕| 国产成人亚洲精品无码电影| 欧美亚洲国产日韩电影在线| 好久久免费视频高清| 中文字幕天无码久久精品视频免费| 日韩在线播放中文字幕| 污污网站在线观看| 国产成人免费手机在线观看视频| 最新国产在线| 国产成人综合日韩精品无码首页| 91小视频在线播放| 亚洲an第二区国产精品| 99久久国产自偷自偷免费一区| 26uuu国产精品视频| 无码aaa视频| 成人韩免费网站| 日日拍夜夜嗷嗷叫国产| 日韩专区欧美| 国产av一码二码三码无码| 亚洲精品视频免费观看| 国产精品第一区| 秘书高跟黑色丝袜国产91在线| 露脸一二三区国语对白| 欧美中文字幕无线码视频| 刘亦菲一区二区在线观看| 亚洲国产日韩在线成人蜜芽| 激情网址在线观看| 九色视频线上播放| 一区二区三区高清视频国产女人| 国产哺乳奶水91在线播放| 啊嗯不日本网站| 伊大人香蕉久久网欧美| 狠狠色噜噜狠狠狠狠色综合久 | 麻豆精品在线视频| 亚洲成人免费看| 亚洲婷婷在线视频| 国产成人亚洲综合A∨在线播放| 欧美亚洲欧美区| 欧美综合中文字幕久久| 国产精品青青| 成人午夜免费观看| 91久久青青草原精品国产| 日本黄色不卡视频| 亚洲国产日韩一区| 欧美三级不卡在线观看视频| 日韩一区精品视频一区二区| 亚洲一道AV无码午夜福利| 好吊妞欧美视频免费| 国产亚洲视频播放9000| 亚洲国产成熟视频在线多多| 免费在线成人网| 精品少妇人妻无码久久| 五月婷婷精品| 视频国产精品丝袜第一页| 成人福利在线观看| 国产成人精品男人的天堂| 日韩A级毛片一区二区三区| a级高清毛片| 久久永久视频| 国产午夜福利片在线观看| 欧美成a人片在线观看| 国产日韩AV高潮在线|