999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種從自然語言文本到本體模型的轉(zhuǎn)換方法

2011-02-24 07:25:40
電大理工 2011年2期
關(guān)鍵詞:語義單詞概念

彭 靜 羅 偉

遼寧裝備制造職業(yè)技術(shù)學(xué)院(沈陽 110161)

一種從自然語言文本到本體模型的轉(zhuǎn)換方法

彭 靜 羅 偉

遼寧裝備制造職業(yè)技術(shù)學(xué)院(沈陽 110161)

如何利用本體將內(nèi)容所蘊(yùn)涵的語義進(jìn)行形式化與規(guī)范化描述是一項(xiàng)艱巨的任務(wù)。本體通常用來描述內(nèi)容的語義,以實(shí)現(xiàn)基于語義的內(nèi)容共享和集成。然而,手工構(gòu)建本體通常耗費(fèi)巨大,因此,有必要研究基于非結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)。提出了從自然語言文本中學(xué)習(xí)本體的方法,定義了自然語言數(shù)據(jù)源到本體的映射規(guī)則并與現(xiàn)有方法進(jìn)行了詳細(xì)的比較,同時(shí)給出了應(yīng)用實(shí)例及原型實(shí)現(xiàn)。分析表明,本文提出的方法在映射的完整性及正確性方面有較大提高。

本體 自然語言

本體學(xué)習(xí)(ontology learning)方法主要可以歸為三類:手工的、半自動(dòng)化、全自動(dòng)化的方法。目前存在的本體構(gòu)造方法多是手工的,需要領(lǐng)域?qū)<业膮⑴c,在面對海量的內(nèi)容時(shí),手工方法費(fèi)時(shí)、費(fèi)力,而完全自動(dòng)化的方法也不現(xiàn)實(shí),因此,如何利用機(jī)器學(xué)習(xí)或統(tǒng)計(jì)等知識獲取技術(shù)自動(dòng)半自動(dòng)化的從已有的數(shù)據(jù)資源中獲取期望的本體,以降低本體構(gòu)建的開銷是一個(gè)迫切需要解決的問題。本文主要研究如何從非結(jié)構(gòu)化(主要指自然語言文本)數(shù)據(jù)源獲取期望的本體。

1 概述

自然語言文本是Web中大量存在的一類非結(jié)構(gòu)化數(shù)據(jù),因此,有必要從該類數(shù)據(jù)源中學(xué)習(xí)本體。依據(jù)文獻(xiàn),本體概念的獲取方法主要有3類:基于語言學(xué)方法,基于統(tǒng)計(jì)學(xué)方法和混合方法。對于概念關(guān)系的獲取,有基于模板的方法、基于概念聚類的方法、基于關(guān)聯(lián)規(guī)則的方法、基于詞典的方法和以上方法的混合。本文提出的方法是半自動(dòng)化的,需要人工的參與。首先,借助于特定領(lǐng)域的核心本體與WordNet詞典,挖掘出文本中包含的與該本體概念在語義上相近的概念以及頻繁項(xiàng)集作為侯選概念,在人工參與下將侯選概念補(bǔ)充到核心本體中;然后挖掘與全部概念相關(guān)的關(guān)聯(lián)規(guī)則,利用該關(guān)聯(lián)規(guī)則形成概念間的侯選關(guān)系與實(shí)例,最終判定由用戶來決定。

2 自然語言文本到本體模型的轉(zhuǎn)換

借助特定領(lǐng)域的核心本體與WordNet,挖掘文本包含的與該本體概念在語義上相近的概念及頻繁項(xiàng)集作為侯選概念,在人工參與下將侯選概念補(bǔ)充到核心本體中,步驟如圖1所示。

圖1 相關(guān)概念的獲取流程

“拆詞”:從核心本體概念的標(biāo)識,獲取與概念相關(guān)的詞或詞組。

“去頻繁項(xiàng)”:將頻繁出現(xiàn)并含有較少語義信息并的詞從“拆詞”獲得的詞集中去除。

“切詞與標(biāo)詞”:獲得輸入詞的詞根及詞性。本文采用Porter Stemming 算法完成“切詞”步驟,采用QTAG算法完成“標(biāo)詞”步驟。

“同義詞集”:借助WordNet,獲得單詞的同義詞集合,繼而獲得單詞的語義鏈(Semantic Chain),然后將語義鏈轉(zhuǎn)化為向量表示。

“矢量化”:借助WordNet,用向量表示獲得輸入文本中單詞的語義鏈,將向量進(jìn)行標(biāo)準(zhǔn)化,即為每個(gè)分量計(jì)算權(quán)重。權(quán)重的計(jì)算采用TF*IDF規(guī)則產(chǎn)生,TF(term frequency)表示詞頻,IDF(inverse document frequency)表示逆文檔頻率,權(quán)重計(jì)算公式如下:

wi,j表示詞ti在向量dj中的權(quán)重,fi,j為詞ti在向量dj中的詞頻,N為向量總數(shù),ni為包含詞ti的向量數(shù)目,分母為歸一化因子。

“匹配”:利用VSM方法,通過向量間的夾角余弦衡量單詞的相似程度,計(jì)算公式如下:

根據(jù)結(jié)果選出與核心本體中概念相關(guān)的單詞和句子。

用戶從上述步驟得出的相關(guān)單詞和句子中選擇新的概念標(biāo)識充實(shí)到核心本體,得到與特定文本相關(guān)的本體。采用關(guān)聯(lián)規(guī)則挖掘算法,形成概念間的侯選關(guān)系與實(shí)例并添加到本體中。

給出從文本數(shù)據(jù)源生成本體的例子。采用清華大學(xué)的travelontology.owl作為旅游領(lǐng)域的核心本體,導(dǎo)入一篇桂林旅游的自然語言文本。圖2顯示了導(dǎo)入系統(tǒng)后的本體,可以進(jìn)行概念及概念間關(guān)系、屬性、實(shí)例的編輯添加,以充實(shí)核心本體,生成與導(dǎo)入內(nèi)容相關(guān)的本體。

3 本體編輯及一致性檢驗(yàn)

本文研發(fā)的管理系統(tǒng)支持由數(shù)據(jù)庫、XML內(nèi)容、自然語言文本到本體的轉(zhuǎn)換,及現(xiàn)有本體的導(dǎo)入,形成基于本體的知識庫。另外,內(nèi)容管理系統(tǒng)提供本體的編輯及一致性檢驗(yàn)功能,以消解可能的語義沖突。

圖2 自然語言文本到本體的導(dǎo)入

4 結(jié)語

討論了自然語言數(shù)據(jù)源到本體的轉(zhuǎn)換,并與現(xiàn)有工作進(jìn)行了詳細(xì)的比較,在此基礎(chǔ)之上開發(fā)了內(nèi)容管理系統(tǒng),實(shí)現(xiàn)了本體編輯和數(shù)據(jù)一致性檢驗(yàn),為實(shí)現(xiàn)面向語義的內(nèi)容搜索奠定了基礎(chǔ)。

[1]杜小勇等.本體學(xué)習(xí)研究綜述.軟件學(xué)報(bào),2006(9).

[2]Lawrence S, Giles CL. Searching the World Wide Web. Science, 1998,280(5360):98?100.

[3]Alexander Maedche, Steffen Staab.Mining Ontologies from Text. In:Proc. Of th EKAW2000,LNAI1937.pp:18 9-202.2000.

[4]Felbaum.WordNet:an Electronic Lexical Database.MIT Press,Cambridge,Massachusetts,1998

[5]張劍,李春平.基于Word Net概念向量空間模型的文本分類.計(jì)算機(jī)工程與應(yīng)用,2006(14).

齊婷婷)

猜你喜歡
語義單詞概念
Birdie Cup Coffee豐盛里概念店
語言與語義
幾樣概念店
單詞連一連
學(xué)習(xí)集合概念『四步走』
看圖填單詞
聚焦集合的概念及應(yīng)用
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
最難的單詞
主站蜘蛛池模板: 国产成人精品男人的天堂| www.亚洲一区| 亚洲男人天堂久久| 999在线免费视频| 国产日本一线在线观看免费| 97人妻精品专区久久久久| 又爽又大又黄a级毛片在线视频| 欧美亚洲欧美| 波多野结衣一区二区三区88| 欧美翘臀一区二区三区| 欧洲日本亚洲中文字幕| 欧美在线伊人| 精品久久777| 国产精品思思热在线| 四虎国产永久在线观看| 亚洲av无码成人专区| 免费a在线观看播放| 少妇精品在线| 四虎成人在线视频| 亚洲色图狠狠干| 国产不卡一级毛片视频| 国产激爽大片高清在线观看| 五月婷婷伊人网| 91色在线视频| 国产精品成人第一区| 亚洲成年人网| 成人午夜天| 97综合久久| 婷五月综合| 四虎永久免费网站| 亚洲无卡视频| 波多野结衣一区二区三区AV| 亚洲福利片无码最新在线播放| 99久久精品国产精品亚洲| 久久不卡精品| 欧美翘臀一区二区三区| 欧美成人精品一级在线观看| 99久久精品国产综合婷婷| 成人伊人色一区二区三区| 亚洲VA中文字幕| 日韩高清一区 | 精品国产一二三区| 极品尤物av美乳在线观看| 久久综合久久鬼| 日本黄网在线观看| 性喷潮久久久久久久久| 亚洲男人的天堂久久精品| 久久精品只有这里有| 久久精品无码一区二区日韩免费| 大学生久久香蕉国产线观看| 久久婷婷六月| 欧美成人亚洲综合精品欧美激情| 97久久免费视频| 免费看的一级毛片| 国产精品综合色区在线观看| 九九免费观看全部免费视频| 久久免费视频6| 欧美日韩91| 亚洲精品欧美日韩在线| 91丝袜美腿高跟国产极品老师| 三上悠亚在线精品二区| 国产成人AV大片大片在线播放 | 国产欧美另类| 亚洲天堂成人在线观看| 国产精品九九视频| 亚洲最大福利网站| 国产老女人精品免费视频| 国产日本一区二区三区| 成人精品区| 97se亚洲综合在线| a在线亚洲男人的天堂试看| 无码国内精品人妻少妇蜜桃视频| 国产在线观看成人91| 伊人激情综合网| 亚洲无线视频| 亚洲人成网站在线播放2019| 亚亚洲乱码一二三四区| 成人国产免费| 玖玖免费视频在线观看| 美女免费黄网站| 亚洲 欧美 日韩综合一区| 中文字幕在线看视频一区二区三区|