999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web的本體學習模型的設計與實現

2008-12-31 00:00:00吳煜煌李禹生
電腦知識與技術 2008年23期

摘要:對本體(ontology)的研究在計算機科學領域變的越來越廣泛,但手工構建本體是一項繁瑣而辛苦的任務,還容易導致知識獲取瓶頸,無法保持本體的更新。本體學習技術是利用本體工程技術和機器學習技術等眾多學科技術來實現本體的自動或半自動構建。該文提出了基于Web的本體學習模型,分析了模型實現中的文檔預處理、術語抽取、概念選擇、概念分類等關鍵技術。

關鍵詞:本體;本體學習;知識獲取;本體評估

中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)23-1005-03

Design and Realization for Ontology Learning Model Based on Web

WU Yu-huang, LI Yu-sheng

(Network Center, Wuhan Polytechnic University, Wuhan 430023, China)

Abstract: To ontology the research changes in the computer science domain is getting more and more widespread, but constructs the ontology is manually an item tedious and the laborious duty, but also easy to cause the knowledge gain bottleneck, is unable maintains the ontology the renewal.The ontology learning technology is and so on numerous discipline technologies realizes the ontology using the ontology engineering technology and the machine learning technology automatic or the semiautomatic construction.This article proposed based on the Web ontology learning model, analyzed the model to realize the documents pretreatment, the term extraction, the concept choice, the concept classification and so on key technologies.

Key words: ontology; ontology learning; knowledge acquisition; ontology evaluation

1 引言

目前對于本體的研究在計算機科學領域變的越來越廣泛,人們對本體的需求也越來越多,且本體在眾多領域的應用都是在構建本體的基礎之上實現的,但本體的構建卻是一項繁瑣而辛苦的任務。手工方式構建的本體需要耗費大量的人力和時間,像Cyc和WordNet等系統需要使用人工為本體輸入大量的知識,然后系統才能使用其龐大的知識庫進行推理或是獲取新的知識。這就容易導致知識獲取瓶頸,無法保持本體的更新。因為本體中的知識是變化的,它總是在不斷地發展和更新。這就決定了本體不能以手工方式構造,我們需要自動或半自動方式來構建本體。因此,本體學習技術[1]應運而生,它旨在綜合眾多的學科技術來促進本體的自動或半自動構建,特別是本體工程技術[2]和機器學習技術[3]。本文提出一種基于Web的本體學習的模型,討論模型實現過程中的Web文檔預處理、術語抽取、生成領域概念集、概念分類結構的建立等,并對模型進行測試。

2 本體學習模型設計

本文旨在實現從Web頁面中自動抽取本體,從Web頁面數據中找出本體語義概念的模式及其關系。它通過分析同一應用領域Web頁面集來半自動化地抽取Web本體。本文提出的本體學習模型如圖1所示,本體學習的整個過程包括Web文檔預處理、生成候選關鍵詞集、術語抽取、概念選擇(生成概念集)、概念分類。使用多種數據源收集、選擇和預處理Web文檔,生成候選關鍵詞集,再從候選關鍵詞中抽取候選術語,形成領域術語項學習信息的初始列表,最后通過概念選擇過濾與領域不相關的術語,得到領域本體概念。

2.1 Web文檔預處理

Web頁面中的數據大多數是非結構化或半結構化的,所以把文本從非結構化的形式表示成計算機可以處理的結構化形式,需要對Web文檔集進行預處理。從Web文檔集中抽取代表其特征的元數據作為文檔語義單元。特征可以是字、詞、短語或概念。使用TF-IDF向量表示文本特征,典型且廣泛使用TF-IDF公式:

其中,W(t,d)為詞t在文檔d中的權重,最大限度區分了不同文檔;tf(t,d)為詞t在文檔d中出現的頻率;N為全部樣本的總和;nt為N個樣本中出現詞t的樣本數。在文檔中出現頻率足夠高的那些詞是對區別文檔最有意義的詞,權重越大區分文檔內容屬性的能力就越強。經過文檔預處理步驟,已經產生一系列的候選規范詞。

2.2 術語抽取

術語是專業領域中概念的語言指稱,為某一指定領域內簡單或復雜含義的詞組或字符串。從某種意義上講,術語是一種領域知識的文本形式的淺層表示。因術語具有低二義性和高專指性,這些詞對于領域知識的概念化尤其有效,可支持領域本體的創建。通過提高準確率和召回率,由計算機盡可能準確、全面地抽取候選術語項,是本體學習和研究的重點。步驟如下:

1)候選術語集生成:首先采用詞組塊來確定句子中淺層短語邊界。在該過程中,本文采用淺層解析技術以及啟發信息,如表示重點句子和段落的提示詞。淺層解析器模塊可分為兩個過程:句子錨定,候選術語生成和本體術語選擇。所有錨定句子被分塊以形成名詞短語、動詞短語和從句。該步驟的輸出是一組沒有結構消歧的候選名詞短語。

2)領域相關度計算:Roberto Navigli提出了一種新型的方法篩選術語[4],該方法基于稱作領域相關性和領域一致性的兩種測度形式。類Dk中術語t的領域相關性采用如下公式計算:

(2)

其中條件概率P(t|Dk)采用下式來評估:

3)抽取共生詞:對上一步中產生的結果中錯誤名詞短語進行修剪。在該步驟中,通過應用句法結構和統計技術來分析名詞短語,解決名詞短語生成過度或不及的問題。從句法標注的語料中,創建了相同名詞短語的概率模型,它通過從文檔集和語料庫中采用下式計算的結果抽取信息:

其中PNPU(Wi,Wj)為抽取信息的目標名詞斷語或復合名詞,Wi和Wj可關聯到一個新詞;Pf(Wi)為Wi跟在其它詞后出現的頻度;Pb(Wj)為Wj跟在其它詞前出現的頻度。

這種概率模型可用于修剪候選名詞短語中的錯誤名詞短語。如果前面的名詞短語的概率大于閾值,該名詞短語則可能為一個合適名稱。對選擇的術語集根據相關度進行排序,形成術語項列表。

2.3 概念選擇

概念是知識的基本單位也是思維的最小單位。術語和概念之間應一一對應,即一個術語只表示一個概念;一個概念只有一個指稱,即只由一個術語來表示。術語要成為本體概念,須同時滿足有明確含義和有重要作用等兩個條件。而判斷術語是否有明確的含義,主要是考察其穩定性與完整性。根據香農理論,術語的穩定性可以通過其內部的互信息來度量,并選擇互信息值最高的作為候選概念。

定義:設文檔T的一個字符串S由P個字符組成(P≥2)即“c1c2Lcp-1”,則S的互信息為:

其中SL是將S去掉最右邊1個字符得到左段子字符串;SR是將S去掉最左邊1個字符得到右段子字符串;f(S)、f(SL)、f(SR) 是字符串S、SL、SR各自出現的頻度。

如果一個字符串的互信息高于某個閾值,那么就可以認為這個字符串是穩定的。而字符串是完整性,是指它能夠獨立地表達完整的含義,因此它可以獨立地出現在不同的上下文之中。

2.4 概念分類

為了有效地對本體概念進行分類,采用KNN(K-Nearest Neighour)算法[5]。該算法的基本思路是:在給定新文檔后,考慮在訓練文檔集中與該新文檔距離最近(最相似)的篇文檔,根據這篇文檔所屬的類別判定新文檔所屬的類別。具體的算法步驟如下:

1) 根據特征項集合重新描述訓練文檔向量。

2) 在新文檔到達后,根據特征詞分詞新文檔,確定新文檔的向量表示。

3) 在訓練文檔集中選出與新文檔最相似的K個文檔,計算公式為:

其中,di為測試Web文本的特征向量,dj為第j類的中心向量,M為特征向量的維數。Wk為向量的第k維。k值的確定目前沒有很好的方法,一般采用先定一個初始值,然后根據實驗測試的結果調整K值。一般初始值定為幾百到幾千之間。采用了以上計算公式進行計算,即可對初始文本向量進行分析,從而在訓練文本集中選出與測試文本最相似的k個文本。

4) 在新文檔的K鄰居中,依次計算每類的權重,計算公式為:

其中,d為新文檔的特征向量;Sim(d,di)為相似度計算公式,與上一步驟的計算公式相同;而y(di,cj)為類別屬性函數,即:如果di屬于類cj,那么函數值為1,否則為0。

5) 比較類的權重,將文檔分到權重最大的那個類別中。

3 評價和測試

由于不同的本體學習系統學習的本體內容不同,對于不同的輸入數據采用的方法不同,所以通過一種方法來比較它們的結果是很困難的。因此,許多本體學習系統都有自己的評價和測試方法,這些方法是基于本體所應用的環境和所選擇的領域的。像很多本體學習系統通過計算學習模型的查全率(recall)和查準率(precision)這兩個指標來評價學習系統。

查全率是指正確概念的數量與測試集中概念總數的比率。其數學公式為:

查準率是指正確概念的數量與所提取概念總數的比率。其數學公式為:

查全率和查準率反映了分類質量的兩個不同方面,兩者必須綜合考慮,不可偏廢,所以還使用兩者綜合考慮的評估指標:F1測試值,其數學公式為:

本文采用新浪網的體育新聞網頁作為測試語料庫,選取該語料中的5個體育項目為主題類:乒乓球、羽毛球、籃球、網球、游泳,對于每一類采用任意選取的200篇網頁作為訓練集,其它80篇網頁作為測試集。用上述的方法和數據進行測試,其實驗結果如表1所示。

4 結束語

在構建本體過程中,由于收集的Web文檔不斷動態變化,領域概念也需要不斷地添加或刪除。目前無法做到完全自動化構建領域本體,需要人工干預。本文提出了從候選術語中選擇最合適的概念,在一定程度上降低了添加或刪除概念時可能帶來的噪聲和信息的丟失。本文所涉及的其他問題尚待研究,如確定概念與概念之間的關系、領域本體更新的維護等。

參考文獻:

[1] Perez G,Macho M.A survey of ontology learning methods and techniques[M].Onto Web Deliverable D1,2003:1-86.

[2] Shauntrelle D D,Tia B W.Engineering knowledge[M].In:Proceedings of the 42nd Annual Southeast Regional Co-nference,Huntsvllle,Alabama,2004:406-407.

[3] ZHENG De-quan,ZHAO Tie-jun,YU Fe-ng,et al.Machine learning for automaticac quisition of Chinese ingu-istic ontology knowledge[J].IEEE,2005.3728-3733.

[4] Navigli R,Velardi P.Learning domain ontologies from document warehouses and dedicated web site[M].Computational Linguistics(30-2),MIT Press,2004.

[5] Kwok Yin Lai,Lava W.Automatic Textual Document Categorization Using Multiple Similarity Based Models.SDM2001,Nov.2001.

[6] 孫麗華,張積東,李靜梅.一種改進的KNN方法及其在文本分類中的應用[J].應用科技,2002,29(2):25-27.

[7] LIU Bai-song, GAO Ji. General Ontology Learning famework[J]. Journal of Southeast University(English Edition).2006,22,(3):381-384.

[8] Maedche A,Staab S.Ontology Learning for the Semantic Web[J].IEEE Intelligent Systems:Special Issue on the Semantic Web,2001,16(2):72-79.

[9] A1exander Maedchel and Steffen Staab[Z].Onto1ogy Learning,2005.

[10] Velardi P,Navigli R,Cuchiarelli A,et al.Evaluation of ontoLearn,a methodology for automatic learning of domain ontologies[A].In:Ontology Learning from Text:Methods,Evaluation and Applications[C].IOS Press,2005:1-32.

[11] Maedche A,Staab S.On tology learning for the semantic web[J].IEEE Intelligent Systems,2001,16(2):72-79.

主站蜘蛛池模板: 日韩视频免费| 日本人又色又爽的视频| 波多野结衣久久精品| 丰满人妻中出白浆| 免费全部高H视频无码无遮掩| 免费无码在线观看| 99视频在线精品免费观看6| 九九热精品免费视频| 一区二区三区成人| 日韩区欧美国产区在线观看| 五月丁香在线视频| 久久免费视频播放| 天天综合网站| 无码专区在线观看| 成人精品免费视频| 国产第一福利影院| 国产女人水多毛片18| 欧美一区福利| 国产a v无码专区亚洲av| 亚洲人成网7777777国产| 欧美成人二区| 亚洲精选无码久久久| 福利在线不卡一区| 高清无码不卡视频| 2020极品精品国产| 欧美国产在线看| 国产精品免费福利久久播放 | 国产农村精品一级毛片视频| 国产福利小视频在线播放观看| 99久久精品免费看国产电影| 欧美在线精品一区二区三区| 5388国产亚洲欧美在线观看| 人妻丰满熟妇av五码区| 免费不卡视频| 国产91在线|中文| 亚洲国产精品人久久电影| 中国一级特黄大片在线观看| 制服无码网站| 久久久亚洲国产美女国产盗摄| 欧美专区日韩专区| 亚洲欧洲美色一区二区三区| 香蕉99国内自产自拍视频| 亚洲第一在线播放| 国产在线无码av完整版在线观看| 国产激爽爽爽大片在线观看| 国产精品成人免费视频99| 午夜精品区| 精品一区二区三区视频免费观看| 茄子视频毛片免费观看| 99久久亚洲综合精品TS| 波多野结衣国产精品| 国产成人综合久久精品尤物| 日韩久久精品无码aV| 日本人又色又爽的视频| 中文字幕在线欧美| 亚洲精品高清视频| 啪啪免费视频一区二区| 免费国产高清视频| 亚洲欧美色中文字幕| 亚洲国内精品自在自线官| 人妻21p大胆| 国产女人在线| 搞黄网站免费观看| 午夜精品影院| 在线看AV天堂| 99re热精品视频中文字幕不卡| 婷婷午夜影院| 亚洲三级影院| 高清不卡毛片| 国产在线91在线电影| 亚洲欧洲日本在线| 在线亚洲小视频| 91黄色在线观看| 偷拍久久网| 国产在线视频欧美亚综合| 国产精品手机在线观看你懂的| A级毛片无码久久精品免费| 婷婷综合缴情亚洲五月伊| 国产永久免费视频m3u8| 成年看免费观看视频拍拍| 九九这里只有精品视频| 凹凸国产熟女精品视频|