999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動態權值的多策略領域本體概念自動抽取

2014-09-12 11:17:14張華楠劉勝全劉艷劉華鵬李鵬
計算機工程與應用 2014年21期
關鍵詞:規則概念文本

張華楠,劉勝全,劉艷,劉華鵬,李鵬

1.新疆大學信息科學與工程學院,烏魯木齊 830046

2.新疆大學現代教育技術中心,烏魯木齊 830046

基于動態權值的多策略領域本體概念自動抽取

張華楠1,劉勝全2,劉艷1,劉華鵬1,李鵬1

1.新疆大學信息科學與工程學院,烏魯木齊 830046

2.新疆大學現代教育技術中心,烏魯木齊 830046

為了提高中文領域本體概念抽取的自動化程度及準確率,提出了一種基于動態權值的多策略中文領域本體概念自動抽取方法。針對中文領域本體概念的特點,采用自動學習的規則學習模式,篩選出候選概念,將改進的DR&DC、TF-IDF和NC-Value三種策略融合,對候選概念進行領域歸屬度排序,將最終權重超過閾值的概念存入最終概念集合。實驗證明了該方法抽取領域概念的可行性和有效性。

動態權值;本體學習;多策略;概念抽取

本體(ontology)是概念模型的明確的規范說明[1]。目前,本體已經被廣泛應用于語義Web、智能信息檢索、信息集成、數字圖書館等領域[2]。本體中的知識總在不斷地發展和更新,這種動態性就決定了本體不能以手工方式構造,需要自動或半自動方式來構建本體。因此,本體學習(ontology learning)[3]技術應運而生,它可以實現本體的自動或半自動構建。本體概念獲取是本體構建的基礎問題,影響著本體后續步驟的構建和應用。

純文本缺乏一定的結構,要使機器能夠自動地理解純文本并從中抽取出所需要的知識,則必須利用自然語言處理(NLP)技術對其預處理,然后利用統計、機器學習等手段從中獲取知識。與國外相比,中文領域本體概念獲取的研究工作相對較少。文獻[4]提出利用Bootstrapping的機器學習技術,從大規模無標注真實語料中自動獲取領域詞匯。但并未對抽取的概念進行領域量化導致學習到的領域詞數目偏少。文獻[5]提出采用非線性函數與“成對比較法”相結合的方法,進行關鍵詞的自動抽取。但只考慮了位置與詞頻兩個因素,實驗結果的準確率并不很高。文獻[6]提出一種將統計方法與規則方法相結合的專業領域術語抽取算法。但概念的過濾算法很不完善導致結果中出現大量噪聲詞語。文獻[7]提出一種主題概念抽取的多文檔文摘方法,但該方法是以句子為單位進行抽取,并不適用于文本。文獻[8]提出一種利用詞語之間量化關系來提取文本主題的方法。但只考慮了詞語間的量化關系,使得該方法只適合主題概念突出的領域文本。

目前,多特征融合進行概念抽取的趨勢越來越明顯。文獻[9]采用互信息與log-likelihood相結合的策略對候選雙字詞匯進行左右擴充,過濾后得到領域概念。文獻[10]使用子串歸并、搭配檢驗和領域相關度計算技術來分別解決短語結構完整度判斷、搭配合理性檢查、領域信息量三個問題。以上方法自動化程度不高,且各策略融合時所取的權值為靜態,不能真實反應概念的領域歸屬度。

本文嘗試將改進的DR&DC、TF-IDF和NC-Value三種策略融合,提出一種基于動態權值的多策略融合中文領域本體概念自動抽取方法,旨在提高中文領域本體概念抽取的自動化程度及正確率。

1 基于動態權值的多策略融合概念抽取框架

基于動態權值的多策略融合的中文領域本體概念自動抽取的框架如圖1所示,系統的輸入是領域文本,輸出是領域本體概念集合。領域文本經過預處理以后進行分詞和詞性標注。概念抽取過程中,首先使用自動學習到的規則過濾出可能成為領域概念的候選概念,而在對候選概念進行排序時,本文采用多策略融合排序算法,這種算法融合了各策略的優點且能動態分配權值,從而能更加真實地反應概念的領域歸屬度。最后將權重超過給定閾值的概念存入最終本體概念集合。

圖1 基于動態權值的多策略融合概念自動抽取框架

2 策略分析與融合

2.1 預處理與分詞

在面向文本進行概念抽取之前,首先要進行文本預處理。預處理是指對文本中的無用信息進行處理,以便減少誤差。尤其對于領域中的論文和專著,需要刪除其中的作者、數學公式、圖片等無關信息。然后進行分詞、詞性標注等工作。

在本研究采用的分詞工具是中國科學院計算技術研究所開發的ICTCLAS(一種基于隱馬爾可夫模型的漢語詞法分析系統[11])。經過分詞處理之后,文本被切分成具有詞性標注的中文組詞及符號。

2.2 規則自動學習

在規則的學習階段,以往的方法都是憑借經驗總結領域概念的詞性組合規則,但中文名詞性短語的詞性構成方式多種多樣,無法一一列舉出這些組成方式,且規則模板的精確度與靈活性不可兼得。

科技文獻中關鍵詞嚴謹科學,是一種半結構化的數據,因此,根據關鍵詞的組合模式本文提出一種基于關鍵詞的規則自動學習方法,流程如圖2所示。

圖2 規則自動學習流程

基于關鍵詞的規則自動學習步驟如下:首先提取科技文獻的關鍵詞部分,然后對每組關鍵詞進行分詞及詞性標注,記錄其組合模式及頻次,檢查組合模式的合法性,最后將符合Rule的規則按其頻次放入規則庫中。

在規則檢查階段使用的規則如下:

Rule1:概念中不得包含如下性質的詞語:標點符號、代詞、語素、習用語、狀態詞、非語素詞、處所詞、擬聲詞、嘆詞、語氣詞和成語。

Rule2:概念不得以連詞、助詞和后接成分作為詞首。

Rule3:概念不得以連詞、方位詞和前接成分性質的詞語結尾。

Rule4:概念中至少有一個詞屬于名詞、動詞、量詞、習用語、簡稱略語或后接成分。

同時滿足這四條規則的概念在候選概念集合中占到了96.33%[10]。系統使用上述規則進行規則的自動評價,符合規則且在系統規則庫中未出現的規則加入到規則庫中。在后繼步驟中,使用規則庫中的規則來抽取候選概念。

2.3 多策略融合排序

候選排序方法涉及到兩個問題:策略的選擇和策略的加權算法。

本文采用改進的DR&DC、TF-IDF和NC-Value三種策略融合進行候選概念的領域歸屬度排序。

2.3.1 改進的DR&DC

傳統的DR&DC[12]只考慮了詞頻、領域文本與參照文本數量這兩個特征,因此其結果受普通文本集質量的影響很大,從而影響了該方法的實際可行性。本文借鑒并改進DR&DC,采用領域相關性和領域一致性對候選概念進行領域歸屬度計算。

本文綜合考慮如下幾點:(1)復合短語的長度,越長的概念表示的語義信息越豐富,越有可能成為領域概念;(2)領域文本的數量與參照文本的數量;(3)詞的位置信息,不同位置的短語反映了該詞在領域中的相對重要性。

改進后的領域相關性DR定義如下:

定義1

其中,dj指領域Dk中的第j個文本;twt,j是復合短語t在文本j中的詞重;Nk是領域Dk中的文本數量;N是所有文本的數量;L是復合短語t的長度,即中文詞語數與英文單詞數之和,Tt,j是復合短語t在文本j題目中出現的次數,At,j是復合短語t在文本摘要中出現的次數,Bt,j是復合短語t在文本j正文中出現的次數,x,y,z分別為概念出現在標題、摘要、正文的權重。

領域一致性是指概念在特定領域的分布程度,也就是說對于領域相關度相同的語義串,在領域文本中分布越均勻的概念越有可能是領域的概念。領域一致性DC的定義如下:

其中,ft,j是指詞t在領域Dk中的文本dj中的頻率。此公式可解釋為若某復合短語在領域文本中均勻分布,那么相對于在單個文本中出現多次的復合短語,前者更可能是領域的概念。

復合短語的權重TW可以表達為:

改進后的DR&DC額外考慮了概念長度、領域文本域參照文本的數量比、概念位置信息等影響概念領域歸屬度的因素,因此能得到更加準確的權值,切實反應概念的領域歸屬度。

2.3.2 TF-IDF

TF統計候選概念在文檔中出現的頻率;IDF計算候選概念在領域的聚合程度;但傳統的TF-IDF[13]只能計算概念在單一文本內的權重,本文對其進行了改進,使其適應大語料場景,改進后的公式如下:

某一特定文件內的高詞語頻率,以及該概念在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。

2.3.3 NC-Value

NC-Value是Frantzi[14]提出的,通過當前詞在較長候選概念中的出現頻率來確定。NC-Value參數將概念的上下文信息作為重要的特征引入到了考慮范圍,避免了只抽取到長概念中的前部分就按照規則停止的情況。

其定義如下:

其中C-Value(a)表示概念a的C-Value值,fa(b)表示a的上下文b的詞頻,weight(w)表示a的上下文b的權重。

2.3.4 多策略融合算法

改進的DR&DC考慮了概念長度、概念位置、領域文本與參照文本的數量等特征;TF-IDF考慮單篇文檔中的概念頻率以及在文檔集合中概念的分布特征;NC-Value不僅考察了詞匯的頻率,還引入了具有包含關系的詞串的頻率對比,同時考慮了上下文信息以及概念內部的結合強度。由于各方法所采用的特征類型重疊不多,將三種方法進行融合能夠覆蓋中文概念抽取領域考慮的大多數特征類型[15],避免了只由個別特征類型決定最終排序情況的發生。融合三種方法,發揮各個方法的優勢,根據方法特性動態賦予相應的權值,使結果更能真實地體現概念的領域歸屬度。綜合考慮影響抽取結果的所有特征類型,旨在提高概念抽取的準確率。

基于動態權值的多策略融合的概念篩選模型如圖3所示。

圖3 基于動態權值的多策略加權融合模型

改進的DR&DC、TF-IDF、NC-Value分別計算某個概念的權重,然后根據方法本身考慮的特征綜合決定各策略的權值,各方法加權后得到概念的最終權重。基于動態權值的多策略加權融合模型可以動態設置各策略的權值,模型包含了靜態權值的策略融合,如將某兩種策略的權值設為零則表示余下一種策略的單一結果。

概念t的最終權重W(t)定義如下:

定義5

其中wk(t)是概念在某一策略的初級權重,wk是各策略的權值,其定義如下:

最終權重W(t)超過閾值θ的候選概念存入最終概念集合。

3 實驗結果與分析

規則自動學習所用的語料是計算機領域的267篇科技文獻,共自動學習到了89條規則,其中長度3以下的64條,長度4~6的25條。其中排名前十的規則如表1所示。

為了驗證本文所提出方法的準確性,選取了100篇計算機網絡的相關語料,同時用172篇政治、人文等領域的語料作為參考文本。實驗用Java語言編程,經過多次實驗同時參考文獻[5]、文獻[12],最終設定的參數如表2所示。

表1 詞法構成模式

表2 參數設定

表3是自動抽取到的前15個概念及最終權重。

表3 概念與最終權重

從表3中可以看出,計算機網絡領域的重要概念都被正確抽取出來了。

為了比較,人工抽取了領域文本的224個概念,表4是動態權值多策略融合方法在設定不同權值時的抽取結果比對。

表4 各方法比較

其中前三種方法分別是其他兩種策略權值為零時的結果,第四種方法則表示靜態權值(各策略均賦予1/3)的結果,第五種為本文的動態權值多策略抽取結果,從實驗結果可以看出,無論是在準確率還是召回率方面,本文所提出的多策略融合方法均比其他方法有所提高。某些概念(如“電路”)在各策略初級權重排在較前的位置,但策略融合后的最終權重的排名卻后退了,更加符合現實情況,這驗證了基于動態權值的多策略融合抽取方法的合理性。動態權值的多策略融合抽取方法能將發揮各策略的優勢,使結果更加真實地體現概念實際的領域歸屬度,但相應地會增加抽取模型的復雜度。

分析可知,本文方法在概念抽取的準確率和召回率提高的原因是采用了自動的規則學習,由此能得到盡可能多的候選概念,而后把多特征進行綜合考慮,進行動態權值的多策略融合,篩選出能夠真實代表領域的領域概念。因此該方法對中文領域本體概念的自動抽取有一定的積極意義。

4 結束語

本文在前人工作的基礎上進行了擴展和改進,嘗試將改進的DR&DC、TF-IDF和NC-Value三種策略融合,提出了一種基于動態權值的多策略融合的領域本體概念自動抽取方法,實驗證明該方法對領域概念抽取的準確率有一定的提高,亦提高了概念抽取的自動化程度。下一步的工作是用更大的語料進行規則的自動學習,提高規則庫的完整度及準確性,并在此基礎上擴展抽取模型,提高模型的包含度,后期進行領域本體概念關系的抽取,以探索自動構建本體的新方法。

[1]Guber T R.A translation approach to portable ontology specifications,Technical Report,KSL 92-71[R].Knowledge System Laboratory,1993.

[2]Deng Z H,Tang S W,Zhang M,et al.Overview of ontology[J]. Acta Scientiarum Naturalium Universitatis Pekinensis,2002, 38(5):730-738.

[3]杜小勇,李曼,王珊.本體學習研究綜述[J].軟件學報,2006,17(9):1837-1847.

[4]Chen W L,Zhu J B,Yao T S.Automatic learning field words by bootstrapping[C]//Proc of the JSCL.Beijing:Tsinghua University Press,2003:67-72.

[5]Zheng J H,Lu J L.Study of an improved keywords distillation method[J].Computer Engineering,2005,31(18):194-196.

[6]Du B,Tian H F,Wang L,et al.Design of domain-specific term extractor based on multi-strategy[J].Computer Engineering,2005,31(14):159-160.

[7]宋宜辰,劉貴全.基于主題概念抽取的多文檔文摘方法[J].計算機工程,2010,36(4):190-192.

[8]蔣建惠,陳玉泉.基于詞語量化關系的主題概念抽取算法研究[J].計算機仿真,2009,26(12):122-125.

[9]田懷鳳.基于多策略的專業術語抽取處理技術的研究[J].計算機與現代化,2008(12):94-96.

[10]周浪,史樹敏,馮沖黃,等.基于多策略融合的中文術語抽取方法[J].情報學報,2010,29(3):460-467.

[11]Qun L,Hua Ping Z,Hong-Kui Y,et a1.Chinese lexical analysis using cascaded hidden Mazkov model[J].Computer Research and Development,2004,41(8):1421-1429.

[12]Navigli R,Velardi P.Learning domain ontologies from document warehouse and dedicated web sites[J].Computational Linguistics,2004,30(2):151-179.

[13]Salton G,McGill M J.Introduction to modern information retrieval[M].[S.l.]:McGraw-Hill,1983.

[14]Frantzi K,Anaiadou S,Mima H.Automatic recognition of multi-word terms:the C-value/NC-value method[J]. International Journal on Digital Libraries,2000,3.

[15]游宏梁,張巍沈,鈞毅,等.一種基于加權投票的術語自動識別方法[J].中文信息學報,2011,25(3):9-16.

ZHANG Huanan1,LIU Shengquan2,LIU Yan1,LIU Huapeng1,LI Peng1

1.School of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
2.Modern Educational Technology Center,Xinjiang University,Urumqi 830046,China

To improve the automation degree and accuracy of Chinese domain ontology concept extraction,a method of concepts automatic extraction based on dynamic weighted multi-strategy integration is proposed.This paper filters out the candidate concepts according to the rule templates using automatic learning;and then improved DR&DC,TF-IDF and NC-Value are integrated;it sequences the degree of domain membership of the candidate concept sets,and puts concepts whose weight exceeds the threshold value into final concept sets.After lots of experiments,the feasibility and validity of this method are proved.

dynamic weight;ontology learning;multi-strategy;concept extraction

A

TP182

10.3778/j.issn.1002-8331.1212-0040

ZHANG Huanan,LIU Shengquan,LIU Yan,et al.Automatic extraction method of domain ontology concepts based on dynamic weight multi-strategy.Computer Engineering and Applications,2014,50(21):152-156.

新疆維吾爾自治區科技攻關項目(No.200931103);新疆大學自然科學基金(No.XY110121)。

張華楠(1986—),男,碩士研究生,研究方向:本體學習;劉勝全,教授,碩士生導師,研究方向:網絡應用、語義Web;劉艷,講師,研究方向:電子商務;劉華鵬,碩士研究生,研究方向:語義Web;李鵬,碩士研究生,研究方向:本體構建。E-mail:zhangchris@163.com

2012-12-04

2013-02-06

1002-8331(2014)21-0152-05

CNKI出版日期:2013-03-13,http://www.cnki.net/kcms/detail/11.2127.TP.20130313.0950.013.html

猜你喜歡
規則概念文本
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
撐竿跳規則的制定
數獨的規則和演變
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
學習集合概念『四步走』
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
聚焦集合的概念及應用
TPP反腐敗規則對我國的啟示
主站蜘蛛池模板: 亚洲综合久久成人AV| 婷婷综合缴情亚洲五月伊| 国产亚洲高清在线精品99| 成人午夜久久| 99精品伊人久久久大香线蕉| 精品视频免费在线| 国产91精品久久| 精品国产成人av免费| 日韩欧美综合在线制服| 一区二区三区国产精品视频| 91在线无码精品秘九色APP | 午夜精品久久久久久久99热下载| 亚洲午夜福利精品无码| 激情综合图区| 最新国产你懂的在线网址| 久久亚洲天堂| 欧美色99| 三级国产在线观看| 日本一区二区三区精品国产| 亚洲有无码中文网| 亚洲国产精品一区二区第一页免 | 亚洲欧美日韩中文字幕在线| 亚洲AV电影不卡在线观看| 国产尤物在线播放| 欧美亚洲日韩不卡在线在线观看| 国产亚洲精久久久久久无码AV | 91青青视频| av在线5g无码天天| 国产电话自拍伊人| 免费无码网站| 国产97视频在线| 72种姿势欧美久久久久大黄蕉| 国产福利在线观看精品| 91高清在线视频| 欧美中文字幕第一页线路一| 秘书高跟黑色丝袜国产91在线| 国产AV无码专区亚洲A∨毛片| 尤物精品视频一区二区三区| 一级毛片无毒不卡直接观看| 成年av福利永久免费观看| 亚洲免费毛片| 波多野结衣一区二区三区四区| 99国产精品免费观看视频| 麻豆精品久久久久久久99蜜桃| 超薄丝袜足j国产在线视频| 欧美啪啪一区| 欧美 亚洲 日韩 国产| 久热中文字幕在线| 免费精品一区二区h| 国产在线精品99一区不卡| 欧美成人午夜影院| 午夜啪啪网| 国产在线无码av完整版在线观看| 2021最新国产精品网站| 国产剧情伊人| 91精品啪在线观看国产60岁| 亚洲精品久综合蜜| 日韩精品毛片人妻AV不卡| 波多野结衣一二三| 亚洲精品第一页不卡| 亚洲一级毛片免费观看| 国产人人乐人人爱| 国产乱人视频免费观看| 国产福利不卡视频| 成人在线视频一区| 亚洲色图欧美视频| 日韩在线影院| 久久久久青草线综合超碰| 国产乱子伦视频在线播放| 伊人成人在线| 免费看一级毛片波多结衣| 视频二区亚洲精品| 日韩区欧美国产区在线观看| 青青草91视频| a国产精品| 五月综合色婷婷| 亚洲日本精品一区二区| 亚洲视频免费播放| 狠狠综合久久久久综| 亚洲无码高清免费视频亚洲 | 国产免费自拍视频| 亚洲一区二区三区在线视频|