999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HM-SVMs的問句語義分析模型

2016-06-08 06:08:08范士喜韓喜雙
計算機應用與軟件 2016年5期
關鍵詞:語義分析信息

范士喜 韓喜雙 相 洋 陳 毅

(哈爾濱工業大學深圳研究生院 廣東 深圳 518055)

?

基于HM-SVMs的問句語義分析模型

范士喜韓喜雙相洋陳毅

(哈爾濱工業大學深圳研究生院廣東 深圳 518055)

摘要由于傳統的問句語義分析主要針對事實類的簡單問句,而對于面向開放域的復雜問句缺少有效的語義分析方法。針對這種情況,提出一種新的問句語義分析模型。該模型將問句從文字空間映射到結構化的語義空間,實現問句的語義分析和表示。通過標注問句中的語義信息,模型實現問句分類、問句主題識別、限制信息識別三項分析工作。使用隱馬爾科夫支持向量機(HM-SVMs)序列化標注工具實現了模型的自動標注,取得了86.7%的準確率。實驗結果表明,HM-SVMs在標注準確率和效率上好于MEMM、CRF、M3N等模型,達到了預期效果。

關鍵詞問答系統問句語義分析隱馬爾科夫支持向量機

0引言

問句語義分析是問答系統的核心問題之一,其目的是理解用戶的意圖,指導問題求解[1]。傳統的問答系統主要面向事實類簡單問題,處理關于“時間”、“地點”、“機構”等事實類問句,傳統問句語義分析包含問句分類和關鍵字提取兩項工作[2]。其中問句分類和答案的命名實體類別相對應,即,問句分類直接指導答案的抽取,而問句語義分析所提取的關鍵字則用于答案的檢索。這種問句語義分析方法在事實類問句中取得了較好的效果[3 ],但并不適用于通用的問句語義分析,尤其是一些語義復雜的問句。研究人員已經發現了傳統問句分析方法的不足,一些研究者開展了通用問句語義分析的相關研究工作。中國科學院的吳晨等提出基于HNC理論的問答系統[4];太原理工大學的郝曉燕等使用框架語義來對問句進行語義標注;北京理工大學余正濤等通過潛在語義分析將問句從表層的文字空間映射到語義空間中進行分析[5]。另外語義依存分析和淺層語義分析也被廣泛用于問句分析中[6]。江蘇科技大學錢強等利用互信息計算兩個詞之間的共現程度,然后根據字詞本身的語義信息進行問句主題詞抽取[7]。

在自然語言中,問句是一類特殊的句子,具有特定的語義功能,其表達形式也有其自身的特點。傳統的分析方法將文句分類和關鍵字提取分開進行,丟失了問句的結構化信息。而直接將通用的自然語言語義分析方法應用于問句處理又無法體現問句語義的特殊性。

目前問答系統的研究者越來越關注復雜問句的處理,如TREC增加了描述類問題和列舉類問題的評測。近年來互聯網上出現了一種基于網絡社區的問答系統CQA(Community Question and Answering system)也叫問答社區、協作式問答系統或者網友問答系統。例如百度的知道、新浪的知識人、雅虎的知識堂等。CQA是一種用戶提問用戶回答的系統,其發展非產迅速,已經在互聯網上形成了海量的問答知識庫。CQA的發展進一步推動了通用問句語義分析的研究工作。針對CQA中的問句進行語義分析和挖掘,對于問答系統研究和應用具有重要的理論意義和現實價值,國內外學者已經做了一些有益的研究和探索[8,9]。CQA中的問句不再有領域限制,其表達形式更趨向于人們的日常對話,有些甚至還有語法錯誤,預期的答案表達形式也更為復雜,這些都為問句的語義分析帶來了挑戰。

本文提出一個基于HM-SVMs的問句的語義分析模型用于通用的問句語義分析。該模型充分考慮到問句的特殊性從句法學和語義學的角度對問句進行語義塊的標注。問句語義塊之間具有緊密的語義關系。問句語義塊的標注對于加深問句理解,以及問句相似度計算等具有重要的意義。

1問句語義分析模型

2010作者首次提出了問句語義塊標注QICA(Question Information Chuck Annotation)分析方法[2]。本文提出的問句語義分析模型是對QICA模型的一個改進。QICA定義了五類信息塊,即“問句主題塊”、“主題焦點塊”、“限制信息塊”、“疑問信息塊”、“其他信息塊”。其中“主題焦點塊”是對問句主題的進一步說明。在實際應用過程中,我們發現,“主題焦點塊”和“限制信息塊”都是對問句主題的進一步限制,并且對答案范圍進一步界定。例如問句:(1)魯迅的生日是什么時候?(2)魯迅生日是哪天?這兩個問句,按照QICA的分析方法,問句主題都是‘魯迅’,問句:(1)包含主題焦點信息‘生日’因為‘的’字短語指明了‘生日’為‘魯迅’的進一步說明。而問句(2)中的‘生日’則被分析為‘限制信息’。實際上,主題焦點和限制信息都是對主題的限制,應該統一歸為限制信息。因此,本文改進了QICA分析方法,取消了主題焦點這一語義塊。新的問句語義分析模型只包含四類信息,具體內容如表1所示。

表1 語義塊標記表

在表1中,我們用T標記代表問句的主題,用R代表問句的限制信息,用W*代表問句疑問信息,用O代表其他標記。其中,‘W*’是一個問句類型集共有13個分類,代表問句的分類體系。本模型沿用了QICA分析方法的分類體系,由于篇幅限制,問句分類體系不在本文中過多介紹,詳細信息可以查閱文獻[11]。

下面通過幾個問句分析的實際例子來說明問句語義塊標注方法的分析特點,如表2所示。

表2 問句分析實例表

這6個問句都是來源于百度知道的關于地震的問題,所以問句的主題都是“地震”。前2個問句都是問地震的定義,雖然表達方式出入很大,但是經過語義標注后,可以判斷他們具有同樣的主題和疑問語義。第3個問句是關于“地震的前兆”,所以問句的主題仍為“地震”,但限制信息為“前兆”,而疑問信息Wlis表示這是一個列舉類問句。第4個問句是地震的成因,所以是一個原因類問句。第5個問句是關于地震中自救的問題,問句的主題仍然是地震,通過限制信息“自救”來進一步確定用戶的意圖。第6個問句雖然沒有任何疑問詞,但通過分析仍然能夠看出這是一個關于時間的問句,這個問句中雖然也是關于地震的,但問句的主題是“唐山大地震”??梢钥闯?,問句語義分析方法通過將問句信息劃分為不同的語義塊使得問句能夠被計算機理解,實現了語義分析的目的。

2問句語義分析自動標注模型

首先看一個問句語義標注的例子:

原始問句辦公桌椅可以直接計入管理費用嗎?

原始標注{辦公 桌椅}/ T{可以}/ Wyes {直接 計入 管理費用}/F {嗎 ?}/ Wyes為分析直觀,標注中省略了詞性標注,句法分析等標記。憑直覺分析,問句語義自動標注問題可以分成兩個步驟來解決:(1) 將問句按照語義規則劃分成不同的塊,(2) 給這些塊分配相應的語義標記。然而這種分析方法處理起來比較復雜,機器學習方法不容易實現。因此,我們借鑒中文信息處理中組塊分析問題的解決思路,將問句語義塊標注問題轉化為序列化標注問題。具體做法是修改語義標記,以標記T為例,將語義標記T修改為B-T 和I-T,其中B-T表示問句主題語義塊的開始,I-T表示問句主題語義塊的繼續。通過這種標記改造后,上述例句可以轉化為序列化標注:

辦公/ B-T 桌椅/I-T 可以/ B-Wyes 直接/B-F 計入/I-F 管理費用/I-F 嗎/ B-Wyes ?/I-Wyes

在自然語言處理研究中,有很多成熟的模型可以用于序列化標注問題,例如隱馬爾科夫模型、最大熵馬爾科夫模型、條件隨機場模型等。本文使用隱馬爾科夫支持向量機模型(HM-SVMs)。

2.1HM-SVMs模型介紹

隱馬爾科夫HMM模型是經典的序列化標注模型,在早期的語音識別、音字轉換問題中取得了較好的應用效果。但是HMM模型屬于生成模型,難以使用長距離上下文信息,只能產生局部最優結果。近年來支持向量機SVM在有監督分類問題中得到了廣泛的應用。SVM通過使用核函數方法,在減少計算量的同時提高了模型的分類能力。另一方面SVM同時考慮經驗風險和結構風險兩個約束條件,使用大間隔方法訓練模型,保證了模型的泛化能力。然而很多實際問題屬于結構化預測問題,不再是簡單的分類或標記問題,標記之間存在著相互依賴或者某種結構化特性,SVM無法很好地解決這類問題。這類問題包括音字轉換問題,詞性標注問題,組塊分析,圖像分割等問題。

隱馬爾可夫支持向量機(HM-SVMs)是Altun等2003年 提出的序列化標注模型[10]。HM-SVMs將支持向量機(SVM)和隱馬爾可夫模型(HMM)兩個模型有機結合。HM-SVMs摒棄了HMM的生成模型原理,采用更為先進的辨識學習技術。與CRF模型一樣,HM-SVMs也同時考慮觀測序列的上下文,解決了HMM模型的發射概率只考慮當前觀測節點的缺陷。 HM-SVMs保留了HMM模型的主要優點,即標簽之間馬爾可夫鏈結構的依賴性以及動態規劃思想。同時,HM-SVMs采用SVM模型的最大間隔理論,使用核函數算法提高模型的性能。下面簡要介紹一下HM-SVMs模型:

給定一個訓練樣本序列集合x={(x1,x2,…,xt},預測標記序列為y={(y1,y2,…,yt}; 則HM-SVMs模型針對x、y的概率計算公式為:

(1)

其中,k代表馬爾科夫的階,當k為1時代表一階馬爾科夫。

ej(x,yi)相當于HMM模型中的發射概率,當然,它產生的是一系列的特征向量,i表示當預測位置為,j是與馬爾科夫階相關的一個特征序號,用于區分不同的特征。

tj(x,yi-j,…,yi)相當于HMM模型中針對觀測序列X以及從位置i-j到i的標記之間的的轉移概率,產生的是一系列的特征向量,j是與馬爾科夫階相關的一個特征序號,用于區分不同的特征。We j和Wt j是權重向量,分別對應于ej(x,yi)和tj(x,yi-j,…,yi)。

下面介紹模型的參數學習:

給定帶有m個實例的訓練集S={(xn,yn)∈X×Y|n=1,…,m}),則HM-SVMs模型的訓練過程就是解決下面的最優化問題:

(2)

2.2基于HM-SVMs的問句語義自動標注

HM-SVMs使用特征作為輸入,根據統計和語義關系我們選擇了如下11類特征作為模型的預選特征。預選特征模板如表3所示。

表3 特征模板表

在特征模板中,W代表詞,P代表詞性,括號內的數值代表位置信息,例如W(0)代表當前詞,P(0)代表當前詞的詞性,P(-1)代表前一個詞的詞性;+號代表多個特征的組合,例如P(-1)+ P(0)表示前一個詞的詞性和當前詞的詞性的組合。

3實驗驗證

用來訓練和測試的問句是從“百度知道”網站上收集的。訓練問句為10 000句,測試問句為4800句。所有問句的語義塊標記都是手工標注,并通過交叉檢查確保準確。標注后,問句信息包括詞、詞性標記、語義塊標記信息。其中語義信息,采用BIO方式標注。HM-SVMs工具采用康奈爾大學提供的開放工具包(http://www.cs.cornell.edu/people/tj/svm_light/old/svm_hmm_v3.03.html)。根據特征模板表共提取了47 307個特征,這些特征作為HM-SVMs工具的原始特征輸入。HM-SVMs模型參數設置如下:馬爾科夫鏈為1階,懲罰參數C為1000,迭代中止參數e為0.01,核函數為多項式核。訓練后模型共生成支持向量240個。

為了驗證HM-SVMs模型的性能,同時使用最大熵模型(ME),最大熵馬爾科夫模型(MEMM),條件隨機場模型(CRF),大間隔馬爾科夫模型(M3Ns)進行了對比實驗。實驗數據完全相同,所有模型的特征模板完全相同,MEMM中采用1階馬爾科夫鏈,表4給出了實驗結果。

表4 實驗結果表

從標記準確性上來看,ME模型效果最差;MEMM模型因為考慮了標記之間的關系,準確性有所提高;CRF模型解決了MEMM模型的標記偏執問題,準確性明顯提高;M3Ns 模型采用大間隔思想,性能進一步提升;HM-SVMs模型結合了HMM模型和SVM兩個模型的優點,取得了最好的標注效果。

從時間性能方面來看,MEMM模型的訓練時間與ME接近,這是因為MEMM模型需要額外訓練標記之間的轉移概率。在預測過程中,由于MEMM模型要使用Vitebi算法進行全序列計算,所以時間比ME模型長。CRF模型訓練花費的時間遠遠超過其他模型。HM-SVMs模型在訓練中采用切平面法,較M3Ns模型的訓練時間明顯減少。而HM-SVMs模型在預測中通過核函數和向量內積計算來預測標記,所以時間較短。

為了驗證訓練數據量對模型預測能力的影響,將訓練數據從300句逐步增加到10 000句。標記預測的準確率隨訓練數據數量的變化曲線如圖1所示。當訓練數據只有300句時,模型仍然取得了63.2%的準確率,這說明模型具有較好的泛化能力??梢钥闯霎斢柧殕柧涞臄盗可儆?000句時,隨著訓練數據的增加,模型預測的準確率逐步上升。當訓練數據大于5000句后,模型預測的準確率基本穩定在86.7%,這也驗證了HM-SVMs模型的穩定性。

圖1 模型預測準確率隨訓練數據變化圖

4結語

本文提出了一種新的問句語義分析方法,并使用HM-SVMs模型對語義塊進行標注。實驗的結果取得了86.7% 的準確率,也是在當前數據集上取得的最好成績。實驗證明HM-SVMs模型對語義塊標注分析是有效的。在接下來的研究中,我們將繼續探索語義塊內部詞與詞之間的語義依賴關系。

參考文獻

[1] 鄭實福,劉挺,秦兵,等.自動問答綜述[J].中文信息學報,2002,16(6):46-52.

[2] 范士喜,王曉龍,王軒,等.面向真實環境的問句分析方法[J].電子學報,2010,38(5):1131-1135.

[3] 牛彥清,陳俊杰,段利國,等.中文問句分類特征的研究[J].計算機應用與軟件,2012,29(3):108-111.

[4] 吳晨,張全.基于概念匹配的中文問答處理模型核心問題探討[J].中文信息學報,2006,20(4):49-55.

[5] 余正濤,樊孝忠,郭劍毅,等.基于潛在語義分析的漢語問答系統答案提取[J].計算機學報,2006,29(10):1889-1893.

[6] 張志昌,張宇,劉挺,等.基于淺層語義樹核的閱讀理解答案句抽取[J].中文信息學報,2008,22(1):80-86.

[7] 錢強,龐林斌,高尚.一種基于詞共現圖的受限領域自動問答系統[J].計算機應用研究,2013,22(1):841-843.

[8] Xiaoqiang Luo,Hema Raghavan,Vittorio Castelli,et al.Finding What Matters in Questions[C]//Proceedings of NAACL-HLT 2013:878-887.

[9] Guangyou Zhou,Fang Liu,Yang Liu,et al.Statistical Machine Translation Improves Question Retrieval in Community Question Answering via Matrix Factorization[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,2013:852-861.

[10] Altun Y,Tsochantaridis I,Hofmann T.Hidden Markov Support Vector Machines[C]//Proceedings of the 20th International Conference on Machine Learning (ICML) 2003:3-10.

[11] 延霞,范士喜.基于問答社區的海量問句檢索關鍵技術研究[J].計算機應用與軟件,2013,30(7):315-317.

A QUESTION SEMANTIC ANALYSIS MODEL BASED ON HM-SVMs

Fan ShixiHan XishuangXiang YangChen Yi

(ShenzhenGraduateSchool,HarbinInstituteofTechnology,Shenzhen518055,Guangdong,China)

AbstractTraditional question semantic analysis mainly focus on simple questions in regard to category of facts, but lacks effective semantic analysis method for open field-oriented complex questions. In view of this, we present a new question semantic analysis model. The model maps questions from text space onto a structured semantic space, and achieves semantic analysis and expression of questions. By annotating semantic information in questions the model implements three kinds of analysis works of questions classification, question topic identification and restrictive information identification. We employ hidden Markov support vector machines (HM-SVMs), a serialisation annotation tool, to realise the automatic annotation of the model, and reaches an accuracy of 86.7%. Experimental results show that HM-SVMs is better than MEMM, CRF, M3N and other models in annotation accuracy and efficiency, and achieves the desired effect.

KeywordsQ&A systemSemantic analysis of questionHM-SVMs

收稿日期:2014-10-23。廣東省教育科學規劃教育信息技術研究專項課題(11JXN039)。范士喜,助理研究員,主研領域:問答系統。韓喜雙,研究員。相洋,博士生。陳毅,博士生。

中圖分類號TP18

文獻標識碼A

DOI:10.3969/j.issn.1000-386x.2016.05.021

猜你喜歡
語義分析信息
隱蔽失效適航要求符合性驗證分析
語言與語義
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統及其自動化發展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美精品不卡| 中文字幕啪啪| 亚洲欧美日韩高清综合678| 激情乱人伦| 精品少妇人妻一区二区| 奇米精品一区二区三区在线观看| 高清色本在线www| 视频国产精品丝袜第一页| 亚洲午夜片| 中国一级特黄大片在线观看| 亚洲天堂网2014| 日韩高清欧美| 国产打屁股免费区网站| 亚洲精品动漫| 制服丝袜国产精品| 日韩欧美在线观看| 亚洲国产91人成在线| 成人精品视频一区二区在线| 亚洲三级网站| 97在线碰| 日韩亚洲高清一区二区| 人妻中文久热无码丝袜| 久久天天躁狠狠躁夜夜躁| 色婷婷综合激情视频免费看| 天堂亚洲网| 青草精品视频| 亚洲精品卡2卡3卡4卡5卡区| 国产成人h在线观看网站站| 国产成人亚洲无吗淙合青草| 青青草原国产免费av观看| 国产精品综合久久久| 日韩免费毛片视频| av大片在线无码免费| 久久女人网| 少妇极品熟妇人妻专区视频| 日本欧美成人免费| 国产精品lululu在线观看| 国产乱人伦精品一区二区| 精品视频在线观看你懂的一区| 欧美中文字幕在线播放| 国产黄网永久免费| 制服丝袜国产精品| 亚洲 欧美 偷自乱 图片| 成AV人片一区二区三区久久| 亚洲欧美国产五月天综合| 综合网久久| 亚洲欧美综合另类图片小说区| 亚洲精品欧美重口| 天堂亚洲网| 最新国产精品鲁鲁免费视频| 欧洲日本亚洲中文字幕| 亚洲人成成无码网WWW| 亚洲国产中文欧美在线人成大黄瓜| 色婷婷狠狠干| 日韩无码精品人妻| 国产精品午夜福利麻豆| 欧美精品在线视频观看| 国产免费网址| 99久久性生片| 亚洲二三区| 日韩毛片免费| 色噜噜狠狠狠综合曰曰曰| 免费国产好深啊好涨好硬视频| 91美女在线| 狠狠色狠狠色综合久久第一次| 一级香蕉人体视频| 2020国产精品视频| 熟女成人国产精品视频| 久久综合婷婷| 日韩毛片基地| 草逼视频国产| 欧美不卡二区| 成人在线不卡视频| 在线观看欧美精品二区| 亚洲h视频在线| av午夜福利一片免费看| 极品尤物av美乳在线观看| 免费aa毛片| 欧美一级高清视频在线播放| 国产在线视频欧美亚综合| 黄色网在线| 亚洲va视频|