999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

專業(yè)領(lǐng)域智能問(wèn)答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2018-05-22 07:18:58
關(guān)鍵詞:語(yǔ)義概念用戶

陶 永 芹

(西安外事學(xué)院工學(xué)院 陜西 西安 710077)

0 引 言

隨著海量互聯(lián)網(wǎng)信息的爆炸式增長(zhǎng),如何從中獲取高可信和高可用的知識(shí)變得迫在眉睫,且潛藏著巨大商機(jī)[1]。據(jù)英國(guó)莫里(MORI)調(diào)查公司的民意調(diào)查結(jié)果顯示,只有18%的用戶表示總能在網(wǎng)上搜索到需要的信息,49%的用戶說(shuō)他們對(duì)搜索引擎很失望,28%表示還可以,其余5%為不知道[2]。由此可見(jiàn),當(dāng)下基于關(guān)鍵字信息檢索的方法改進(jìn)完善空間還很大[3]。主要問(wèn)題在于:檢索返回的結(jié)果多且繁雜與用戶意圖相差甚遠(yuǎn),用戶需手動(dòng)篩網(wǎng)頁(yè)列表中有用的信息;關(guān)鍵字匹配技術(shù)只關(guān)注語(yǔ)言的語(yǔ)法形式忽視語(yǔ)義知識(shí)。用相對(duì)簡(jiǎn)單的詞語(yǔ)或句子搜索無(wú)法準(zhǔn)確刻畫(huà)用戶的真實(shí)需求,導(dǎo)致搜索結(jié)果差強(qiáng)人意。將自然語(yǔ)言處理、語(yǔ)義分析、人工智能等技術(shù)綜合在一起的智能問(wèn)答系統(tǒng)彌補(bǔ)了關(guān)鍵字信息檢索方法的不足[4]。

1 系統(tǒng)分析

1.1 智能問(wèn)答系統(tǒng)的研究現(xiàn)狀

自1961年,首個(gè)回答美國(guó)職業(yè)棒球大聯(lián)盟中有關(guān)比賽問(wèn)題的智能問(wèn)答系統(tǒng)由Green設(shè)計(jì)與實(shí)現(xiàn)[5]。經(jīng)過(guò)了近六十年,智能問(wèn)答系統(tǒng)得到了突飛猛進(jìn)的發(fā)展。最先人工智能專家ELIZA[6]和ALICE[7]設(shè)計(jì)研發(fā)的基于模式匹配的問(wèn)答系統(tǒng)。匹配用戶問(wèn)題與人工定義問(wèn)題模板來(lái)獲取問(wèn)題答案,或者基于領(lǐng)域?qū)<抑R(shí)制定啟發(fā)式規(guī)則推理獲得相應(yīng)的結(jié)果。代表系統(tǒng)還有MACSYMA[8]。但是由于這類系統(tǒng)的模式庫(kù)和規(guī)則的構(gòu)建非常困難,需要領(lǐng)域?qū)<揖C合領(lǐng)域知識(shí)且受到知識(shí)理解的限制,對(duì)于新的領(lǐng)域知識(shí)往往缺乏相匹配的知識(shí)性能很差。隨后產(chǎn)生的基于FAQ的問(wèn)答系統(tǒng)[9]則側(cè)重于將問(wèn)題及相應(yīng)的答案對(duì)存放在系統(tǒng)的知識(shí)庫(kù)中通過(guò)提問(wèn)相似度設(shè)置閾值找尋答案。由于這種方法實(shí)現(xiàn)較簡(jiǎn)單,目前較多商業(yè)化服務(wù)公司采用這種方法,比如百度知道[10]等。但系統(tǒng)的缺點(diǎn)是知識(shí)庫(kù)的構(gòu)建需要大量的人員參與,且比較耗時(shí)、系統(tǒng)靈活性低,問(wèn)題的覆蓋面低,無(wú)法引入推理、計(jì)算來(lái)解決一些復(fù)雜的問(wèn)題。1994年,首個(gè)面向互聯(lián)網(wǎng)的自然語(yǔ)言問(wèn)答系統(tǒng)誕生。而基于無(wú)結(jié)構(gòu)化文本的問(wèn)答技術(shù)主要包括社區(qū)問(wèn)答和基于問(wèn)答式搜索的問(wèn)答系統(tǒng)。與FAQ相似,系統(tǒng)通過(guò)在互聯(lián)網(wǎng)上檢索到與用戶問(wèn)題最為相似的問(wèn)題,然后將相應(yīng)的答案返回,比如微軟的Encarta3[11]和麻省理工學(xué)院研發(fā)的Start1[12]等。這類系統(tǒng)的缺點(diǎn)是沒(méi)有專業(yè)知識(shí)庫(kù)的支撐,只能對(duì)有限類型的問(wèn)題進(jìn)行回答,在專業(yè)度較高的領(lǐng)域不適用,而且也不能夠做推理。另一種,基于結(jié)構(gòu)化數(shù)據(jù)的問(wèn)答系統(tǒng)是將用戶的自然語(yǔ)言轉(zhuǎn)換成系統(tǒng)可識(shí)別的結(jié)構(gòu)化查詢語(yǔ)言(如SPARQL、SQL等)對(duì)知識(shí)庫(kù)進(jìn)行查詢。其對(duì)事實(shí)類問(wèn)題的回答較為準(zhǔn)確,能夠進(jìn)行知識(shí)的推理和計(jì)算,Google Now服務(wù)上有58%的回答使用了Google的結(jié)構(gòu)化知識(shí)數(shù)據(jù),該知識(shí)庫(kù)中有5億個(gè)實(shí)體以及不同實(shí)體間35億條的關(guān)系[13]。該系統(tǒng)的本質(zhì)是挖掘問(wèn)題的語(yǔ)義,將口語(yǔ)轉(zhuǎn)變成系統(tǒng)可以理解的形式。隨著智能手機(jī)的廣泛使用,以蘋(píng)果公司在iPhone手機(jī)中使用的Siri手機(jī)語(yǔ)音助手為代表的一系列語(yǔ)音助手也正在被大家廣泛使用。

由上可知,當(dāng)今主流問(wèn)答機(jī)器人大都是基于面向開(kāi)放領(lǐng)域的智能問(wèn)答系統(tǒng)實(shí)現(xiàn)的。例如:以互聯(lián)網(wǎng)語(yǔ)料和用戶的聊天日志數(shù)據(jù)為基礎(chǔ)的微軟小冰[14],以及用戶搜索日志為基礎(chǔ)的百度語(yǔ)音助手[15]等。然而,面向開(kāi)放領(lǐng)域的問(wèn)答系統(tǒng)對(duì)專業(yè)(金融、醫(yī)學(xué)等)的問(wèn)題無(wú)法返回較好的結(jié)果。且現(xiàn)有的人工服務(wù)存在回答不規(guī)范、響應(yīng)速度慢、通用性較差、需要大量的人力和物力成本等問(wèn)題,因此特別需要一套面向?qū)I(yè)領(lǐng)域,只需要對(duì)語(yǔ)料進(jìn)行簡(jiǎn)單標(biāo)注就能得到良好效果的智能問(wèn)答系統(tǒng)。所以本文主要對(duì)專業(yè)領(lǐng)域提出了一種基于本體和查詢服務(wù)的智能問(wèn)答系統(tǒng)設(shè)計(jì)方法。

1.2 領(lǐng)域智能問(wèn)答系統(tǒng)框架

本文針對(duì)專業(yè)領(lǐng)域智能問(wèn)答系統(tǒng)的需求,結(jié)合上述問(wèn)題研究現(xiàn)狀的分析,提出了智能問(wèn)答系統(tǒng)的框架。本文有三個(gè)模塊的主要貢獻(xiàn),如下所示:

1) 知識(shí)梳理模塊:為使系統(tǒng)更好地理解用戶所提問(wèn)題與所對(duì)應(yīng)的領(lǐng)域知識(shí)。本文將具有偏結(jié)構(gòu)化、關(guān)聯(lián)性強(qiáng)特征的領(lǐng)域知識(shí)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中,用本體把數(shù)據(jù)的概念、屬性和聯(lián)系抽取出來(lái),這樣本體的內(nèi)容只是知識(shí)庫(kù)中實(shí)體的領(lǐng)域含義和相關(guān)聯(lián)系,而不包括整個(gè)知識(shí)庫(kù)實(shí)例,為本體的建立和知識(shí)庫(kù)的維護(hù)提供了很大的便捷。

2) 問(wèn)題理解模塊:為使系統(tǒng)更好地對(duì)用戶的意圖進(jìn)行解析、糾正。本文將查詢問(wèn)題的查詢結(jié)構(gòu)抽象成相應(yīng)的查詢服務(wù),然后用服務(wù)本體結(jié)合領(lǐng)域本體來(lái)描述查詢服務(wù)。首先將問(wèn)句進(jìn)行語(yǔ)義解析,再基于語(yǔ)義的服務(wù)匹配算法將問(wèn)題匹配到本體相應(yīng)的描述服務(wù)上,最后將服務(wù)參數(shù)實(shí)例化以便調(diào)用服務(wù)實(shí)現(xiàn)查詢。

3) 服務(wù)檢索和反饋模塊:將問(wèn)題匹配的查詢服務(wù)列表提供給用戶供其選擇,然后將用戶想要的結(jié)果回饋給用戶并保存查詢上下文。主要解決三部分問(wèn)題:(1) 由于領(lǐng)域知識(shí)具有專用名詞中英文混雜、新詞多和缺乏對(duì)應(yīng)的詞匯知識(shí)庫(kù)或者語(yǔ)言庫(kù)的特征,使用通用詞典進(jìn)行分詞標(biāo)注無(wú)法滿足要求,由此本文根據(jù)領(lǐng)域知識(shí)庫(kù)來(lái)創(chuàng)建領(lǐng)域詞典;(2) 針對(duì)一詞多義和中英文混合詞性標(biāo)注容易引入噪聲等問(wèn)題,使用基于條件隨機(jī)場(chǎng)(CRF)實(shí)體識(shí)別算法對(duì)已經(jīng)標(biāo)注好的領(lǐng)域問(wèn)題進(jìn)行訓(xùn)練,以便在問(wèn)句語(yǔ)義解析時(shí)準(zhǔn)確的識(shí)別領(lǐng)域概念和其語(yǔ)義;(3) 針對(duì)自然語(yǔ)言描述問(wèn)題存在的不符合語(yǔ)法規(guī)范、模糊性、二義性強(qiáng),縮寫(xiě)多等特征,以及外界因素或者自身原因產(chǎn)生提問(wèn)時(shí)掉字等情況。在系統(tǒng)中加入了基于聲韻母的語(yǔ)音識(shí)別后文本糾錯(cuò)模塊,用以修正用戶提問(wèn)時(shí)產(chǎn)生的問(wèn)題描述錯(cuò)誤。

2 系統(tǒng)總體設(shè)計(jì)

2.1 系統(tǒng)總體結(jié)構(gòu)

針對(duì)面向?qū)I(yè)領(lǐng)域智能問(wèn)答系統(tǒng)的需求,構(gòu)建系統(tǒng)的架構(gòu)如圖1所示。

圖1 系統(tǒng)總體結(jié)構(gòu)圖

系統(tǒng)的總體流程為:用戶自然語(yǔ)言查詢后,由通用的語(yǔ)音輸入法將語(yǔ)音轉(zhuǎn)換成文本句,其次基于聲韻母的語(yǔ)音識(shí)別后文本糾錯(cuò)方法矯正文本句,得到正確的領(lǐng)域相關(guān)詞語(yǔ)等。基于詞典糾錯(cuò)的過(guò)程在糾錯(cuò)同時(shí)也對(duì)文本分詞,針對(duì)一詞多義的情況需要根據(jù)同義詞典進(jìn)行同義詞轉(zhuǎn)換。然后基于條件隨機(jī)場(chǎng)模型對(duì)查詢問(wèn)句作實(shí)體標(biāo)注,得到對(duì)應(yīng)的<領(lǐng)域詞,詞語(yǔ)含義>二元組串。

由于上下文關(guān)聯(lián)會(huì)影響用戶查詢結(jié)果,因此在得到查詢問(wèn)句的語(yǔ)義二元組串以后,需要判斷查詢上下文是否存在關(guān)聯(lián)性。如果存在則將上次查詢得到的二元組串加入到本次查詢的語(yǔ)義二元組串中,根據(jù)二元組串中元素的語(yǔ)義特征構(gòu)造查詢請(qǐng)求服務(wù),并將請(qǐng)求服務(wù)與本體描述的查詢服務(wù)相互匹配,將能夠滿足實(shí)例化條件的匹配度最高的查詢服務(wù)作為匹配的查詢服務(wù)。同時(shí)需要將查詢的結(jié)果通過(guò)owl-s提供的實(shí)例化API查詢的Web服務(wù),然后將結(jié)果加入到查詢上下文的數(shù)據(jù)表中以待下次查詢使用。若無(wú)查詢結(jié)果,則返回給用戶“無(wú)結(jié)果”,以完成整個(gè)查詢流程。如圖2所示。

圖2 系統(tǒng)總體流程圖

2.2 基于本體的服務(wù)描述規(guī)則

服務(wù)是智能問(wèn)答系統(tǒng)重要的一個(gè)環(huán)節(jié),系統(tǒng)根據(jù)用戶提問(wèn)搜尋相匹配的查詢服務(wù),將查詢參數(shù)實(shí)例化后調(diào)用服務(wù),將最后的查詢結(jié)果返回給用戶。由于服務(wù)關(guān)系著查詢的質(zhì)量,針對(duì)服務(wù)的特征和實(shí)例化需要,本文定義了相應(yīng)的服務(wù)描述規(guī)則和一些基本概念。如下所示:

Domain:描述領(lǐng)域的頂層概念,下層存放與領(lǐng)域相關(guān)的概念。如描述時(shí)間的概念Time和描述地點(diǎn)的概念Region等。

Service:存放有關(guān)服務(wù)描述的相關(guān)頂層概念,下層存放與服務(wù)描述相關(guān)的概念知識(shí)。

ServiceInstance:存放系統(tǒng)所提供的查詢服務(wù)實(shí)例描述的頂層概念,下層存放具體的查詢服務(wù)描述。

OtherCondition:存放服務(wù)描述其他條件的頂層概念,可以在服務(wù)匹配時(shí)更容易定位到匹配的服務(wù),比如用戶問(wèn)句的意圖是查詢或者是對(duì)比等。

OwlUrl:用于定位通過(guò)OwlsEdit編輯的可調(diào)用Web服務(wù)實(shí)例的位置,用于實(shí)例化匹配的服務(wù)。

hasInput:概念屬性,描述服務(wù)的輸入。

hasOwlInputSeq:概念屬性,用于將用戶查詢生成的服務(wù)輸入?yún)?shù)實(shí)例與對(duì)應(yīng)真實(shí)的Web服務(wù)參數(shù)匹配,也即服務(wù)的參數(shù)與參數(shù)實(shí)例的映射關(guān)系。

hasOutput:概念屬性,描述服務(wù)的輸出。

hasOtherCondition::概念屬性,用來(lái)描述服務(wù)的其他描述條件,與OtherCondition匹配。

comment:概念注釋,用于描述ServiceInstance下查詢服務(wù)的功能。

服務(wù)的結(jié)構(gòu)如圖3所示。

圖3 系統(tǒng)服務(wù)結(jié)構(gòu)圖

2.3 命名實(shí)體識(shí)別策略

2.3.1 基于聲韻母的語(yǔ)音識(shí)別后文本糾錯(cuò)方法

語(yǔ)音識(shí)別的準(zhǔn)確率直接關(guān)系到領(lǐng)域相關(guān)命名實(shí)體識(shí)別以及服務(wù)匹配和實(shí)例化的準(zhǔn)確度,基于聲韻母的語(yǔ)音識(shí)別后文本糾錯(cuò)方法主要解決:未登錄詞處理、交際型歧義字段、組合型歧義字段、混合型歧義字段等問(wèn)題。

本文根據(jù)領(lǐng)域知識(shí)庫(kù)構(gòu)建相應(yīng)的領(lǐng)域詞典,領(lǐng)域詞典的中單個(gè)元素是領(lǐng)域相關(guān)詞和該詞在領(lǐng)域中的概念的二元組,由于可能會(huì)存在一詞多義的情況,所以概念存在有多個(gè)的情況。漢字是以音節(jié)為識(shí)別單元,而音節(jié)是由聲母與韻母組成?;谶@些特點(diǎn)本文提出基于聲韻母的語(yǔ)音識(shí)別后文本糾錯(cuò)方法。通過(guò)將語(yǔ)音輸入法轉(zhuǎn)換后的查詢文本句轉(zhuǎn)成聲韻母串,然后根據(jù)領(lǐng)域詞典做聲韻母的相似度比較進(jìn)行矯正和分詞。該算法的主要步驟如下:

輸入:用戶查詢文本句S,領(lǐng)域詞典WList={w1,w2,w3…,wn},對(duì)于每個(gè)w∈WList,都有w=,k表示單個(gè)領(lǐng)域詞,ih表示該詞語(yǔ)的聲韻母表示,v代表詞語(yǔ)的領(lǐng)域含義。

輸出:文本句對(duì)應(yīng)的語(yǔ)義串TokenList={t1,t2,t3,…,tn},對(duì)于每一個(gè)t∈TokenList,都有t=,其中k是單個(gè)領(lǐng)域詞,v為在領(lǐng)域詞典中詞語(yǔ)的領(lǐng)域含義。

(1) 將S轉(zhuǎn)換成聲韻母串VList,并設(shè)置詞語(yǔ)的最低匹配度的閾值threshold,設(shè)置匹配度最高的匹配度mDegree=0,對(duì)應(yīng)匹配的聲韻母串長(zhǎng)度matchLen=0。

(2) 如果VList中元素全部匹配,則匹配結(jié)束,返回TokenList。

(3) 如果VList中元素還有未匹配,對(duì)于領(lǐng)域詞典中每個(gè)詞語(yǔ)w,根據(jù)w.ih獲取其聲韻母串長(zhǎng)度len。

(4) 分別計(jì)算VList中未匹配串長(zhǎng)度為len-1、len、len+1的聲韻母串與w.ih的匹配度記為m1、m2、m3,其中最高的匹配度記為m,對(duì)應(yīng)的長(zhǎng)度記為mLen。

(5) 如果m≥threshold,且m>mDegree,則mDegree=m,t.k=m.k,t.v=m.v,matchLen=mLen。

(6) 遍歷領(lǐng)域詞典后,如果mDegree==0,則將VList中待匹配串后移1位;如果mDegree>0,則將VList中待匹配串后移matchLen位,并將t加入TokenList。

(7) 將t置為空,mDegree置為0,matchLen置為0。

(8) 轉(zhuǎn)到步驟(2)。

對(duì)于步驟(4)中的聲韻母串匹配度的計(jì)算,假設(shè)待匹配聲韻母串長(zhǎng)度為d,與之匹配的領(lǐng)域詞典中詞語(yǔ)的聲韻母串長(zhǎng)度為n,兩者的非連續(xù)匹配串長(zhǎng)度為m,則兩者的匹配度為式(1)所示:

MatchDegree=m^2/(d×n)

(1)

2.3.2 基于條件隨機(jī)場(chǎng)的實(shí)體標(biāo)注策略

本文采用條件隨機(jī)場(chǎng)對(duì)分詞后出現(xiàn)一詞多義的情況進(jìn)行準(zhǔn)確的詞性標(biāo)注。訓(xùn)練和測(cè)試樣本為人民日?qǐng)?bào)1998年的中文標(biāo)注語(yǔ)料庫(kù),語(yǔ)料格式如圖4所示。

圖4 人民日?qǐng)?bào)語(yǔ)料圖

語(yǔ)料的每條記錄都是由編號(hào)和一段句子組成,而且語(yǔ)料已經(jīng)對(duì)編號(hào)和句子中詞語(yǔ)做了詞性標(biāo)注,由于訓(xùn)練時(shí)不需要記錄的編號(hào),本文對(duì)語(yǔ)料進(jìn)行了預(yù)處理,得到的可供訓(xùn)練的樣本如圖5所示。

圖5 人民日?qǐng)?bào)訓(xùn)練語(yǔ)料圖

選取的特征窗口長(zhǎng)度為7,包含7個(gè)單詞特征與6個(gè)二元組合特征,特征模板如圖6所示。

圖6 人民日?qǐng)?bào)訓(xùn)練語(yǔ)料圖

該模板中,#代表注釋,U00中U表示選用的是Unigram模板,00代表記錄的編號(hào),%x[s,o]代表生成一個(gè)CRFs中的點(diǎn)(state)函數(shù):f(s,o)。其中t時(shí)刻的標(biāo)簽(output)與上下文分別用s和o表示,以“中國(guó)/ns共產(chǎn)黨/n成功/a地/u召開(kāi)/v了/u第十五/m次/q全國(guó)/n代表大會(huì)/n”為例,假設(shè)當(dāng)前行在“召開(kāi)”,此時(shí)的特征上下文如表1所示。

表1 用戶查詢記錄表

由此可見(jiàn),該模板訓(xùn)練后得到詞性標(biāo)注的準(zhǔn)確率為:P=0.933 164。

2.4 服務(wù)匹配及查詢上下文管理策略

2.4.1 基于領(lǐng)域概念層級(jí)的服務(wù)匹配算法

服務(wù)匹配的目的是將用戶提問(wèn)映射到對(duì)應(yīng)的查詢服務(wù)上,需要將<領(lǐng)域相關(guān)詞,語(yǔ)義概念>的二元組串映射到一個(gè)基本服務(wù)中。本文建立基于概念層級(jí)的匹配方法,將輸入和輸出的服務(wù)參數(shù)與對(duì)應(yīng)領(lǐng)域概念進(jìn)行匹配并劃分為如下五種:

(1) 當(dāng)服務(wù)請(qǐng)求的概念與待匹配服務(wù)中概念是一個(gè)概念的時(shí)候,該匹配吻合。

(2) 當(dāng)服務(wù)請(qǐng)求的參數(shù)所對(duì)應(yīng)概念是待匹配服務(wù)參數(shù)中概念的超類時(shí),這時(shí)滿足查詢需求互相匹配。

(3) 當(dāng)服務(wù)請(qǐng)求中相同類型的參數(shù)有多個(gè)(包括一個(gè))實(shí)例,而待匹配服務(wù)中該參數(shù)也是相同概念的數(shù)據(jù)集時(shí),兩者相互匹配。例:“查看湖南省2015年的GDP。”,服務(wù)請(qǐng)求的輸入?yún)?shù)有GDP是一個(gè)indicator,同時(shí)待匹配服務(wù)輸入?yún)?shù)中有indicatorSet,則兩者是匹配的。

(4) 當(dāng)服務(wù)請(qǐng)求的參數(shù)所對(duì)應(yīng)的概念是待匹配服務(wù)參數(shù)中概念的子類時(shí),由于二者參數(shù)不匹配,當(dāng)實(shí)例化時(shí)參數(shù)類型會(huì)出現(xiàn)錯(cuò)誤,則匹配失敗。

(5) 當(dāng)服務(wù)請(qǐng)求的參數(shù)所對(duì)應(yīng)的概念與待匹配服務(wù)參數(shù)中概念的子類無(wú)關(guān)時(shí),同樣實(shí)例化時(shí)參數(shù)類型會(huì)出錯(cuò),也會(huì)造成匹配失敗。

2.4.2 服務(wù)調(diào)用與上下文管理策略

服務(wù)匹配成功后需要對(duì)Web服務(wù)參數(shù)進(jìn)行實(shí)例化并調(diào)用已完成整個(gè)問(wèn)答過(guò)程,本文的Web服務(wù)是以wsdl描述的,然后經(jīng)OwlsEdit工具編輯Web服務(wù)生成的wsdl文件得到了服務(wù)描述的owl文件。查詢匹配到相應(yīng)的服務(wù)描述本體后,通過(guò)服務(wù)的“hasOwlUri”屬性可以定位到該文件描述的具體的服務(wù),然后根據(jù)服務(wù)的“hasOwlInputSeq”屬性來(lái)做服務(wù)描述本體中服務(wù)輸入與該Uri對(duì)應(yīng)服務(wù)輸入的映射。一個(gè)簡(jiǎn)單的映射如圖7所示。

圖7 服務(wù)映射關(guān)系圖

圖的左邊是服務(wù)本體描述的一個(gè)服務(wù),右側(cè)是使用OwlsEdit工具通過(guò)wsdl文件生成的該服務(wù)的描述。可以看出,右側(cè)服務(wù)的語(yǔ)義特征模糊,左側(cè)服務(wù)的“Uri”映射到右側(cè)服務(wù)節(jié)點(diǎn),其“hasInput”和“hasOwlInputSeq”屬性的值是一一對(duì)應(yīng)的,可以從上圖中得到。輸入的“date”概念與“para2”映射,輸入的“region”概念與“para1”映射,輸入的“indicator”概念與“para3”映射,而右側(cè)服務(wù)是帶有參數(shù)類型的信息,這樣就可以將服務(wù)輸入?yún)?shù)的實(shí)例映射到服務(wù)對(duì)應(yīng)的參數(shù)上,實(shí)現(xiàn)了服務(wù)的自動(dòng)化調(diào)用。

3 系統(tǒng)實(shí)現(xiàn)

本文設(shè)計(jì)與實(shí)現(xiàn)一個(gè)包含多種圖表類型,支持?jǐn)?shù)據(jù)聯(lián)動(dòng),智能化的國(guó)民經(jīng)濟(jì)大數(shù)據(jù)可視化系統(tǒng)。為科研人員及政府決策人員查詢各類經(jīng)濟(jì)數(shù)據(jù)、對(duì)比地區(qū)間發(fā)展差異、發(fā)現(xiàn)經(jīng)濟(jì)規(guī)律、制定切合實(shí)際的促進(jìn)經(jīng)濟(jì)發(fā)展的經(jīng)濟(jì)政策提供簡(jiǎn)潔有效的幫助。本文系統(tǒng)將單一繁瑣的經(jīng)濟(jì)大數(shù)據(jù)相互聯(lián)系起來(lái),用戶可從各個(gè)方面對(duì)經(jīng)濟(jì)大數(shù)據(jù)進(jìn)行解讀,全面而深入地了解國(guó)民經(jīng)濟(jì)發(fā)展現(xiàn)狀,分析導(dǎo)致經(jīng)濟(jì)發(fā)展現(xiàn)狀的原因,進(jìn)而預(yù)測(cè)經(jīng)濟(jì)發(fā)展趨勢(shì)做出合理的經(jīng)濟(jì)決策,有效實(shí)時(shí)地調(diào)控經(jīng)濟(jì)制定恰當(dāng)?shù)恼呦驅(qū)А?/p>

本系統(tǒng)以國(guó)家統(tǒng)計(jì)局除港澳臺(tái)外的31個(gè)省級(jí)行政區(qū)、2005年到2014年間包括工業(yè)、財(cái)政、金融等各行業(yè)共922 869條記錄作為問(wèn)答系統(tǒng)的知識(shí)庫(kù)數(shù)據(jù)。構(gòu)建服務(wù)描述本體時(shí)選取Protégé作為編輯本體的工具,建立領(lǐng)域概念與服務(wù)參數(shù)相應(yīng)的聯(lián)系,使用OWL本體描述語(yǔ)言對(duì)國(guó)民經(jīng)濟(jì)大數(shù)據(jù)領(lǐng)域下服務(wù)建模,圖8是使用OntoGraf展示了部分服務(wù)描述本體。

圖8 利用OntoGraf服務(wù)描述本體

用戶可以通過(guò)在文本框中輸入與語(yǔ)音輸入查詢問(wèn)題,當(dāng)語(yǔ)音輸入實(shí)例一:“查看重慶的中稻和一季晚稻播種面積和農(nóng)作物總播種面積是多少?”后,問(wèn)答系統(tǒng)文本句糾錯(cuò)和實(shí)體標(biāo)注結(jié)果如下所示:

由上可知,對(duì)“中稻和一季晚稻播種面積”識(shí)別錯(cuò)誤,變?yōu)椤巴ǖ?,黑一金晚稻播種面積”。經(jīng)過(guò)基于聲韻母的語(yǔ)音識(shí)別糾錯(cuò)后得到了準(zhǔn)確的查詢語(yǔ)句,再通過(guò)同義詞典將“查看”變成“查詢”,“重慶”變成“重慶市”,最后識(shí)別出相應(yīng)的實(shí)體。最后查詢的結(jié)果如圖9所示。

圖9 實(shí)例1系統(tǒng)查詢結(jié)果圖

當(dāng)用戶語(yǔ)音輸入實(shí)例二:“查詢2014年GDP前3的地區(qū)有哪些?”后,問(wèn)答系統(tǒng)文本句糾錯(cuò)和實(shí)體標(biāo)注結(jié)果如下所示:

由上可知,問(wèn)句中“GDP”需要同義詞轉(zhuǎn)換為“地區(qū)生產(chǎn)總值”以完成實(shí)體的識(shí)別和標(biāo)注。最后查詢結(jié)果如圖10所示。

圖10 實(shí)例2系統(tǒng)查詢結(jié)果圖

考慮到上下文相關(guān)查詢的情況,在上一句的基礎(chǔ)上,語(yǔ)音輸入實(shí)例三:“對(duì)比這些地區(qū)的GDP與第一產(chǎn)業(yè)增加值之間的關(guān)系。”問(wèn)答系統(tǒng)文本句糾錯(cuò)和實(shí)體標(biāo)注結(jié)果如下所示:

該查詢語(yǔ)音輸入法識(shí)別準(zhǔn)確,由于“地區(qū)”是RegionConcept,與上次查詢的結(jié)果中三個(gè)地區(qū)存在指代關(guān)系,則將其地區(qū)加入到查詢實(shí)體中查詢結(jié)果如圖11所示。

圖11 實(shí)例3系統(tǒng)查詢結(jié)果圖

4 結(jié) 語(yǔ)

本文針對(duì)現(xiàn)有的問(wèn)答系統(tǒng)相關(guān)技術(shù)的不足與面向?qū)I(yè)領(lǐng)域問(wèn)答系統(tǒng)的需求,提出了面向?qū)I(yè)領(lǐng)域智能問(wèn)答系統(tǒng)的實(shí)現(xiàn)框架。并應(yīng)用于“國(guó)民經(jīng)濟(jì)大數(shù)據(jù)查詢系統(tǒng)”中,該系統(tǒng)驗(yàn)證了本文所提出智能問(wèn)答系統(tǒng)框架的實(shí)用性,并且該框架具有較高維護(hù)性。由于本系統(tǒng)將查詢服務(wù)以Web服務(wù)的方式調(diào)用,使其耦合性大大降低,具有很好的擴(kuò)展能力。

目前,已有問(wèn)答系統(tǒng)只能對(duì)簡(jiǎn)單的提問(wèn)進(jìn)行回答,針對(duì)語(yǔ)義的理解也處在淺層。因此,問(wèn)答系統(tǒng)的研究還有很多需要深入挖掘的問(wèn)題。未來(lái)面向?qū)I(yè)領(lǐng)域智能問(wèn)答系統(tǒng)的框架可以從考慮語(yǔ)義因素建立語(yǔ)料庫(kù),結(jié)合語(yǔ)義的糾錯(cuò)可以很大程度上提高文本糾錯(cuò)的效果。同時(shí),由于本文提出的服務(wù)匹配模型只能實(shí)現(xiàn)單個(gè)查詢問(wèn)句對(duì)單個(gè)查詢服務(wù)的映射,對(duì)于復(fù)雜的查詢問(wèn)句可能會(huì)存在一個(gè)查詢問(wèn)句映射到一個(gè)組合服務(wù)的情況,雖然可以通過(guò)owl-s組合多個(gè)Web服務(wù)到一個(gè)統(tǒng)一的接口,但是這種操作是手工實(shí)現(xiàn)的,對(duì)查詢服務(wù)較多的情況不大適應(yīng),工作量也較多。未來(lái)可著重于根據(jù)查詢的輸入和輸出條件實(shí)現(xiàn)多個(gè)服務(wù)自動(dòng)組合和調(diào)用的研究。

參考文獻(xiàn)

[1] 全球互聯(lián)網(wǎng)狀況統(tǒng)計(jì)[DB/OL].[2017-8-20]http://www.clickz.com/stats/.

[2] 顧雅楓.基于用戶興趣模型的信息檢索研究[D].蘭州大學(xué),2009.

[3] Baeza-Yates R,Ribeiro-Neto B.Modern Information Retrieval[M].New York:ACM Press,2011.

[4] Burger J,Cardie C,Chaudhri V,et al.Issues,Tasks and Program Structures to Roadmap Research in Question & Answering (Q & A) [EB/OL].2000.http://www-nlpir.nist.gov/projects/duc/roadmapping.html.

[5] Green B,Wolf A,Chomsky C,et al.BASEBALL:an automatic question answerer[M].Readings in natural language processing,Morgan Kaufmann Publishers Inc.,1986:545-549.

[6] Weizenbaum J.ELIZA,a computer program for the study of natural language communication between man and machine[J].Communications of the Acm,1966,9(1):36-45.

[7] WallaceRS.AIMLoverview[EB/OL].http://www.pandorabots.com/pandora/pics/wallaceaimltu-torial.html.

[8] Rand R H.Computer algebra in applied mathematics[M].Pitman Advanced Pub.Program,1984.

[9] 秦兵,劉挺,王洋,等.基于常問(wèn)問(wèn)題集的中文問(wèn)答系統(tǒng)研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2003,35(10):1179-1182.

[10] 百度知道[DB/OL].[2017-8-20] https://zhidao.baidu.com/.

[11] Dong X,Gabrilovich E,Heitz G,et al.Knowledge vault:a web-scale approach to probabilistic knowledge fusion[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2014:601-610.

[12] Suchanek F M,Kasneci G,Weikum G.Yago—A Core of Sematic Konwledge[C]// 16th international World Wide Web Conference,2007.

[13] Hermjakob U,Echihabi A,Marcu D.Natural Language Based Reformulation Resource and Web Exploitation for Question Answering[C]// Proceedings of TREC-2002,2002.

[14] 微軟小冰[DB/OL].[2017-8-20]http://www.msxiaoice.com/.

[15] 百度語(yǔ)音助手[DB/OL].[2017-8-20]http://yuyin.baidu.com/.

猜你喜歡
語(yǔ)義概念用戶
Birdie Cup Coffee豐盛里概念店
語(yǔ)言與語(yǔ)義
幾樣概念店
學(xué)習(xí)集合概念『四步走』
聚焦集合的概念及應(yīng)用
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認(rèn)知范疇模糊與語(yǔ)義模糊
主站蜘蛛池模板: 色噜噜狠狠狠综合曰曰曰| 亚洲区一区| 欧美成人一级| 成人福利视频网| 亚洲制服中文字幕一区二区| 国产极品粉嫩小泬免费看| 伊人福利视频| 又大又硬又爽免费视频| 亚洲欧美天堂网| 中文字幕调教一区二区视频| 精品国产香蕉在线播出| 亚洲二区视频| 91九色国产porny| 97人妻精品专区久久久久| 亚洲欧洲免费视频| 在线免费看片a| 欧美一级在线| 国产精品短篇二区| 国产一区二区网站| 婷婷六月激情综合一区| 国产亚洲视频在线观看| 色婷婷综合在线| 亚洲日本一本dvd高清| 久久亚洲日本不卡一区二区| 无码内射在线| 国产亚洲高清在线精品99| 99精品国产自在现线观看| 欧美日韩亚洲国产主播第一区| 欧美爱爱网| 91啪在线| 乱人伦视频中文字幕在线| 国产综合亚洲欧洲区精品无码| 国产十八禁在线观看免费| 日本成人在线不卡视频| 天天视频在线91频| 久久频这里精品99香蕉久网址| 最新国语自产精品视频在| 久久精品国产精品一区二区| 国产99精品久久| 国产精品免费久久久久影院无码| 久久美女精品国产精品亚洲| 2020国产精品视频| 无码不卡的中文字幕视频| 99精品欧美一区| 久久精品国产精品青草app| 久久精品国产91久久综合麻豆自制 | 国产高清无码麻豆精品| 亚洲第一精品福利| 精品视频一区二区观看| 欧美日韩国产精品综合| 亚洲AV电影不卡在线观看| 亚欧乱色视频网站大全| 国产在线观看91精品亚瑟| 日韩国产一区二区三区无码| 亚洲精品第一页不卡| 精品無碼一區在線觀看 | www.日韩三级| 久久婷婷人人澡人人爱91| jizz在线观看| 亚洲制服丝袜第一页| 精品乱码久久久久久久| 欧美日韩亚洲国产主播第一区| 思思热精品在线8| 欧美中文字幕第一页线路一| 国产欧美高清| 日韩av无码精品专区| 亚洲最大综合网| 色老二精品视频在线观看| 日韩小视频网站hq| 亚洲成人77777| 91口爆吞精国产对白第三集| 日韩毛片免费| 国产人人干| 欧洲高清无码在线| 中文字幕无码中文字幕有码在线| 在线免费不卡视频| 国产乱人伦精品一区二区| 毛片手机在线看| 国产午夜小视频| 国产JIZzJIzz视频全部免费| 婷婷色中文网| 在线观看欧美精品二区|