王定橋,李衛(wèi)華,楊春燕
(1.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006; 2.廣東工業(yè)大學(xué) 可拓學(xué)與創(chuàng)新方法研究所,廣東 廣州 510006)
?
從用戶需求語(yǔ)句建立問(wèn)題可拓模型的研究
王定橋1,李衛(wèi)華1,楊春燕2
(1.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006; 2.廣東工業(yè)大學(xué) 可拓學(xué)與創(chuàng)新方法研究所,廣東 廣州 510006)
摘要:準(zhǔn)確地建立待解決問(wèn)題的可拓模型是可拓策略生成的關(guān)鍵步驟。目前的可拓策略生成系統(tǒng)在建立可拓模型時(shí)因自然語(yǔ)言理解的困難,未能充分理解用戶需求,所以較難自動(dòng)建立問(wèn)題的可拓模型。提出了解析用戶自然語(yǔ)言需求語(yǔ)句、并自動(dòng)建立可拓模型的方法。該方法的核心包括4步:1)對(duì)用戶需求語(yǔ)句進(jìn)行組塊分析得到短語(yǔ)序列;2)對(duì)短語(yǔ)序列進(jìn)行分類;3)使用匹配規(guī)則抽取分類后的短語(yǔ),得到便于計(jì)算機(jī)處理的需求信息;4)結(jié)合數(shù)據(jù)庫(kù)技術(shù)進(jìn)行可拓模型的建立。以租房問(wèn)題為案例,實(shí)現(xiàn)了該方法。實(shí)驗(yàn)結(jié)果表明,該方法能較好地理解用戶需求信息并成功建立租房問(wèn)題可拓模型。
關(guān)鍵詞:可拓學(xué);可拓模型;可拓策略生成;信息抽取;分類 在短語(yǔ)對(duì)應(yīng)的原文中獲取表達(dá)這類信息的,通過(guò)有限狀態(tài)機(jī),即可獲取用戶真正要表達(dá)的量值。這種方法僅在用戶將關(guān)鍵詞混在多個(gè)量值之間,并且不加任何分隔符的情形下失效。在實(shí)際應(yīng)用中這種情形出現(xiàn)的概率很小。
中文引用格式:王定橋,李衛(wèi)華,楊春燕. 從用戶需求語(yǔ)句建立問(wèn)題可拓模型的研究[J]. 智能系統(tǒng)學(xué)報(bào), 2015, 10(6): 865-871.

矛盾問(wèn)題是指在現(xiàn)有條件下無(wú)法實(shí)現(xiàn)人們要達(dá)到的目標(biāo)的問(wèn)題。矛盾問(wèn)題智能化處理的研究對(duì)現(xiàn)代科學(xué)的發(fā)展具有重要意義[1]。可拓學(xué)研究的矛盾問(wèn)題主要分為不相容問(wèn)題和對(duì)立問(wèn)題,本文主要討論不相容問(wèn)題。
解決不相容問(wèn)題,一般包括6個(gè)步驟[1],其中第1個(gè)步驟就是建立問(wèn)題的可拓模型。因此,要借助計(jì)算機(jī)智能化地處理不相容問(wèn)題,首要的任務(wù)是準(zhǔn)確地建立問(wèn)題的可拓模型。
目前,建立可拓模型主要通過(guò)2種方式:1)在人充分理解問(wèn)題的基礎(chǔ)上,利用形式化符號(hào)手工建立。這種方式主要由少數(shù)專家和研究人員使用,對(duì)可拓學(xué)專業(yè)知識(shí)要求較高,不適合廣大用戶;2)通過(guò)可拓策略生成系統(tǒng)的界面輸入問(wèn)題相關(guān)的參數(shù),來(lái)輔助系統(tǒng)建模。例如早期研究的自助游可拓策略生成系統(tǒng)[2]、租房可拓策略生成系統(tǒng)[3]、求職問(wèn)題可拓策略生成系統(tǒng)[4]等都是采用這種方式。但使用這種方式時(shí)存在2個(gè)問(wèn)題:1)當(dāng)參數(shù)過(guò)多時(shí),輸入界面通用設(shè)計(jì)變得困難;2)如果輸入文字稍長(zhǎng),系統(tǒng)難以快速理解用戶問(wèn)題,建模效率低。
1關(guān)鍵技術(shù)及解決思路
1.1問(wèn)題可拓模型建立所涉及到的技術(shù)
建立不相容問(wèn)題的可拓模型,實(shí)際上是一個(gè)收集與問(wèn)題P相關(guān)的信息,然后界定問(wèn)題的目標(biāo)G和條件L,形成可拓模型P = GL的過(guò)程。其中主要涉及到以下技術(shù):
1)信息抽取技術(shù)
信息抽取技術(shù)是指從一段文本中抽取指定的事件、事實(shí)等信息,形成結(jié)構(gòu)化的數(shù)據(jù)并存入一個(gè)數(shù)據(jù)庫(kù),供用戶查詢和使用的過(guò)程[5]。從用戶需求語(yǔ)句,抽取屬性及量值,實(shí)際上就是一個(gè)信息抽取的過(guò)程。
2)領(lǐng)域本體
領(lǐng)域本體是用于描述特定領(lǐng)域知識(shí)的一種專門本體。它給出了領(lǐng)域?qū)嶓w概念、領(lǐng)域?qū)傩愿拍睢㈩I(lǐng)域?qū)傩灾导跋嗷リP(guān)系,以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述[6]。實(shí)際上在可拓策略生成系統(tǒng)整個(gè)過(guò)程中,都需要借助領(lǐng)域本體知識(shí)。在建立模型時(shí)領(lǐng)域本體能夠?yàn)槌槿傩缘姆N類、量值范圍、量值單位提供一致的指導(dǎo)。
3)數(shù)據(jù)庫(kù)技術(shù)
可拓策略生成系統(tǒng)需要借助數(shù)據(jù)庫(kù)技術(shù),存儲(chǔ)基礎(chǔ)數(shù)據(jù)、知識(shí)庫(kù)、規(guī)則庫(kù)等內(nèi)容。在建立模型時(shí)用戶提供的需求語(yǔ)句可能只提供了目標(biāo)或條件之中的一個(gè),或者提供了不完整的目標(biāo)和條件,這些情況下需要利用數(shù)據(jù)庫(kù)中數(shù)據(jù)對(duì)可拓模型進(jìn)行補(bǔ)充和完善。
1.2用戶需求語(yǔ)句信息抽取的主要內(nèi)容
當(dāng)前信息抽取還只是面向特定領(lǐng)域開展,能夠真正實(shí)現(xiàn)大規(guī)模應(yīng)用的信息抽取系統(tǒng)仍然未出現(xiàn)[7]。知網(wǎng)的中文信息語(yǔ)義處理技術(shù)[8]有一定的參考價(jià)值,但仍然不能直接用于建立可拓模型。在實(shí)際應(yīng)用中,用戶表達(dá)的語(yǔ)句通常會(huì)出現(xiàn)不完全合乎語(yǔ)法、信息省略、包含錯(cuò)別字、簡(jiǎn)寫、歧義等情況,為信息抽取增加了難度。因此,結(jié)合實(shí)際問(wèn)題需要,本文將從用戶需求語(yǔ)句主要抽取的信息分為4類,如下:
1)可量化的量值
這類信息是指,用戶表達(dá)的明確的屬性和量值。例如:
例1一個(gè)人想在沙坪壩租房,只租1個(gè)月,有空調(diào)、衛(wèi)生間,房租大概350元。
這個(gè)語(yǔ)句中用戶給出的區(qū)域、租金、租期和配套設(shè)施都屬于可量化的量值。
2)抽象的量值
自然語(yǔ)言表達(dá)中通常會(huì)不自覺(jué)地出現(xiàn)一些抽象描述,當(dāng)這些描述與可拓策略生成系統(tǒng)期望的量值類型不一致時(shí),仍然需要抽取,以便做出更合理的決策。例如:
例2我要在大連市內(nèi)找工作,想租個(gè)房子,月租便宜點(diǎn)、交通方便點(diǎn)的。
這里用戶提供的租金描述為便宜的、交通狀況為方便的,都屬于抽象量值,而可拓策略生成系統(tǒng)實(shí)際需要的為數(shù)量值。
3)優(yōu)先級(jí)信息
用戶語(yǔ)句中很可能通過(guò)“必須”、“一定要”、“最好”等關(guān)鍵字,來(lái)表達(dá)他的特殊需求,例如:
例3想在濱州市新北中附近租房。便宜點(diǎn)的,合租也可以。一定要有暖氣。
用戶表達(dá)的需求“一定要有暖氣”可作為可拓策略生成的一個(gè)篩選條件。
4)邏輯關(guān)系信息
邏輯關(guān)系,主要包括用戶表達(dá)的并列、或者、否定、反義等邏輯關(guān)系。例如:
例4我要在南寧市內(nèi)租房,一室或者二室都可以,500元以內(nèi),不要中介的,安全的。
第1類信息的抽取,是一個(gè)命名實(shí)體識(shí)別的過(guò)程。命名實(shí)體識(shí)別 (named entity recognition, NER)的主要任務(wù)是識(shí)別出文本中的人名、地名等專有名稱和有意義的時(shí)間、日期等數(shù)量短語(yǔ)并加以歸類[9]。實(shí)際研究中,命名實(shí)體識(shí)別的對(duì)象根據(jù)不同應(yīng)用而有所改變,例如在醫(yī)學(xué)文本中識(shí)別生物命名實(shí)體[10]、中文旅游景點(diǎn)的識(shí)別[11]等。目前命名實(shí)體識(shí)別主要的方法包括:基于規(guī)則和詞典的方法、基于統(tǒng)計(jì)的方法、二者混合的方法。文獻(xiàn)[12]對(duì)比并指出了各個(gè)方法的優(yōu)點(diǎn)和局限。
上述第2類信息的抽取是一個(gè)分類的過(guò)程。對(duì)于用戶提供的不夠具體的量值,首先確定其描述的內(nèi)容屬于什么屬性,然后可以按2種方式處理。一種是為抽象描述提供預(yù)設(shè)值,例如為租金構(gòu)造離散函數(shù),根據(jù)值域分為便宜、一般、高價(jià)3個(gè)等級(jí),這樣用戶提供的抽象值也可以量化。另一種是利用抽取的抽象值,指導(dǎo)后續(xù)的人機(jī)交互過(guò)程。
上述第3類和第4類信息,主要是在確定了屬性和量值后,在這個(gè)量值所在的上下文環(huán)境中,通過(guò)有限狀態(tài)機(jī)實(shí)現(xiàn)。構(gòu)造一個(gè)包含表達(dá)優(yōu)先級(jí)、反義這類信息的關(guān)鍵詞的詞典,通過(guò)有限狀態(tài)機(jī)中狀態(tài)之間轉(zhuǎn)移來(lái)實(shí)現(xiàn)。例如量詞短語(yǔ)“1 000元”所在上下文為“租金超過(guò)1 000元的就不要了”,首先獲取的量值1 000元,通過(guò)輸入單詞“超過(guò)”和“不要”,量值轉(zhuǎn)換為最終的區(qū)間值[0,1 000]。
1.3問(wèn)題解決思路
在處理具體問(wèn)題的用戶需求語(yǔ)句時(shí),時(shí)間、貨幣、日期等實(shí)體占據(jù)很大比例,其識(shí)別比較簡(jiǎn)單,可以在分類后采用模式匹配方式實(shí)現(xiàn);而其他實(shí)體類數(shù)量比較少,識(shí)別比較困難。針對(duì)這一情況,本文決定采用混合的方法,即分類和規(guī)則匹配結(jié)合的方法來(lái)完成屬性和量值的抽取。文獻(xiàn)[13]中采用混合的方法提高了命名實(shí)體識(shí)別的準(zhǔn)確率和召回率。受到此方法的啟示,本文從用戶需求語(yǔ)句中提取信息時(shí),先對(duì)用戶語(yǔ)句進(jìn)行組塊分析獲取短語(yǔ)序列;然后對(duì)短語(yǔ)序列進(jìn)行分類,通過(guò)對(duì)分類后的短語(yǔ)使用規(guī)則匹配獲取屬性和量值;最后,使用這些屬性和量值并結(jié)合數(shù)據(jù)庫(kù)技術(shù)建立問(wèn)題的可拓模型。
2建立可拓模型的步驟
建立可拓模型的處理流程如圖1所示。

圖1 建立可拓模型的流程圖Fig.1 Steps to build extension model
2.1預(yù)處理
預(yù)處理的主要目的是為了簡(jiǎn)化后續(xù)處理。這一階段完成工作包括:過(guò)濾、替換、數(shù)據(jù)格式調(diào)整、分詞。過(guò)濾主要是過(guò)濾客氣詞(例如“請(qǐng)問(wèn)”)、語(yǔ)氣詞(例如“急求”)、詢問(wèn)相關(guān)詞(例如“有沒(méi)有”)。替換包括錯(cuò)別字替換(例如“500一下”替換為“500以下”)和同義詞替換(例如“旁邊”、“周圍”等替換為“附近”)。數(shù)據(jù)格式調(diào)整,包括數(shù)值都使用數(shù)字表示,數(shù)值范圍調(diào)整為統(tǒng)一格式。分詞時(shí)保留原句中的逗號(hào)等分隔符,將長(zhǎng)語(yǔ)句分割為短語(yǔ)句,得到多個(gè)短語(yǔ)句的分詞序列。
2.2組塊分析
組塊是一種語(yǔ)法結(jié)構(gòu),是符合一定語(yǔ)法功能的非遞歸短語(yǔ)[14]。組塊分析包括組塊的劃分和識(shí)別,也就是識(shí)別出語(yǔ)句中像動(dòng)詞短語(yǔ)、形容詞短語(yǔ)這類短語(yǔ)的過(guò)程。本文借助Stanford Parser來(lái)完成組塊分析。Stanford Parser中文解析器是基于Chinese Treebank的,具體的組塊標(biāo)記可參考文獻(xiàn)[15]。
在實(shí)驗(yàn)的過(guò)程中,發(fā)現(xiàn)組塊切分的粒度,對(duì)于抽取的信息數(shù)量有較大影響,尤其是當(dāng)用戶語(yǔ)句中量值信息密度較大時(shí)。
例52個(gè)800塊以內(nèi)的單間。
預(yù)處理后形成的語(yǔ)義樹,如圖2所示。在此片段中,需要抽取包括房間數(shù)量(兩間),租金(800塊以內(nèi))以及房子樣式(單間)在內(nèi)的3個(gè)屬性和量值。如果僅切分為一個(gè)NP短語(yǔ),那么后續(xù)階段處理時(shí)可能漏掉屬性;而切分為QP、DNP和NP,借助上下文信息,則能很好地捕獲3個(gè)屬性信息。

圖2 例5對(duì)應(yīng)的語(yǔ)法樹Fig.2 The parse tree of the fifth example
Chinese Treebank提供了17個(gè)短語(yǔ)標(biāo)記,其中CP、IP和UCP粒度過(guò)大,需要處理其內(nèi)部節(jié)點(diǎn);PRN、LST和DP一般不出現(xiàn)在用戶需求語(yǔ)句中,不予處理;CLP類型需要處理其上級(jí)QP短語(yǔ),VP、DNP、DVP需要處理其內(nèi)部節(jié)點(diǎn);FRAG是不能構(gòu)建完整結(jié)構(gòu)的片段元素,也需要處理其內(nèi)部節(jié)點(diǎn);主要處理的類型包括PP、QP、NP、LCP、ADJP、ADVP 6種短語(yǔ)。
6種主要短語(yǔ)中,最復(fù)雜的是NP。NP分為簡(jiǎn)單名詞短語(yǔ)和復(fù)合名詞短語(yǔ)。簡(jiǎn)單名詞短語(yǔ)由單個(gè)普通名詞NN、專有NR、時(shí)間名詞NT構(gòu)成;復(fù)和名詞短語(yǔ)的情況主要包括5種情況,QP-NN復(fù)合(例如“一個(gè)月”)、NN-NN復(fù)合(例如“個(gè)人房源”)、NN-CC-NN復(fù)合(例如“空調(diào)和洗衣機(jī)”)、多個(gè)時(shí)間名詞復(fù)合(例如“3月29日”),以及NR與若干個(gè)NN復(fù)合(例如“北京海淀區(qū)附近”)。
根據(jù)上述分析,采用自底向上的搜索方法來(lái)獲取短語(yǔ)序列,實(shí)現(xiàn)偽代碼如下所示:
getPhraseList(Tree root,List
root = pruneTree(root);leaves = root.leaves;
while(!leaves.isEmpty()) {
curLeave, tNode = leaves[0], null
p2= curLeave.ancestor(2, root);
switch(p2.label) {
case "QP":
tNode=handleQP(root,p2,phList);break;
case "NP":
tNode=handleNP(root,p2, phList);break;
case "LCP":
tNode=handleLCP(root,p2, phList);break;
case "ADJP","PP","ADVP":
phList.add(chToStr(p2.label,p2);
tNode=p2;break;
default:
handleDefault();break;
}
if(tNode!=null)
leaves.remove(tNode.getLeaves());
else leaves.remove(curLeave);
其中pruneTree完成語(yǔ)法樹的剪枝工作,移除SP、PN、PU等標(biāo)記的節(jié)點(diǎn),移除一些常見(jiàn)動(dòng)詞(例如“想”),副詞AD和形容詞JJ僅保留詞典中存在的詞;ancestor為從當(dāng)前節(jié)點(diǎn)向上獲取父節(jié)點(diǎn),參數(shù)為向上查找層數(shù)。handelDefault處理的是默認(rèn)情況,默認(rèn)情況下僅處理包括動(dòng)詞VV,形容詞VA,名詞NN這些單詞。對(duì)于這類詞,不使用包含它們的父節(jié)點(diǎn)類型標(biāo)記它們,而是直接使用它的詞性作為標(biāo)記,將他們作為其他短語(yǔ)的上下文環(huán)境保留起來(lái),以便于后續(xù)的分類工作。handleQP、handleNP、handleLCP3個(gè)函數(shù)分別處理QP、NP、LCP短語(yǔ)。給定例句:
例6一個(gè)人想在鄭州中央商務(wù)區(qū)附近租個(gè)350塊左右單間。
得到短語(yǔ)序列:[QP:一個(gè)/CD, NN:人/NN, PP:在/P 鄭州/NR 中央/NN 商務(wù)區(qū)/NN, VV:租/VV, QP:個(gè)/M, LCP:350/CD 塊/M 左右/LC, NN:單間/NN]。
2.3 分類
使用分類算法的關(guān)鍵是找到有效的特征向量。本文選取的特征包括:短語(yǔ)類型,包含測(cè)試特征,以及詞或者詞性特征。包含測(cè)試特征是對(duì)短語(yǔ)是否包含某類詞,進(jìn)行測(cè)試而得到的整型值。不同短語(yǔ)測(cè)試后的特征個(gè)數(shù)也不統(tǒng)一,因此把包含測(cè)試特征附加到短語(yǔ)類型上,作為一個(gè)特征。共選取了6個(gè)特征用于分類,如表1所示。

表1 用于分類的特征向量
包含測(cè)試特征中,連詞是指標(biāo)記為CC的單詞,序數(shù)詞是標(biāo)記為OD的單詞,時(shí)間是指標(biāo)記為NT的單詞,數(shù)詞是指CD或者OD的單詞。包含地址測(cè)試需要借助分詞系統(tǒng)完成,使用單詞的詞性測(cè)試其是否屬于地址類詞性。
需要注意,某些單個(gè)NN(例如“單間”)、VA(例如“便宜”)、VV(例如“合租”)本身就能表達(dá)一個(gè)量值,用戶很可能單獨(dú)使用它們來(lái)表達(dá)需求,因此,需要將這類詞記錄在詞典中。在遇到這類詞時(shí),將其添加到分類任務(wù)中,這類單詞的特征列在表1的末尾3行。
PP短語(yǔ)中,如果末尾詞是普通名詞則使用單詞本身,否則使用其詞性。包含單個(gè)NN的NP,將以NN標(biāo)記獨(dú)立處理。對(duì)于其他NP,如果包含地址或日期,名詞1和名詞2置為空。對(duì)于不包含地址或日期的復(fù)合名詞短語(yǔ),需要特別處理。2.2節(jié)中提到的NN-NN和NN-CC-NN類短語(yǔ),將其2個(gè)NN作為名詞1和名詞2填充;NR與若干NN復(fù)合的情形,將NR與NN連成一個(gè)詞,作為名詞1填充,名詞2置為空。
在有監(jiān)督的分類器訓(xùn)練的過(guò)程中,根據(jù)問(wèn)題和關(guān)注的屬性,使用不同的標(biāo)簽。與問(wèn)題無(wú)關(guān)的短語(yǔ)或詞,統(tǒng)一標(biāo)記為無(wú)關(guān)類,在后期過(guò)濾掉這些內(nèi)容。使用訓(xùn)練后得到的分類器,對(duì)短語(yǔ)序列分類,并合并相鄰的同類標(biāo)簽,得到最終分類后的短語(yǔ)序列。
2.4 量值提取
對(duì)分類后的短語(yǔ),針對(duì)每一類別,建立一系列匹配規(guī)則來(lái)抽取量值。匹配時(shí)間和數(shù)字類表達(dá)式的規(guī)則比較通用;對(duì)于名詞、動(dòng)詞、形容詞等可以根據(jù)分類結(jié)果,借助詞典來(lái)更準(zhǔn)確地確定邊界。
例如租房問(wèn)題中,匹配區(qū)域的規(guī)則,用正則表達(dá)式書寫并按照優(yōu)先級(jí)列出如下:
rule 1:(在?)(.*)(附近)
rule 2:(在|靠近)?(.*)(租)
rule 3:(離|靠|距)(.*)(近)
rule 4:(在?)(.*)(環(huán))
rule 5:(在?)(地鐵|公交)(.*)(線|路)
rule 6: 拼接詞性表示地點(diǎn)的單詞
除了匹配外,還需進(jìn)行3項(xiàng)工作:
1)理解優(yōu)先級(jí)、邏輯關(guān)系
2)同類合并和歧義消解
對(duì)于集合類型的量值,需要對(duì)量值進(jìn)行歸并;對(duì)于單一類型的量值,需要根據(jù)量值特點(diǎn),進(jìn)行歧義消解。例如用戶首先提供了一個(gè)范圍比較大的地址,接著又補(bǔ)充了一個(gè)小范圍地址,可以使用大地址后加上小地址的方式,準(zhǔn)確定位地址。
3)量值標(biāo)準(zhǔn)化
同一屬性的不同量值需要轉(zhuǎn)換為單位統(tǒng)一的量值,以便于處理。例如租房問(wèn)題中用戶提供租期屬性的量值,可能是“半個(gè)月”,“半年”,“一個(gè)星期”等可以統(tǒng)一調(diào)整到以月為單位的數(shù)量值。
經(jīng)過(guò)這一階段的處理,得到了最終的屬性字典。例6最終得到屬性字典如下:
{區(qū)域:鄭州中央商務(wù)區(qū), 租金:[0,350], 樣式:單間, 住戶人數(shù):1, 租房數(shù)量:1}
2.5模型填充
這一階段,使用上一階段獲取的屬性字典,并結(jié)合數(shù)據(jù)庫(kù)技術(shù),建立可拓模型。首先將屬性字典中各個(gè)屬性和量值填充到目標(biāo)或者條件基元中去。對(duì)于目標(biāo)或者條件基元中缺少的部分,則需要根據(jù)領(lǐng)域本體,借助數(shù)據(jù)庫(kù)或者人機(jī)交互來(lái)補(bǔ)充。
經(jīng)過(guò)上述流程的5個(gè)階段,最終從用戶語(yǔ)句建立了可拓模型。
3實(shí)現(xiàn)案例
3.1案例介紹
文獻(xiàn)[3]給出了一個(gè)租房問(wèn)題,下面以此問(wèn)題為背景來(lái)展開實(shí)驗(yàn)。實(shí)際語(yǔ)料中用戶表達(dá)的屬性通常都有多個(gè),本文一共關(guān)注了16個(gè)屬性,表2給出了部分屬性的示例。
表2租房問(wèn)題中用戶表達(dá)的屬性示例
Table 2User expressed attributes in tenement question

屬性量值類型量值單位量值示例區(qū)域字符串無(wú)番禺大學(xué)城租金整數(shù)元800塊面積整數(shù)平方米80平米樣式字符串廳,室兩室一廳樓層整數(shù)樓,層10樓房源字符串無(wú)個(gè)人
一般地,上述多個(gè)屬性,可以根據(jù)實(shí)際應(yīng)用情況,為每個(gè)屬性分配不同的權(quán)重用于指導(dǎo)可拓策略的生成和評(píng)價(jià)過(guò)程。
在實(shí)驗(yàn)過(guò)程中使用的資源包括:
1)語(yǔ)料資源,在百度和好搜兩大網(wǎng)絡(luò)平臺(tái),使用爬蟲程序抓取到與租房問(wèn)題相關(guān)的語(yǔ)句;
2)分詞系統(tǒng),使用哈工大訊飛語(yǔ)言云服務(wù);
3)組塊分析,使用斯坦福中文解析器;
4)分類器,使用張樂(lè)博士maxent工具箱;
5)詞表,手工編制了2個(gè)詞表,預(yù)處理詞表大小為600,匹配使用的詞表大小為140;
6)數(shù)據(jù)庫(kù),修改了文獻(xiàn)[3]中爬蟲程序,獲取了租房信息的數(shù)據(jù)并存貯在數(shù)據(jù)庫(kù)中;
7)條件隨機(jī)場(chǎng),使用CRF++工具箱。
3.2實(shí)驗(yàn)結(jié)果及分析
按照慣例,使用信息抽取任務(wù)中的準(zhǔn)確率P、召回率R以及F值來(lái)評(píng)測(cè)系統(tǒng)性能。作為對(duì)比試驗(yàn),選取文獻(xiàn)[16]中用于識(shí)別微博命名實(shí)體的條件隨機(jī)場(chǎng)方法,并使用了文中的特征模板。采用4-tag(B、M、E、S)對(duì)每個(gè)屬性進(jìn)行標(biāo)注,利用CRF++工具進(jìn)行了實(shí)際抽取工作。在處理的語(yǔ)句中,采用10-cross validation驗(yàn)證方法,得到的平均正確率P、召回率R、F值,如下表3所示。
上述結(jié)果表明,本文方法同CRF方法相比,性能有所提高。其中,準(zhǔn)確率的提高在于使用了匹配規(guī)則抽取分類后的短語(yǔ);召回率的提高在于使用組塊分析后,對(duì)短語(yǔ)進(jìn)行分類。CRF對(duì)樣本依賴比較大,當(dāng)樣本容量較小時(shí),本文方法更具優(yōu)勢(shì)。
文獻(xiàn)[3]中策略系統(tǒng)只考慮了區(qū)域、租金、交通狀況和面積4個(gè)屬性。利用本文方法,不僅能獲取更多的屬性,還能理解抽象量值、優(yōu)先級(jí)關(guān)系和邏輯關(guān)系,從而能更容易地為用戶生成理想的策略。
對(duì)用戶語(yǔ)句進(jìn)行信息提取后,結(jié)合數(shù)據(jù)庫(kù)檢索技術(shù),就能建立最終的可拓模型。例如對(duì)于語(yǔ)句:
例7廣州大學(xué)旁求租房!不想通過(guò)中介,3月29號(hào)左右可以入住,擬租時(shí)間3個(gè)月以上,希望有一室一衛(wèi)的公寓,能連接寬帶,月租不超過(guò)600都可以。通過(guò)上述方法,從用戶需求語(yǔ)句,獲取了目標(biāo)物元M;并從數(shù)據(jù)庫(kù)中查找到一條最接近用戶目標(biāo)的房子,確定為條件物元L。則最終確定了問(wèn)題的可拓模型表示為



在完整的可拓策略生成系統(tǒng)中,下一步工作就是由可拓模型,求出核問(wèn)題模型。當(dāng)核問(wèn)題模型中的條件滿足目標(biāo)的要求時(shí),就不是不相容問(wèn)題,不需要解決,說(shuō)明系統(tǒng)幫用戶找到了所需要的房子。當(dāng)核問(wèn)題模型中的條件不滿足目標(biāo)的要求時(shí),就是不相容問(wèn)題,需要利用可拓策略生成系統(tǒng),首先判斷問(wèn)題不相容的程度,然后通過(guò)拓展、變換和評(píng)價(jià),生成解決不相容問(wèn)題的策略。策略生成的詳細(xì)步驟參見(jiàn)文獻(xiàn)[3]。
4結(jié)束語(yǔ)
本文通過(guò)對(duì)用戶需求語(yǔ)句進(jìn)行組塊分析后得到的短語(yǔ)序列進(jìn)行分類,并結(jié)合匹配規(guī)則進(jìn)行信息抽取,得到了計(jì)算機(jī)較容易識(shí)別的需求信息。這種方法有效實(shí)現(xiàn)了從用戶需求語(yǔ)句到可拓模型的轉(zhuǎn)換,減輕了人的勞動(dòng),提高了可拓模型建立的效率和質(zhì)量,為可拓模型的建立提供了新的方法。
試驗(yàn)表明本文的方法已經(jīng)得到比較滿意的結(jié)果。今后還可以通過(guò)2種方式進(jìn)一步完善:1) 針對(duì)特定問(wèn)題,在分詞時(shí)使用用戶字典,提高分詞的準(zhǔn)確率;2) 使用實(shí)際語(yǔ)料訓(xùn)練Stanford Parser,提高它詞性標(biāo)注和句法分析的準(zhǔn)確率。
另外,限于目前本項(xiàng)目還沒(méi)有建立通用的問(wèn)題語(yǔ)料庫(kù),本文僅實(shí)現(xiàn)了租房問(wèn)題案例。下一步工作是建立其他問(wèn)題的語(yǔ)料庫(kù)并進(jìn)行相關(guān)測(cè)試,以利于開發(fā)較為通用的可拓策略生成系統(tǒng)。
參考文獻(xiàn):
[1]楊春燕, 蔡文. 可拓學(xué)[M]. 北京: 科學(xué)出版社, 2014: 1-250.
YANG Chunyan, CAI Wen. Extenics[M]. Beijing: Science Press, 2014: 1-250.
[2]方卓君, 李衛(wèi)華, 李承曉. 自助游可拓策略生成系統(tǒng)的研究與實(shí)現(xiàn)[J]. 廣東工業(yè)大學(xué)學(xué)報(bào), 2009, 26(2): 83-89.
FANG Zhuojun, LI Weihua, LI Chengxiao. Research and realization of extension strategy generating system for independent travel[J]. Journal of Guangdong University of Technology, 2009, 26(2): 83-89.
[3]李承曉, 李衛(wèi)華. 租房可拓策略生成系統(tǒng)[J]. 智能系統(tǒng)學(xué)報(bào), 2011, 6(3): 272-278.
LI Chengxiao, LI Weihua. Research on a tenement extension strategy generation system[J]. CAAI Transactions on Intelligent Systems, 2011, 6(3): 272-278.
[4]陳亞男, 李衛(wèi)華. 求職問(wèn)題可拓策略生成系統(tǒng)的研究與實(shí)現(xiàn)[J]. 廣東工業(yè)大學(xué)學(xué)報(bào), 2012, 29(1): 88-93.
CHEN Yanan, LI Weihua. Research on the extension strategy generating system for job-seeking problems[J]. Journal of Guangdong University of Technology, 2012, 29(1): 88-93.
[5]劉遷, 焦慧, 賈惠波. 信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2007, 24(7): 6-9.
LIU Qian, JIAO Hui, JIA Huibo. Research on approaches of information extraction system[J]. Application Research of Computers, 2007, 24(7): 6-9.
[6]于江德, 李學(xué)鈺, 樊孝忠. 信息抽取中領(lǐng)域本體的設(shè)計(jì)和實(shí)現(xiàn)[J]. 電子科技大學(xué)學(xué)報(bào), 2008, 37(5): 746-749.
YU Jiangde, LI Xueyu, FAN Xiaozhong. Design and implementation of domain ontology for information extraction[J]. Journal of University of Electronic Science and Technology of China, 2008, 37(5): 746-749.
[7]郭喜躍, 何婷婷. 信息抽取研究綜述[J]. 計(jì)算機(jī)科學(xué), 2015, 42(2): 14-17, 38.
GUO Xiyue, HE Tingting. Survey about research on information extraction[J]. Computer Science, 2015, 42(2): 14-17, 38.
[8]董振東, 董強(qiáng), 郝長(zhǎng)伶. 知網(wǎng)的理論發(fā)現(xiàn)[J]. 中文信息學(xué)報(bào), 2007, 21(4): 3-9.
DONG Zhendong, DONG Qiang, HAO Changling. Theoretical findings of HowNet[J]. Journal of Chinese Information Processing, 2007, 21(4): 3-9.
[9]CHINCHOR N. MUC-7 Named entity task definition[C]//Proceedings of 7th Message Understanding Conference. Virginia, USA, 1998.
[10]張向喆, 王明輝, 趙洪波, 等. 生物醫(yī)學(xué)文本中命名實(shí)體識(shí)別研究[J]. 上海交通大學(xué)學(xué)報(bào):農(nóng)業(yè)科學(xué)版, 2010, 28(2): 132-137.
ZHANG Xiangzhe, WANG Minghui, ZHAO Hongbo, et al. Research on named entity recognition from biomedical liter
ature[J]. Journal of Shanghai Jiao Tong University: Agricultural Science, 2010, 28(2): 132-137.
[11]薛征山, 郭劍毅, 余正濤, 等. 基于HMM中文旅游景點(diǎn)的識(shí)別[J]. 昆明理工大學(xué)學(xué)報(bào): 理工版, 2009, 34(6): 44-48.
XUE Zhengshan, GUO Jianyi, YU Zhenftao, et al. Recognition of HMM-based Chinese tourist attractions[J]. Journal of Kunming University of Science and Technology: Science and Technology, 2009, 34(6): 44-48.
[12]孫鎮(zhèn), 王惠臨. 命名實(shí)體識(shí)別研究進(jìn)展綜述[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2010, 26(6): 42-47.
SUN Zhen, WANG Huilin. Overview on the advance of the research on named entity recognition[J]. New Technology of Library and Information Service, 2010, 26 (6): 42-47.
[13]LIN Yifeng, TSAI T H, CHOU Wenchi, et al. A maximum entropy approach to biomedical named entity recognition[C]//Proceedings of the 4th ACM SIGKDD Workshop on Data Mining in Bioinformatics. Seattle, Washington, USA, 2004.
[14]李素建, 劉群, 楊志峰. 基于最大熵模型的組塊分析[J]. 計(jì)算機(jī)學(xué)報(bào), 2003, 26(12): 1722-1727.
LI Sujian, LIU Qun, YANG Zhifeng. Chunk parsing with maximum entropy principle[J]. Chinese Journal of Computers, 2003, 26(12): 1722-1727.
[15]XUE Naiwen, XIA Fei, CHIOU Fudong, et al. The Penn Chinese Treebank: phrase structure annotation of a large corpus[J]. Natural Language Engineering, 11(2): 207-238.
[16]邱泉清, 苗奪謙, 張志飛. 中文微博命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)科學(xué), 2013, 40(6): 196-198.
QIU Quanqing, MIAO Duoqian, ZHANG Zhifei. Named entity recognition on Chinese microblog[J]. Computer Science, 2013, 40(6): 196-198.

王定橋,男,1988年生,碩士研究生,主要研究方向?yàn)橹悄苘浖?/p>

李衛(wèi)華,女,1957 年生,教授,碩士生導(dǎo)師,主要研究方向?yàn)槊嫦駻gent計(jì)算、網(wǎng)絡(luò)信息系統(tǒng)、智能軟件,發(fā)表學(xué)術(shù)論文40 余篇。
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.tp.20151111.1633.004.html
英文引用格式:WANG Dingqiao, LI Weihua, YANG Chunyan. Research on building an extension model from user requirements[J]. CAAI Transactions on Intelligent Systems, 2015, 10(6): 865-871.
Research on building an extension model from user requirements
WANG Dingqiao1, LI Weihua1, YANG Chunyan2
(1.School of Computer, Guangdong University of Technology, Guangzhou 510006, China; 2. Research Institute of Extenics and Innovation Methods, Guangdong University of Technology, Guangzhou 510006, China)
Abstract:Building an effective extension model to solve a problem is a key step in generating an extension strategy. Due to the complexity of natural language processing, the current extension strategy generation system is insufficiently clear with respect to user requirements, so it is hard to automatically build an extension model. In this paper, we propose a method for parsing the user requirement sentence in order to then automatically build the extension model. This method contains four core steps. First, chunk parsing is performed on the sentence containing the user requirements to obtain the phrase sequence. Secondly, the phrase sequence is classified with a classifier. Thirdly, based on the matching rule, information is extracted from the classified phrase to obtain the information required for computer processing. Next, database technology is used to build the extension model. Using a tenement building as an example, we implemented and tested our proposed method. Based on our experimental results, we proved that the proposed method is effective for understanding user requirements in order to build an extension model.
Keywords:extenics; extension model; extension strategy generation; information extraction; classification
作者簡(jiǎn)介:
通信作者:王定橋. E-mail: wangdingqiao2012@qq.com.
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目 (61273306).
收稿日期:2015-07-23. 網(wǎng)絡(luò)出版日期:2015-11-11.
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1673-4785(2015)06-0865-07
DOI:10.11992/tis.201507038