摘要:針對計算機協(xié)同編輯系統(tǒng)的實際應(yīng)用,如應(yīng)用于協(xié)同寫作,提出了其涉及的兩種語義的一致性問題——簡單語義一致性和復(fù)雜語義一致性#65377;簡單語義一致性是指參與協(xié)同編輯的用戶要對所編輯文章中的概念達成一致的理解,提出利用本體這一知識表示工具來解決;復(fù)雜語義一致性是指保持所編輯文章的整體語義合乎邏輯,并與主題保持一致,提出利用本體結(jié)合自然語言理解技術(shù)來解決#65377;
關(guān)鍵詞:計算機支持的協(xié)同編輯; 語義一致性; 本體; 自然語言理解
中圖分類號:TP39309文獻標(biāo)志碼:A
文章編號:10013695(2007)04011403
0引言
計算機支持的協(xié)同編輯系統(tǒng)應(yīng)用于協(xié)同寫作時,由于各個協(xié)作者在知識背景#65380;理解能力等方面的差異,往往會對同一個概念的語義有不同的理解,從而影響了協(xié)同編輯過程的順利進行#65377;另外,由于協(xié)同編輯的文檔是由多個用戶共同完成的,多個用戶在理解上的差異容易導(dǎo)致文章整體語義與主題的偏離,語義一致性在整個協(xié)同編輯過程中是一個非常重要的問題#65377;
在王學(xué)義等人提出的協(xié)同編輯一致性模型中[1,2],將協(xié)同編輯中的一致性問題分為三層,即操作一致性#65380;內(nèi)容一致性和語義一致性#65377;其中語義一致性是指遵守預(yù)先定義的和在協(xié)同編輯過程中定義的規(guī)則#65377;本文不僅利用本體定義的規(guī)則和約束,還通過本體的語義表達能力,提供共享的知識背景,使用戶在共同的語義基礎(chǔ)之上進行協(xié)同編輯,從而保證協(xié)同編輯過程的順利進行#65377;
本文將協(xié)同編輯過程中的語義一致性分為簡單語義一致性和復(fù)雜語義一致性#65377;其中,簡單語義一致性是指用戶對所編輯文章中的概念達成一致的理解#65377;由于本體不僅能以明確#65380;一致的方式表達概念的內(nèi)涵,而且還能表達概念與概念之間的關(guān)系,可以利用本體的這個特性來解決簡單語義一致性問題#65377;而復(fù)雜語義一致性關(guān)注的是文章整體語義是否合乎邏輯,是否與主題保持一致#65377;這是自然語言理解中一個較難解決的問題,其涉及上下文語境#65377;本文提出利用領(lǐng)域本體和自然語言理解技術(shù)來解決#65377;
1簡單語義一致性
一般情況下,用戶在進行協(xié)同編輯時,可以通過音/視頻或文字交流來達成共識#65377;但有可能出現(xiàn)這種情況,即所有參與者都不清楚某個術(shù)語的確切語義,那么就必須根據(jù)各自的理解來進行判斷#65377;由于不同的用戶具有不同的理解能力,這就會出現(xiàn)各種不同的判斷#65377;例如下面這段文字:
已經(jīng)走向世界#65380;走向成熟的中國體育正在回歸體育的本體意義#65377;……我們不再把競技場上的比賽視為“政治理念”和“階級”的較量#65377;今天的我們絕不會把賽場上的失敗看做不可容忍的“國恥”#65377;
其中,“本體”一詞在日常用語中有基本#65380;基礎(chǔ)#65380;根本#65380;根據(jù)#65380;本質(zhì)#65380;真實的#65380;本來的等多種含義;在人工智能領(lǐng)域是指與任務(wù)獨立的知識庫;在計算機領(lǐng)域是指共享概念模型的形式化規(guī)范說明#65377;可能有人認為“本體”指的是根本,有人認為指的是真實的#65377;在協(xié)同編輯中,這些在概念上細微的分歧可能導(dǎo)致上下文的不一致#65377;
為使所有用戶對同一個術(shù)語的概念達成一致的理解,就必須采用某種有效的輔助手段為用戶提供幫助#65377;雖然語音和文字的交流可以解決部分問題,但不能客觀#65380;明確地解決各種分歧#65377;即使采用電子辭典,也只是列出所有的解釋,還需要用戶自己判斷哪個解釋才是恰當(dāng)?shù)?65377;由于本體是“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義”[3],它不僅能以明確#65380;一致的方式表達概念的內(nèi)涵,而且還能表達概念與概念之間的關(guān)系[4]#65377;本文采用本體來提供共享的語義基礎(chǔ),以幫助用戶達成一致的理解,從而實現(xiàn)簡單語義一致性#65377;
本體的表達基本上可以分為邏輯本體表達和非邏輯本體表達[4]#65377;邏輯本體表達復(fù)雜,但語義清晰,具有自動推理能力,如一階謂詞邏輯和描述邏輯;非邏輯本體表達直觀方便,但推理必須由用戶自己實現(xiàn),如框架本體#65380;語義網(wǎng)絡(luò)等#65377;其中語義網(wǎng)絡(luò)不僅可以表示事物的屬性#65380;狀態(tài)#65380;行為等,而且更適合于表達事物之間的關(guān)系和聯(lián)系[5]#65377;因此,本文提出在協(xié)同編輯系統(tǒng)中采用語義網(wǎng)絡(luò)來表示知識,幫助用戶理解概念的語義#65377;
語義網(wǎng)絡(luò)是由節(jié)點和邊(也稱有向弧)組成的一種有向圖#65377;其中節(jié)點表示事物#65380;對象#65380;概念#65380;行為#65380;性質(zhì)#65380;狀態(tài)等;有向邊表示節(jié)點之間的某種聯(lián)系或關(guān)系#65377;邊上的標(biāo)記就是邊的語義#65377;由于語義網(wǎng)絡(luò)是一種二元關(guān)系圖,可以用Prolog來實現(xiàn)[5]#65377;如圖1中虛線方框中的語義網(wǎng)絡(luò)用Prolog表示如下:
圖1顯示的是在協(xié)同編輯系統(tǒng)GroupEditor中用語義網(wǎng)絡(luò)來提供概念解釋[6]#65377;圖1中虛線方框內(nèi)是一個語義網(wǎng)絡(luò)片段,表達了CPU這個事物(的內(nèi)涵),同時也表示了CPU與“Motherboard”“BIOS”這幾個事物之間的關(guān)系和聯(lián)系#65377;圖中橢圓表示概念,橢圓內(nèi)是概念名;箭頭表示關(guān)系,箭頭的標(biāo)注表示關(guān)系名;實線方框表示解釋,方框內(nèi)是解釋的內(nèi)容#65377;
2復(fù)雜語義一致性
由于復(fù)雜語義一致性涉及到的是文章的整體語義[6],文章是由語句構(gòu)成的,語句是理解的最小單位#65377;而語句只有與所在的上下文聯(lián)系在一起才構(gòu)成語義,這正是自然語言理解所遇到的困難之一[5]#65377;要保證復(fù)雜語義的一致性是項艱難的工作#65377;
隨著本體研究的進一步深入,人工智能領(lǐng)域的研究者越來越認識到本體在自然語言理解中的重要性和必要性#65377;國內(nèi)外的一些研究者也開始在自然語言處理領(lǐng)域應(yīng)用本體來表達世界知識,并在本體的基礎(chǔ)上進行語義表達和處理[7]#65377;本文試圖利用本體來解決協(xié)同編輯中的復(fù)雜語義一致性#65377;
語言的自動理解是從句子表層的詞語符號串識別句子的句法結(jié)構(gòu),判斷成分之間的語義關(guān)系,最終弄清句子表達的意思#65377;計算機要能理解#65380;處理和分析自然語言,首先要對自然語言進行標(biāo)注#65377;最基礎(chǔ)的標(biāo)注工作是詞語切分,進而有詞類標(biāo)注#65380;句法信息標(biāo)注和語義信息標(biāo)注[8]#65377;
分詞和詞類信息是語料的基本標(biāo)注內(nèi)容#65377;除此之外,語料標(biāo)注的內(nèi)容還有表示語句結(jié)構(gòu)關(guān)系的短語(也叫語塊)標(biāo)記和句法標(biāo)記,以及表示詞語義類和詞語之間語義關(guān)系的語義標(biāo)記#65377;
下面是一段語料標(biāo)注的示例#65377;除了詞語切分和詞性標(biāo)注,還有專有名詞(人名#65380;地名#65380;團體機構(gòu)名稱等)標(biāo)注#65380;語素子類標(biāo)注#65380;動詞#65380;形容詞的特殊用法標(biāo)注和短語型標(biāo)注[9]#65377;
例如:我國的國有企業(yè)改革見成效#65377;位于河南的中國一拖集團有限責(zé)任公司面向市場,積極調(diào)整產(chǎn)品結(jié)構(gòu),加快技術(shù)改造和新產(chǎn)品研制步伐#65377;圖為東方紅牌履帶拖拉機生產(chǎn)線#65377;(趙鵬攝)
標(biāo)注后的形式是:
我國/n 的/u 國有/vn 企業(yè)/n 改革/v 見/v 成效/n #65377;/w 位于/v 河南/ns 的/u [中國/ns 一拖/j 集團/n 有限/a 責(zé)任/n 公司/n]nt 面向/v 市場/n ,/w 積極/ad 調(diào)整/v 產(chǎn)品/n 結(jié)構(gòu)/n ,/w 加快/v 技術(shù)/n 改造/vn 和/c 新/a 產(chǎn)品/n 研制/vn 步伐/n #65377;/w 圖/n 為/v 東方紅牌/nz 履帶/n 拖拉機/n 生產(chǎn)線/n #65377;/w (/w 趙/nr 鵬/nr 攝/Vg )/w
在每一個切分出來的詞和標(biāo)點符號后面是該詞語的標(biāo)記,譬如詞性標(biāo)記(n#65380;v#65380;a#65380;u#65380;m#65380;w等)#65380;專有名詞標(biāo)記(nr#65380;ns#65380;nz等)#65380;語素子類標(biāo)記(Vg等)#65380;動詞和形容詞特殊用法標(biāo)記(vn#65380;ad)#65377;所有的標(biāo)記都是以北京大學(xué)的《現(xiàn)代漢語語法信息詞典》為基礎(chǔ)詞庫,在一個加工規(guī)范的指導(dǎo)下標(biāo)注的#65377;
語義標(biāo)注就是計算機對出現(xiàn)在一定上下文中的詞語的語義進行判定,確定其正確的語義并加以標(biāo)注#65377;為了使添加的語義信息能夠明確化,容易進行推理,語義標(biāo)注符應(yīng)該用本體表示#65377;采用本體就是用適當(dāng)?shù)谋倔w語言顯式地將信息源中的概念表示出來[4]#65377;
由于標(biāo)注采用本體,應(yīng)事先采用本體編輯器生成本體或利用現(xiàn)有的本體庫#65377;下面是用本體構(gòu)建工具建立的一個關(guān)于計算機硬件知識的本體庫#65377;這是本體的RDF表示:
3系統(tǒng)的體系結(jié)構(gòu)
加入了本體的協(xié)同編輯系統(tǒng)架構(gòu)如圖2所示#65377;本體控制中心主要是在服務(wù)器端,服務(wù)器通過網(wǎng)絡(luò)可以裝載所需的領(lǐng)域本體,并將其存放在領(lǐng)域本體庫中#65377;如果用戶在參與協(xié)同寫作時,發(fā)現(xiàn)不能理解別人所用的某個術(shù)語的概念,那么他可以在該術(shù)語上做標(biāo)記,同時服務(wù)器上的術(shù)語也獲得標(biāo)記#65377;做上標(biāo)記的術(shù)語會被傳到推理機,通過推理機的內(nèi)建規(guī)則在領(lǐng)域本體庫中找到相應(yīng)的概念解釋及概念之間的關(guān)系,然后由本體轉(zhuǎn)換器轉(zhuǎn)換成語義網(wǎng)絡(luò),在注釋層顯示出來#65377;這樣就能解決協(xié)同編輯過程中的簡單語義一致性問題#65377;
對于復(fù)雜語義一致性,需要對共享的文檔進行語義標(biāo)注#65377;在協(xié)同寫作的過程中,服務(wù)器端的內(nèi)存中一直存放著文檔的動態(tài)版本,為確保文檔最終的版本與主題一致,需要時刻監(jiān)視該動態(tài)版本的語義#65377;筆者使用本體的語義推理能力來判斷文檔整體語義(圖2)#65377;首先對文檔添加標(biāo)注,這是由標(biāo)注器來完成的,標(biāo)注器能對原始文檔進行詞語切分#65380;詞類標(biāo)注#65380;句法信息標(biāo)注和語義信息標(biāo)注等#65377;其中難點是語義標(biāo)注#65377;
標(biāo)注后的文檔通過推理機進行推理#65377;推理結(jié)果輸入結(jié)果分析器,轉(zhuǎn)換成自然語言的分析結(jié)果,通過提示產(chǎn)生器產(chǎn)生提示集顯示給用戶,從而能使用戶知道自己所寫的文檔在語義上是否與主題領(lǐng)域保持一致#65377;
4總結(jié)
語義一致性問題是協(xié)同編輯系統(tǒng)可用性研究的重要方面,能否保證協(xié)同編輯過程中的語義一致性關(guān)系到協(xié)同編輯系統(tǒng)能否被廣泛應(yīng)用#65377;本文提出的簡單語義一致性和復(fù)雜語義一致性,就是針對協(xié)同編輯系統(tǒng)應(yīng)用于協(xié)同寫作而提出來的,對于其他協(xié)同編輯情況也有一定的參考意義#65377;
本文提出的用本體結(jié)合自然語言理解技術(shù)來解決語義一致性問題,能夠使協(xié)同編輯系統(tǒng)向更加智能化的方向發(fā)展,并且能提高協(xié)同編輯系統(tǒng)的友善性#65377;但是由于自然語言理解技術(shù)在理解多個語句的語義問題上還存在一定的困難,特別是理解多個語句在特定環(huán)境下的語義,對于協(xié)同編輯中的復(fù)雜語義一致性還有待于進一步的深入研究,期望能通過本體的進一步研究來幫助解決該問題#65377;
本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。