陳小紅 陳環環 方之家 阮 彤 王昊奮
1(盛大游戲 上海 201203)2(華東理工大學計算機科學與工程系 上海 200237)
基于領域本體的游戲攻略文本標注算法研究與實現
陳小紅1陳環環2方之家2阮 彤2王昊奮2
1(盛大游戲 上海 201203)2(華東理工大學計算機科學與工程系 上海 200237)
游戲門戶網站為提升玩家們的游戲體驗,建立了大量站點用以提供游戲資訊及相關攻略。然而這些站點間異構現象明顯,且缺乏統一的知識體系。提出基于領域本體的文本標注算法,通過融合站點間的數據,構建游戲領域本體。同時,針對游戲領域的應用,優化了新詞發現算法,并進一步對攻略文本進行語義標注。通過這些語義標簽,不僅能直觀地了解攻略中的內容,也能更好地為攻略文本的語義檢索服務。實驗證明,所提出的本體構建方法在游戲領域具有一定的推廣性,同時游戲領域詞匯發現算法與傳統的分詞工具相比也取得了更好的結果。
領域本體 游戲領域詞匯發現算法 語義標注
隨著游戲產業在我國迅速的發展,游戲的種類和數量也在不斷地增加。為了能夠讓玩家對游戲有一個更為全面的認識,各大游戲資訊網站都開發了自己的游戲攻略主頁。在這些站點中,不僅描述了各個游戲的基礎知識,還有大量玩家自己撰寫的游戲攻略。游戲玩家通過閱讀這些游戲攻略,可以快速入門,并且掌握大量與游戲相關的進階知識,可以有效地提升玩家的游戲體驗。
然而,對于目前大多數的主流游戲而言,游戲攻略大多分散在各大資訊網站之中。當玩家需要查閱攻略時,通常需要輾轉于多個資訊網站之間進行檢索。同時,只有部分資訊網站提供了攻略搜索功能,玩家需要耗費大量時間去尋找與自己的游戲內容相關的攻略。這些問題不同程度降低了這些資訊網站的用戶體驗。為了能夠解決這些問題,本文提出了一種基于領域本體的游戲攻略文本標注算法。使用本體建立起一套統一的描述方法,從而融合了各大資訊網站以及游戲內部的數據。基于該本體,可以有效地通過實體鏈接的思想,將攻略中的文本內容映射到本體中的相關概念,從而達到語義標注的目的。玩家可以通過這些語義標簽,更快更全面地了解到攻略中所包含的信息,以便更快地定位到與自己相關的游戲內容;同時語義標簽的生成,還可以為這些游戲站點構建更高效、更有實用價值的語義搜索系統,為玩家們提供更為精準的檢索服務。
本文的主要貢獻有以下幾點:
(1) 針對資訊網站間的數據異構問題,提出了使用本體進行建模的思想。通過對游戲數據庫、資訊網站導航頁面以及玩家論壇中的數據進行融合,從而針對游戲內容本身構建了一個統一的本體。
(2) 在原有的基于大規模語料的領域詞匯發現算法[1]的基礎上,本文針對游戲術語簡稱、游戲內容用語等游戲領域詞匯的用法及規則進行了優化,并生成了一系列可用于實體鏈接的錨文本。
(3) 基于實體鏈接[2]的思想,提出了對游戲攻略文本進行語義標注的算法。利用已構建好的游戲本體中的層次結構以及實例集合,對由錨文本所產生的候選歧義實體進行去歧義,選擇最為契合的實體作為鏈接實體,從而生成語義標簽。
文本中的術語大多以簡稱的形式存在,因此需要構建游戲領域知識庫存儲術語全稱,從而和文本建立一一映射關系。DBpedia、Freebase、YAGO都是通用知識庫,包含了豐富的數據,但是缺乏游戲領域知識。DBpedia[9]是從維基百科中自動抽取結構化信息,被廣泛用于語義萬維網和商業環境。Freebase[10]所有內容由用戶添加,所有條目都采用結構化數據的格式。YAGO[11]主要信息來源于維基百科,具有足夠高的準確度和覆蓋度。本文所建的知識庫和以上幾個知識庫相似,都是從互聯網資源及百科資源進行數據融合得到。故本文針對游戲領域,從三個不同數據源爬取了游戲領域相關知識,構建了游戲領域知識庫。
文本標注技術是信息抽取的一個應用,在過去的幾年中得到了廣泛的研究。Mihalcea等[3]提出了排序算法TextRank,主要思想是將文本看成一個詞的網絡,網絡中的鏈接表示詞與詞之間的語義關系,但是該方法不適用于稀疏文本。Park等[4]等提出了基于sigmoid貝葉斯模型的關鍵詞自動抽取方法,解決了數據稀疏的問題,然而該方法要求數據值必須遵循sigmoid分布才能在貝葉斯結構中表現出來,具有局限性。本文面向的是游戲領域,游戲攻略內容表述比較偏口語化,直接提取關鍵詞或主題詞比較困難,且攻略標題包含大量游戲術語,因此提出了通過提取文本數據中游戲術語作為文本標簽的思想。
術語抽取是本文攻略文本標注的關鍵技術,現有的領域術語研究主要分為:基于規則的方法、基于統計的方法和規則與統計相結合的方法。基于規則的方法主要利用術語詞典和規則模板來進行術語抽取。Buitelaar等[5]提出利用不同詞性的組合規則得到名詞性詞組,然后利用過濾算法得到領域術語。基于規則的方法比較簡單,但是要求規則編寫人員具有豐富的語言知識。基于統計的方法是利用術語內部各組成成分之間較高的關聯程度及術語的領域特征信息來抽取術語。Tomokiyo等[6]提出利用語言模型之間的相對熵來計算詞之間的耦合度和術語的領域相關性。基于統計的方法[7]不局限于一種領域,通用性較強,但是算法性能依賴于語料庫規模的大小和候選術語的詞頻,將一些低頻率但合法的術語忽略掉,不適用于稀疏的文本。Sui等[8]提出使用統計方法計算術語的置信度,然后使用規則過濾領域術語候選,這是將統計和規則相結合的方法,但是術語抽取的準確率還是沒有達到理想水平。本文使用游戲領域詞匯發現算法對術語進行抽取,它不依賴任何詞庫,針對稀疏的文本也能達到很好的效果。
2.1 問題定義
游戲的資訊網站包含了豐富的游戲內容,為玩家了解游戲提供了方便的平臺。資訊網站數據庫包含了大量的游戲術語,是構建游戲領域本體的主要來源,具有較高的可靠性及通用性。資訊網站中導航頁幫助玩家快速找到想要的游戲內容,具有一定的分類結構,作為領域本體構建的補充。游戲論壇中玩家總結了大量的游戲術語,這些術語經常出現在攻略數據中,進一步豐富了領域本體。本文是從以上三個數據源構建游戲領域本體存儲到知識庫中,具體構建方法在第3節中會詳細介紹。本文所用語料來源于資訊網站中游戲攻略文本數據,每一條數據包含“標題”和“內容”兩部分,大多標題中都會出現游戲術語或其簡稱。本文的輸入為大量的游戲攻略文本數據,輸出為所有數據的標簽。本文的主要任務可以描述為:對每條數據,抽取出標題中所包含的游戲術語或其簡稱的集合M(m1,m2,…,mn),在知識庫E{e1,e2,…,em}中找到集合M中每個元素所代表的游戲術語或其簡稱所對應的游戲術語全稱,即集合A{a1,a2,…,an|a1,a2,…,an∈E}。
以圖1給出的攻略數據為例,標題中出現了“黑魔”,將“黑魔”和知識庫進行鏈接,“黑魔”在知識庫中所對應的全稱為“黑魔法師”,“黑魔法師”即是該數據的標簽。在構建知識庫時,將爬取的資訊網站和游戲論壇數據轉化成標準的Ontology[12]語言格式,在知識庫中存儲成如圖1所示的結構(只給出了部分結構),共包含兩層:模式(schema)層和實例(instance)層。模式層表達了類與類之間的關系,即父類與子類的關系。如“攻略”是頂層類,“攻略”下包含“職業”和“副本”等子類,職業類下又包含“基礎職業”和“進階職業”等子類。知識庫結構的最底層是實例層,如進階職業類下包含“黑魔法師”等實例。

圖1 基于領域本體的文本標注
2.2 整體流程
基于領域本體的游戲攻略文本標注主要包括三個階段(如圖2所示):構建知識庫、抽取領域詞匯、實體鏈接。本文知識庫的來源多樣化,從三個不同的數據源爬取游戲領域知識構建游戲領域本體存儲在知識庫中,知識庫中存在的游戲術語全稱稱為“實體”。然后從多個資訊網站中抽取游戲攻略文本數據作為語料庫,每條攻略數據包括“標題”和“內容”兩部分內容。使用游戲領域詞匯發現算法從語料中抽取出游戲領域詞匯稱之為“指代項”(Mention)即可進行實體鏈接的錨文本,其包含游戲術語全稱或簡稱和其他游戲詞匯。對每一個標題判斷是否包含“Mention”,若包含“Mention”,則和知識庫中的實體使用匹配算法進行鏈接,鏈接到的游戲術語的全稱即文本標簽從而對攻略數據進行語義標注。

圖2 整體流程
本節將分別從知識庫結構的模式層與實例層,詳細闡述如何融合多個資訊網站的游戲知識,并同時對融合過程中所產生的沖突予以解決。首先,在構造知識庫模式層的過程中,本文利用兩部分的數據源,分別是資訊網站提供的導航欄,以及網站以網頁方式提供的游戲數據庫。通過解析網頁的HTML結構,可以得到該導航欄或知識庫定義的分類目錄結構。例如:“裝備”在資訊網站數據庫分類目錄下有“頭部防具”、“身體防具”、“手部防具”、“腰部防具”等。故在知識庫的結構中,“頭部防具”、“身體防具”等均可作為“裝備”的子類。
本文將位于各資訊網站分類目錄中葉節點的數據作為知識庫結構的實例層。例如,上述例子中,“頭部防具”類下還包含有葉節點“風化兜帽”、“風化眼睛”等,均存在唯一的URI可以鏈接到具體介紹“風化兜帽”、“風化眼睛”等的頁面。因此,“風化兜帽、風化眼睛”將作為“頭部防具”的實例存儲于知識庫中。
此外,游戲論壇中會總結游戲攻略中玩家自定義的游戲術語和資訊網站游戲術語形成的同義詞表。本文對游戲論壇進行抽取,并將同義詞表存儲于知識庫中。例如,游戲攻略中玩家通常會用英文的簡寫來表征游戲術語,使用“DPS”來表示“輸出職業”,因此,“DPS”作為“輸出職業”的同義詞存儲于知識庫中。
在融合資訊網站構建知識庫的過程中,由于網站間的異構問題,會產生兩種沖突。其一是在融合模式層時,同一個類在不同網站所屬父類不同。其二是在融合實例時,同一個實例在不同網站的類別不同。
融合網站間模式出現的沖突,可定義為對于類M,在不同的網站中分別歸屬于兩個不同的父類E和C。本文將通過判斷類E和類C之間的關系來解決沖突。計算公式為:
(1)
其中,nei表示在i網站E類中實例數目,ncj表示j網站C類的實例數目。IEi,Cj代表這兩個類的實例重疊比。若該值較高,則本文將類E和類C視為相等關系;反之,則可認為類E和類C之間是父類和子類關系。對于后者,將進一步復用式(1)計算類M與類E的實例重合比IM,E以及類M與類C的實例重合比IM,C。若IM,E>IM,C,則認為E是C的父類,否則C是E的父類。例如,在“多玩(http://ff14.duowan.com/index.html)”網站中“劍”是“單手武器”的一個子類,但是在“178(http://ff14.178.com/)”網站中“劍”是“武器”的一個子類,因此,融合時會產生沖突。通過式(1)計算可知,“武器”是“單手武器”父類,最后形成的關系為“單手武器”是“武器”的子類,“劍”是“單手武器”的子類。
在處理實例融合產生沖突時,我們會綜合考慮每個實例所在類的出現頻次以及該類的豐富程度,進而形成一個綜合指標來解決沖突。每個實例所在類的出現頻次可通過式(2)進行歸一化計算:
(2)

(3)

max{Fi×Ri}
(4)
對于上述例子,可根據式(4),計算得到“采礦工”作為“采集職業”類的綜合指標值較大,因此,最終“采礦工”作為“采集職業”的實例存儲于知識庫中。
4.1 游戲領域詞匯發現
對于中文來說[7],文本中沒有空格標志詞語邊界,沒有首字母大寫等明顯特征來表征一個術語。術語識別過程通常要和中文分詞過程相結合,然而漢語詞匯具有開放性,無論建立多大的詞典,都不可能包含所有的詞匯,而且隨著時間的推移還會不斷出現大量新詞。使用傳統的分詞方法處理起來比較困難且難以達到預期的效果,在此基礎之上,我們提出了游戲領域詞匯發現算法。
游戲領域詞匯發現算法是在新詞發現算法基礎之上所做的改進。新詞發現算法[1]是顧森提出來的一種基于大規模語料挖掘新詞的方法。他所使用的語料是人人網2011年12月前半個月部分用戶狀態,而本文所使用的語料是游戲攻略數據。由于語料庫有所不同,因此在此基礎上進行了改進得到游戲領域詞匯發現算法。游戲領域詞匯發現算法有兩個成詞標準分別是“內部凝固程度”和“自由運用程度”。凝合度的計算公式為:
(5)
(6)
其中N為出現次數,P為出現的概率,length為所含字數。在式(5)中“ABC”表示要抽取的詞由A、B、C三部分組成,實際操作時,候選詞可能不止這三部分,其計算公式相同。文本片段的自由運用程度也是判斷其是否成詞的標準之一,在此,用“信息熵”衡量。具體計算公式如下所示:
設Z的左鄰字集合為{X1,X2,…,Xn},則Z的左鄰字信息熵為:
(7)
其中n+m=N(Z),對上式化簡后如下所示:
(8)

同理,設Z的右鄰字集合為{Y1,Y2,…,Yn},化簡后則Z的右鄰字信息熵:
(9)

信息熵為min{H(X),H(Y)}。
本文提出的游戲領域詞匯發現算法在原有新詞發現算法基礎之上做出以下改進:
(1) 鑒于游戲中很多副本的名稱往往很長,比如“山中戰線澤梅爾要塞”、“劍斗領域日影地修煉所”。若所抽取候選詞的長度太小,容易將較長的游戲術語分割成更小的詞語組成;若所抽取的候選詞的長度太大,所抽取的游戲術語中易混雜無關詞組。經過反復實驗,候選詞語的長度設置為10效果最佳。
(2) 在計算信息熵時,對于左鄰字是標點符號或沒有左鄰字(詞語本身是開頭),以及右鄰字是標點符號或沒有右鄰字(詞語本身是結尾)的情況,視其左鄰字或右鄰字是一個全新的從未出現過的字,并在實際操作時分別統計該種左鄰字與右鄰字的出現次數,以做等效計算(見上述信息熵的計算式)。開頭、結尾和標點符號的存在,起到了分詞的作用,對于抽取領域詞匯大有裨益。之所以不據此將詞語的左鄰字或右鄰字信息熵直接設為無窮大,而僅僅是把每一個開頭、結尾或標點符號視作一個全新的從未出現過的字,是為了提高新詞發現的容錯程度,以避免因為攻略中誤出現標點符號或誤作開頭、結尾,而執行了錯誤的分詞。使用此方法之后,如果攻略中偶爾出現一個筆誤,則其對信息熵的計算不會造成太大的影響;如果是正常情況下多次出現標點符號或多次作為開頭、結尾,由此便能通過提高信息熵而起到分詞的作用。
(3) 針對英文單詞與純數字的情況,我們在抽取候選詞時,先將文本中所有出現的英文單詞抽取加入到候選詞集合中,之后再做正常抽取時,如果碰到詞語是全英文或全數字,則不放入候選集,從而大大提高了抽取的準確率與效率。因為在中文漢字占主體的攻略文本中,偶爾出現幾個連續的英文字母,其必然是一個完整的英文單詞,英漢字符的不同已經能夠很好地起到分詞的作用。而如果將英文單詞也放到正常的流程中抽取,則在抽取的過程中會將英文單詞的子串也一并加入候選詞集合,從而影響分詞效率。至于不將全數字字符串加入候選集,是因為目的是抽取游戲術語,而純數字一般不作為游戲術語出現,將其加入會增加干擾、影響抽取質量。
游戲領域詞匯發現算法偽代碼如下:
算法1 游戲領域詞匯發現算法
Input:setStrategies, Set of game strategy
Output:setPhrases, Set of phrase that meet conditions
1: for each strategysetStrategies do
2: PhraseMap lengthd(phrase; num)
3: if leftPhrase exists then
4: LeftPhraseMap leftPhrase
5: if leftPhrase is punctuation or beginning then
6: PBMap (LeftPhrase, 1)
7: rightPhrase same as leftPhrase
8: if !leftPhrase || ! rightPhrase then As a new word
9: PhraseSet 1 10: setPhrases(Phrase, C>5&&H>0.6&&Num4) 11: end for 最后凝合度、信息熵、出現的次數的閾值的選擇是通過多次實驗得到的最佳值。使用此算法后,得到比如“巴哈姆特大迷宮”、“極水神”、“煉金術師”等可用于實體鏈接的錨文本即Mention列表。 4.2 語義標注 游戲術語在文本中經常以簡稱的形式存在,例如“白魔法師”在文本中常常記為“白魔”,由于知識庫中存儲游戲術語的全稱,因此需要進行鏈接。從而得到知識庫中所對應的游戲術語全稱即文本標簽對攻略數據進行語義標注。文本中的簡稱無法直接和知識庫中實體進行關聯,因此需采取匹配算法。通過觀察數據知每個標題包含的Mention個數可能不止一個,這種對應的標簽即為多標簽,如表1所示。Mention可能和知識庫中的實體完全匹配,或者Mention是知識庫中實體的簡稱或縮寫,或者Mention是知識庫中實體相鄰詞組成的子串,或者Mention是知識庫中實體不相鄰字組成的子串(此時通過計算相似度進行匹配),或者知識庫中實體是Mention的相鄰字組成的子串等,如表2所示。基于以上觀察結果,提出了進行鏈接的匹配算法,具體算法及思想在下面的內容中會詳細介紹。 表1 標題中的標簽類型 表2 Mention和實體之間的關系 通過以上對數據的觀察和分析,得出以下匹配算法: 算法2 匹配算法 Input: 1)setMentions:Set of mentions in corpus; 2)setEntities:Set of entities in knoeledge base; 3)setStrategies:Set of strtegies,each of the strategy contains a title and the text; Output:{(strategy,setWords)} pair list; Initiation:The English letters in setMentions and setEntities and setStrategies are unified in Uppercase, remove the blank space in setStrategies; 1: if titile.contains(mention) then 2: if mention.equal(entity) then 3: setWordsentity 4: else simlarRate(mention, entity) 5: setWordslargestRate(entity) 6: or else setWords is empty then 7:entity=entity.replace(mention,“”),setWordslength(entity) 8: title=title.replace(mention, “”) 9: perform steps 1-6 10:mapStrategySetEntities(strategy,setWords) 5.1 實驗數據與設置 本文所用的語料庫是“最終幻想14”這款游戲不同資訊網站中每天都不斷更新的游戲攻略文本數據,每條數據包括標題和內容兩部分,爬取這些攻略文本數據并進行去重后,共計1788條數據。 雖然本文提出的方法是無監督的,但是還是需要人工對數據進行標注來評估標注質量。本文使用準確率Precision和召回率Recall作為評價標準,若A表示正確標注的數據條數,B表示錯誤標注的數據條數,C表示沒有進行標注的數據條數,則準確率和召回率的定義分別如下: 5.2 結果分析 在抽取文本游戲領域術語或其簡稱時,分別使用了游戲領域詞匯發現算法、Ansj、N-grams(n一般取2或3,若n過大,會導致計算復雜度增高,且結果數據過于稀疏),最后分別統計每一種方法所得標注數據的準確率和召回率,如圖3所示。錯誤標注的情況分別如下所示: 圖3 不同詞匯抽取方法的比較 (1) 少標簽。如果一個標題中出現的游戲術語或其簡稱不止一個,則這條文本數據屬于多標簽,在標注時可能會發生遺漏標簽的情況。比如標題“FF14龍騎和武僧輸出大對比 誰更難操作?”,標題中出現的游戲術語或其簡稱為“龍騎”、“武僧”,該數據的正確標簽為“龍騎士”、“武僧”。若最后給出的標簽少了其中任何一個,都認為標注錯誤。 (2) 多標簽。比如標題“暴擊流黑暗魔法師在2.4版本中裝備怎么進階”,其正確的標簽為:“2.4版本、黑魔法師、裝備”。若最后給出的標簽為“2.4版本、黑魔法師、裝備、白魔法師”,相對于正確的標簽多出了“白魔法師”標簽,則認為該標注是錯誤的。 (3) 標簽錯誤。比如標題“最終幻想14數據分析告訴你騎士起手仇恨究竟有多高”, 正確的標簽為“騎士”。若最后給出的標簽為“龍騎士”則認為該標注是錯誤的。 對于沒有標注的數據,據觀察文本內容多偏向于玩家心情類的攻略,與游戲本身并不相關。比如標題為“FF14讓你更快適應游戲之你所不知道的小竅門集合”,標題中沒有出現與游戲術語相關的詞匯,因而本文所提出的方法無法進行標注。 從圖3中可以看出,使用游戲領域發現算法所得標注的準確率和召回率明顯高于Ansj、2-gram、3-gram。Ansj是基于詞典的分詞方法,針對新聞、文章等普通文本的分詞,能夠得到比較高的準確率,而本文語料數據包含的游戲術語多,使用Ansj大多將游戲術語分成更細粒度的詞,比如“白魔法師”會分成“白魔”和“法師”兩個詞,因此標注效果難以滿足要求。N-grams需要相當規模的語料來確定模型參數,N不宜取過大,N值一般為2或3。有些游戲術語由3個或4個字組成,使用此語言模型會將這些詞分開,因此和知識庫進行鏈接時匹配率不高,會生成與文本數據無關的標簽。 本文主要研究了游戲領域中攻略文本的標注算法,在對同一個游戲的不同資訊網站進行信息融合的基礎之上,建立了統一的本體;提出了一種全新的領域詞匯抽取算法即游戲領域詞匯發現算法,并據此從語料庫中抽取出文本標題所包含的游戲術語或其簡稱,再和知識庫進行鏈接,最終得到文本數據的標簽。在抽取游戲領域詞匯時,將游戲領域詞匯發現算法與Ansj和N-grams這兩個已有的自然語言處理工具進行對比,結果顯示該方法在領域詞匯抽取方面具有優越性。本文的優點是將文本標注問題看成是實體鏈接問題,并且解決了在領域詞匯抽取工作上一直存在的抽取質量問題。數據集上的結果表明,本文提出的方法達到較高的準確率和召回率。接下來計劃將攻略標簽用于游戲攻略上的語義搜索和將游戲領域詞匯抽取方法應用于其他領域進行領域詞匯抽取,如計算機領域、醫療領域等。 [1] 顧森.基于大規模語料的新詞發現算法[J].程序員,2012(7):54-57. [2]MeijE,BalogK,OdijkD.Entitylinkingandretrieval[C]//Proceedingsofthe36thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.ACM,2013:1127. [3]MihalceaR,TarauP.TextRank:bringingorderintotexts[C]//Proceedingsofthe2004ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,2004:401-411. [4]ParkYC,HanYS,ChoiKS.AutomaticthesaurusconstructionusingBayesiannetworks[C]//ProceedingsoftheFourthInternationalConferenceonInformationandKnowledgeManagement.ACM,1995:212-217. [5]BuitelaarP,OlejnikD,SintekM.Aprotégéplug-inforontologyextractionfromtextbasedonlinguisticanalysis[C]//FirstEuropeanSemanticWebSymposium.Springer,2004:31-44. [6]TomokiyoT,HurstM.Alanguagemodelapproachtokeyphraseextraction[C]//ProceedingsoftheACL2003WorkshoponMultiwordExpressions:Analysis,AcquisitionandTreatment.AssociationforComputationalLinguistics,2003:33-40. [7] 季培培,鄢小燕,岑詠華.面向領域中文文本信息處理的術語識別與抽取研究綜述[J].圖書情報工作,2010,54(16):124-129. [8]SuiZ,ChenY,HuJ,etal.Theresearchontheautomatictermextractioninthedomainofinformationscienceandtechnology[C]//Proceedingsofthe5thEastAsiaForumoftheTerminology,Haikou,Hainan,China,2002:444-451. [9]LehmannJ,IseleR,JakobM,etal.DBpedia-alarge-scale,multilingualknowledgebaseextractedfromWikipedia[J].SemanticWeb,2015,6(2):167-195. [10]BollackerK,EvansC,ParitoshP,etal.Freebase:acollaborativelycreatedgraphdatabaseforstructuringhumanknowledge[C]//Proceedingsofthe2008ACMSIGMODInternationalConferenceonManagementofData.ACM,2008:1247-1250. [11]SuchanekFM,KasneciG,WeikumG.Yago:acoreofsemanticknowledge[C]//Proceedingsofthe16thInternationalConferenceonWorldWideWeb.ACM,2007:697-706. [12]ArefMM,ZhouZ.Theontologyweblanguage(OWL)foramulti-agentunderstatingsystem[C]//Proceedingsofthe2005InternationalConferenceonIntegrationofKnowledgeIntensiveMulti-AgentSystems.IEEEComputerSociety,2005:586-591. RESEARCH AND IMPLEMENTATION OF ANNOTATION ALGORITHM FOR WALKTHROUGH TEXT BASED ON DOMAIN ONTOLOGY Chen Xiaohong1Chen Huanhuan2Fang Zhijia2Ruan Tong2Wang Haofen2 1(ShengdaGameLimited,Shanghai201203,China)2(CollegeofInformationScienceandEngineering,EastChinaUniversityofScienceandTechnology,Shanghai200237,China) Nowadays, game web portals set up plenty of websites, providing game information and related walkthroughs, for players to enhance their gaming experience. However, these sites has obvious isomerism and lacks unified hierarchy. Thus, an annotation algorithm based on domain ontology is proposed. It is started with a data fusion step from a set of web portals to build a game domain ontology. Meanwhile, the neologism discovering algorithm is optimized according to its application in game domain, and the semantic annotation for walkthrough text is further developed. Thus these semantic tags not only embody the intent of each guides, but also serve the semantic search for walkthrough text. Experiments have proved that the proposed ontology construction method is scalable. Moreover, the optimized domain vocabulary discovering algorithm has a better result compared with the traditional segmentation tools. Domain ontology Game domain vocabulary discovering algorithm Semantic annotation 2015-12-11。國家自然科學基金項目(61402173);上海市經信委軟件和集成電路產業專項資金(140304)。陳小紅,高工,主研領域:大數據和虛擬世界的用戶行為。陳環環,碩士生。方之家,碩士生。阮彤,副教授。王昊奮,博士。 TP391 A 10.3969/j.issn.1000-386x.2017.02.014

5 實驗結果和分析

6 結 語