[摘 要]本文以知網知識庫為基礎,運用語義分析方法,通過語義的相似度計算實現在電子文檔中抽取到有用的關鍵句和關鍵信息。
[關鍵詞]電子商務 語義 關鍵信息 抽取
一、前言
近年,我國電子商務投資規模和發展處于快速增長和爆發時期,電子商務已經成為企業和個人商務活動中不可或缺的組成部分。面對海量的商品信息,消費者如何從這些電子文檔中快速有效的找到有用的信息,成為信息檢索領域的重要研究方向。信息抽取是一個有效的解決方法,是具有較高實用價值的關鍵技術。從已有研究看,運用語義方法做信息抽取還相對較少,而信息抽取不可能完全擺脫自然語言模型的影響,語義關系仍然是實現信息抽取的基礎,比較其他信息抽取技術,能夠提高查全率和查準率,并降低復雜度。本文將通過語義分析方法,對電子商務網站的自由文本做相應處理和語義相似度計算,實現關鍵信息抽取。
二、相似度計算
大部分基于語義做自然語言處理的研究,都是以知網為基礎。知網是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。在知網中,詞匯語義的描述被定義為義項(概念),每一個詞可以表達為幾個義項,義項又是由一種知識表示語言來描述的,這種知識表示語言所用的詞匯稱作義原。其語義樹并不涵蓋所有詞語,而將描述詞匯語義的義原用樹狀結構組織起來,義原根據義原之間的屬性關系分為多棵義原樹,樹與樹之間存在一定的關系,形成網狀知識結構。其義原數量很少,但組合起來可以表達數以萬計詞語。所以將詞語相似度計算轉換為義原相似度計算可以提高計算效率,有利于知識庫的擴展。
1.詞語相似度計算
根據知網的義項描述和義原結構,算法可做如下表達,設定兩個詞語■有n個義項表示■,…,■,■有m個義項表示,■…,■,本計算中默認所有義項的相似度最大值為詞語之間相似度,具體表達式為:
■ (1)
其中■為■和■的相似度,■為■和■的相似度。這樣就通過計算義項的相似度值得到義項所對應的詞語之間的相似度,最后由計算義原相似度來實現。這樣就將相似度計算由詞語轉換為義項最終轉換為基本單位義原。通過計算語義距離及義原之間相對位置關系得到義原相似度。知網結構中,語義距離是影響義原相似度的基本因素,于是得到經驗公式通過語義距離計算義原之間相似度:
■(2)
其中p為義原;d為義原層次結構中路徑長度;為可調節參數。
分析發現,義原的相對位置也是義原之間相對關系的很大影響因素,對(2)式做出改進,加入義原相對位置的影響因素h(義原在義原樹中的深度):
■(3)
具體處理文本時總結發現,實詞在文本中表達本質含義,而虛詞主要作為詞語之間的連接等。所以,為提高效率,本文在計算相似度時只計算實詞部分。
依據知網結構,將實詞相似度計算用下面的計算完成。
(1) 第一獨立義原計算:對兩個義項計算第一獨立義原相似度可由式(3)的計算方法算出,這里記第一獨立義原為:■。
(2) 其他獨立義原計算:相似度記作■,計算表達式如下:
■(4)
(3) 關系義原計算:兩個義項的相似度記為■,計算表達式如下:
■(5)
(4) 符號義原計算:相似度記作■,基于在義原結構中表示形式相同的原因,符號義原計算與關系義原計算相近,如下式:
■(6)
于是,兩個義項語義表達式的整體相似度記為
■(7)
鑒于知網結構和描述,第一獨立義原之外的其他義原相似度是相對獨立的,對公式進行改進:
■(8)
至此可計算出兩個實詞的相似度。
2.句子相似度計算
這里計算句子相似度計算時只計算實詞,包括動詞(Verb)、名詞(Noun)、代詞(Pron)、副詞(Adv)、形容詞(Adj)、數詞(Num)、量詞(Quan)等。即,一個句子可根據上述分類得到如下集合:{Verb,Noun,Pron,Adv,Adj,Num,Quan}
設句子Sen經過分詞之后包含m 個詞:
■(9)
再根據實詞分類,得到分類集合:
■(10)
根據各個實詞在句子中所做的成分及作用分析,句子之間相同詞性的詞匯之間相似度可以衡量句子之間的相似度,這里設兩個句子的實詞分類集合分別為:
■。
設動詞集合V的兩個集合為:
■(11)
■(12)
設句子■和■的相似度矩陣為■,
■(13)
其中■為兩詞相似度。
兩句子動詞集合的相似度:
■(14)
根據這種方法,即可得到其他分類集合的相似度。那么全句的相似度如下表示(為權系數):
■(15)
三、關鍵句抽取算法
對于目前我們所遇到的絕大多數電子商務網頁中的電子文本都具有一定的模式,它的特點是基本符合對商品描述的基本模式,一般包含的基本信息是:品牌、質地、顏色、細節等。而這些梗概信息也正是要抽取的關鍵元素。通過對大量文本的觀察、統計發現,在一個完整的文本中,會存在一個句子完全包含這些關鍵元素,即關鍵句。抽取的基本思想是,一個完整文本中的句子,與其它句子或者相關,或者完全不相關。關鍵句作為信息量最大的句子與其他句子一定具有相關性;非關鍵句之間則是相互獨立的。根據這個思想,關鍵句的抽取有如下算法:輸入:包含自由文本的文檔 ;輸出:代表該文檔的關鍵信息
步驟:
Step1 將輸入的文檔進行句子劃分,得到其句子集D(W)。
Step2 對D(W)的每一個句子進行分詞處理,過濾虛詞,形成實詞集合W{ W1 , W2 ,…, Wn },其中Wi, i=1,2,…n, 為第i個句子對應的實詞集合。
Step3利用公式(15)計算任意兩個由詞集合表示的句子■的語義相似度,設為■
Step4 對每個句子與其他所有句子的語義相似度值求和,設句子■對應和值為■則■,n為句子數目。
Step5 計算■,并將其對應的句子作為關鍵句輸出。
四、實驗結果及分析
為評價本算法性能,本實驗使用中國科學院計算機技術研究所研制的ICTCLAS系統的中文分詞和詞性標注功能,用Java語言實現算法。使用的語料為電子商務網頁上摘錄的200段文本。以召回率和準確率作為算法評價指標:
■(16)
■(17)
具體實驗結果如圖所示。
從實驗結果看,本文算法對處理文本的類型具有一定的依賴性,對于主題比較鮮明的文本具有較高的抽取率。而對于同類型語料,不同語料數量的測試結果差別不大,因此算法對語料輸入數量并不敏感,可見本算法能夠保持較高的穩定性。體現了語義在自然語言處理中的優勢。
參考文獻:
[1]董振東,董強.知網[EB/OL]. http://www.keenage.com., 2003-
07-12.
[2]劉群,李素建.基于《知網》的詞匯語義相似度計算[A].第三屆漢語詞匯語義學研討會論文集[C],臺北: [s n], 2002. 59-76
[3]牛之賢,白鵬洲,段富.基于框架語義標注的自由文本信息抽取研究[J].計算機工程與應用.2008,44(25) 143~145
[4]金博,史彥君.基于語義理解的文本相似度算法[J].大連理工大學學報, Mar,2005,Vol.45,No.2 292~297
[5]ZHANG Hua-ping,Yu Hong-kui,Xiong De-yi,etal. HHMM-based Chinese lexical analyzer ICTCLAS[A]. 41st Annual Meeting of the Association for Computational Linguistics[C]. Sapporo: [s n],2003