摘要:針對單純的Pre-query和單純的Post-query分類方法對中文Deep Web數據源自動分類的不足,本文提出了三段式逐步求精的中文Deep Web數據源自動分類方法,并且基于該方法設計了相應的分類系統。通過實驗表明:對于實驗數據源,這種自動分類方法比單純的Pre-query分類方法、單純的Post-query分類方法以及無影響度差別的文獻[2]的分類方法的查全率、查準率和F1值都要高。
關鍵詞:Deep Web;數據源自動分類;中文;三段式
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)14-3599-03
A Three-phase Gradual Refining Data Source Automatic Classification of Chinese Deep Web
HU Ping
(Department of computer, Huaihua University, Huaihua 418000,China)
Abstract: This paper presents a three-phase gradual refining data source automatic classification of Chinese Deep Web, and designs corresponding system based on this method. It has improved simple Pre-query and simple Post-query classification method. Eperiments show that: this method has the highest recall rate, the highest precise rate and the highest F1 value, among simple Pre-query, simple Post-query, our method and document's method that has no difference in effect on classification, for experiment data source.
Key words: Deep Web; Automatic Classification of Data Source; Chinese; Three-phase
1 引言
Deep Web數據源自動分類是當前的Deep Web研究中的一個熱點。它實現將Deep Web資源按照現實的領域以自動的方式進行分類,以最終提高Deep Web資源的利用率。本文主要研究Deep Web數據源自動分類方法。目前,該研究還是一個剛剛起步的過程。Ipeirotis、Hedley、B.He、Qian Peng、Barbosa L等人 [1-4] 都提出了相應的Deep Web數據源自動分類方法。但是已有的研究工作只單純地采用Post-query或Pre-query方法中的一種,并且絕大部分都忽略了上下文描述內容文本的利用和這些依據信息對分類影響度的差別。此外,中文Deep Web數據源自動分類研究也很少。
2 三段式逐步求精的中文Deep Web數據源自動分類方法
2.1 三個階段結合的分類策略
單純的Post-query分類方法,只依據查詢返回的Web數據庫內容摘要來分類。由于它返回的結果畢竟只是數據庫的部分內容,而當數據庫的記錄具有較多屬性時,這種方法則難以取得較好的分類效果。
而單純的Pre-query分類方法,只依據查詢接口表單網頁自身的特征來分類。它僅適合數據庫的內容可以完全由表單的特征表示出來的情形,它對一些查詢接口表單中不含有任何基于領域特征屬性的Deep Web數據源無法分類,從而使得這種方法總的分類效果不好。尤其是對中文Deep Web數據源,如果僅僅采用這種Pre-query方法,由于有較多的中文數據源的查詢接口是不含有任何基于領域特征屬性的簡單查詢接口,其自動分類效果則會更加不理想。
為此,本文提出了一種三段式逐步求精的中文Deep Web數據源自動分類方法。該方法將Post-query和Pre-query方法有機地結合起來,并且設置了兩種不同的分類影響因子,通過Deep Web查詢接口表單特征的利用、Deep Web數據庫內容摘要的利用以及上下文描述內容文本的利用,這三個階段逐步提高了中文Deep Web數據源自動分類的效果。
本文的分類策略包含以下三個階段:
1)Deep Web查詢接口表單特征的利用——作為分類的第一階段。因為在所有Deep Web查詢接口中有相當多的查詢接口包含有基于領域的特征屬性,并且Deep Web查詢接口表單特征利用的分類影響度遠遠超過了上下文描述內容文本,此外,本文的Deep Web數據庫摘要利用方案的基礎是已知查詢接口是否含有基于領域的特征屬性的,因此,本文使用Pre-query分類方法,將其作為分類的第一階段。由于Deep Web查詢接口表單中的控件的文本標簽、內部名和其值域提供了相應的語義和領域相關信息,因此在這一階段抽取這些表單特征作為分類依據信息并對其進行標準化操作。
2)Deep Web數據庫內容摘要的利用——作為分類的第二階段。在這一階段又結合了Post-query分類方法,其關鍵作用是:它能填補第一階段無法給出任何簡單Deep
Web查詢接口及其Web數據庫的所屬領域的空缺。另外,還可以對高級Deep Web查詢接口及其Web數據庫在上一階段得到的可能領域作進一步的細化。在Deep Web數據庫內容摘要的利用過程中,本文從查詢項選擇出發,根據返回記錄的關聯對Deep Web數據庫內容進行獲取并且經過抽取與查詢相關的信息形成Deep Web數據庫內容摘要,并且將其作為分類依據信息進行了標準化操作。
3)上下文描述內容文本的利用——作為分類的第三階段。由于上下文描述內容文本的利用對Deep Web數據源自動分類的影響要比前兩者小,因此,本文將其單獨于查詢接口表單作為第三階段的輔助分類。與文獻[2]的方法相比,本文去除了噪音信息,找出了真正的Deep Web上下文描述內容文本。本文的上下文描述內容文本發現算法是利用文本塊中出現的滿足上下文描述內容文本特征的多少,來判斷它是上下文描述內容文本的可能性的。
2.2 領域的確定
本文中提出的三段式逐步求精的中文Deep Web數據源自動分類方法是基于Deep Web數據源與領域知識庫中主題之間的相似度實現的。而Deep Web數據源與領域知識庫中主題之間的相似度又包括:Deep Web查詢接口表單特征內容文本與領域知識庫中主題文檔之間的相似度Sim(P,Y),Deep Web數據庫內容摘要與領域知識庫中主題文檔之間的相似度Sim(D,Y),上下文描述內容文本與領域知識庫中主題文檔之間的相似度Sim(M,Y)。
在分類的第一階段得到的Sim(P,Y);第二階段得到的Sim(D,Y);第三階段得到的Sim(M,Y) ,它們的具體計算方法描述如下:
1)Deep Web查詢接口表單抽取特征內容文本pdj用一維向量(pw1,j, pw2,j,…, pwt,j)表示,其中pwi,j為權重。
2)Deep Web數據庫的內容摘要CS(D) 用一維向量(w1,w2,w3……wt)表示,其中wi為權重。
3)Deep Web上下文描述內容文本mdj用一維向量(mw1,j, mw2,j,…, mwt,j)表示,其中mwi,j為權重。
4)領域數據庫中每個主題描述信息文檔ydj用一維向量 (yw1,j, yw2,j,…, ywt,j)表示,其中ywt,j為權重。
本文將使用如下余弦相似度公式計算Sim(P,Y)、Sim(D,Y)以及Sim(M,Y):
下面以Deep Web查詢接口表單特征內容文本與領域知識庫中主題文檔之間的相似度Sim(P,Y)的計算為例來說明Sim(P,Y)、Sim(D,Y)和Sim(M,Y)的計算方法。
即
由于Deep Web查詢接口表單特征和數據庫內容摘要本身直接就是數據源的信息,而上下文描述內容文本塊是間接的反映Deep Web查詢接口及后臺數據庫內容,因此,很顯然上下文描述內容文本的利用對Deep Web數據源自動分類的影響要比這兩者小。在本文的分類算法中,設置兩種不同的分類影響因子ud和ux:Deep Web查詢接口表單特征和數據庫內容摘要的利用對應的是較大的影響因子ud,而上下文描述內容文本利用對應的是較小的影響因子ux。在本文中將Sim(P,Y), Sim(D,Y), Sim(M,Y)都乘以其相應的分類影響因子ud或ux,并且將這三項乘積相加就得到數據源與領域知識庫中主題之間的相似度。因此,可以得到確定Deep Web數據源所屬領域的計算公式,如公式(4):
接下來,就是依據公式(4)來確定Deep Web數據源其所屬的領域:首先,依據公式(4)計算Deep Web數據源與領域知識庫中主題之間的相似度值,然后將主題(領域)依據這個相似度值降序排列,選取k個與Deep Web數據源相似度值最高的主題,該相似度值最高的k個主題就是這個Deep Web數據源所屬的領域主題。如果每個數據源只屬于一個主題,即k=1。
2.3 自動分類系統的設計
圖1是三段式逐步求精的中文Deep Web數據源自動分類系統的模型圖。
該分類系統輸入的是包含Deep Web 查詢接口的頁面和數據庫(即,一個數據源);輸出的是該數據源所屬的領域主題;它主要由第一階段模塊、第二階段模塊、第三階段模塊以及領域確定模塊組成。在圖中,領域知識庫主要為上述模塊中的相似度比較提供領域主題文檔。本文的領域知識庫主要參照了雅虎中文的分類目錄體系,使用了其分類目錄的前一、二層作為主題和子主題,并且使用一個主題目錄下所有子目錄中出現的所詞匯集合作為該大主題(領域)的描述信息。該系統還對各個模塊的分類依據信息進行了標準化,該過程包括:“基于‘詞元’的中文分詞”、“同義詞替換”和“以空間向量模型表示”幾個部分。本文中的“詞元”字典和同義詞字典都是以雅虎中文分類目錄詞為基礎的,并與分類領域密切相關。
3 實驗
本文針對中文站點,在前文所述的自動分類系統上進行了實驗。實驗數據集是人工收集的392個中文數據源,表1給出了這些Deep Web數據源人工分類結果。
本文將三段式逐步求精的中文Deep Web數據源自動分類方法分別與單純的Pre-query分類方法、單純的Post-query分類方法、無影響度差別的文獻[2]的分類方法進行了比較實驗,并采用了評估文本分類的指標:查準率、查全率和F1值。實驗結果如表2所示。
從表2可知:對于實驗數據源,本文的自動分類方法比單純的Pre-query分類方法、單純的Post-query分類方法以及無影響度差別的文獻[2]的分類方法的分類效果都要好(查全率、查準率和F1值都有相應的提高),對其方法都起到了一定的改進作用。
表2 幾種自動分類方法的分類結果比較
4 結論
本文的三段式逐步求精的中文Deep Web數據源自動分類方法將Post-query和Pre-query方法有機地結合起來,并且設置了兩種不同的分類影響因子,通過三個階段逐步提高了中文Deep Web數據源自動分類的效果。
本文的貢獻在于:它解決了單純的Pre-query分類方法無法對不包含任何基于領域特征屬性的簡單Deep Web查詢接口表單所對應的數據源分類的問題;并且解決了單純的Post-query分類方法,在Deep Web數據庫的記錄具有較多屬性時,其分類結果的查準率、查全率和F1值比較低的問題。還提出了三種分類依據信息對自動分類的影響度有差別的問題,改進了文獻[2]自動分類方法。它為目前的中文Deep Web數據源自動分類方法研究提供了一種新的參考。
參考文獻:
[1] B He, T Tao, K C C Chang. Organizing structured web sources by query schemas: a clustering approach[C]. In Proceedings of the 13th Conference on Information and Knowledge Management. Washington: ACM Press,2004.22-31.
[2] Barbosa L, Freire J, Silva A. Organizing hidden-Web databases by clustering visible Web documents. In: Doqac A, ed. Proc. of IEEE the 23rd Int’l Conf. on Data Engineering.I stanbul: IEEE Computer Society, 2007. 326-335.
[3] Yih-Ling Hedley, Muhammad Younas, Anne E James. The categorisation of hidden web databases through concept specificity and coverage[C].In proceedings of the 2005 international workshop on web and mobile information Systems,2005:371-376.
[4] 劉偉,孟小峰,孟衛一.Deep Web數據集成問題研究.科技報告,WAMDM-TR-2006.3-7.