施秀麗 江莉莉
[摘要] 非結構化文檔標記,實現(xiàn)了非結構化文檔向結構化描述的轉變,是非結構化文檔管理的生命周期的重要環(huán)節(jié)。本文構建的非結構化標記方法主要包括:基于Dublin Core的外表特征標記、基于語義標注的內(nèi)容特征標記、完整的XML Schema規(guī)范、工具支持等。
[關鍵詞] 非結構化; 都柏林核心集; 語義標注; Schema模式
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 04. 036
[中圖分類號]F272.9;TP311.13[文獻標識碼]A[文章編號]1673 - 0194(2012)04- 0061- 01
一般,非結構化文檔管理的生命周期包括非結構化文檔的獲取、標記、組織、存儲和應用等環(huán)節(jié)本文是在獲取非結構化文檔并統(tǒng)一轉化為txt格式之后,進行下一步標記分析的。本文構建的非結構化文檔的標記方法著重從外表特征和內(nèi)容特征兩方面來做分析討論。
1基于Dublin Core的外表特征標記
本文參考了DC(Dublin Core,都柏林核心集)的15個核心元素,剔除若干不需要的元素,保留了其中的主要元素:標題Title、作者Author、日期Date、標識符Identifier和格式Format,同時結合企業(yè)環(huán)境需要增加了3個元素:
Document Department:與文檔相關的部門。企業(yè)是一個按職能劃分的系統(tǒng),文檔可來自不同的部門,且會帶有明顯的部門特征,增加這個元素,可以更好地對文檔進行歸類管理。
Document ID:文檔編號,對文檔按照統(tǒng)一的編碼方式進行編碼。
Access Control:權限控制。企業(yè)中對于權限的設置十分嚴格,查看、修改、刪除都必須有相應的權限,增加權限控制項可滿足企業(yè)安全管理需要。
2基于語義標注的內(nèi)容特征標記
要對文檔進行內(nèi)容標記必須對文檔進行全面的內(nèi)容理解,這種理解是通過語義標注來實現(xiàn)的。語義標注,就是利用本體中定義的詞匯來顯示揭示和表達文檔中的內(nèi)容,主要可分為命名實體識別和實體關系識別。
經(jīng)過語義標注之后,即可形成關于源文檔的標注文檔。標注文檔中的詞匯能在一定程度上表達文檔的內(nèi)容,但其沒有對這些表達文檔內(nèi)容的詞匯進行排序,所以無法判斷哪些詞匯更能表達主題。本文采取的方法是:通過詞匯之間存在的語義關系來計算詞匯的語義加權值,來表示詞匯所能反映主題的程度,下面先介紹下計算語義權重值過程中涉及到的幾個定義:
上位詞:同一本體中,父概念是其子概念和實例的上位詞,父屬性是子屬性的上位詞
詞頻:將詞匯 i在文檔中出現(xiàn)的頻數(shù)為詞匯i的詞頻,一般可記為frei。
影響值:文檔中的兩個詞i和j,若 i是j的上位詞,那么稱j對i有影響,否則無影響,并j對i的影響程度稱為影響值,記作
θij = weight[j] 若j為i的下位詞0 否則 (1)
具體語義加權值計算方法如下:首先將文檔中包含的領域詞匯的權重值weight[i]初始化為相應詞匯的詞頻frei,然后再按照詞匯之間存在的上下位關系,對權重值進行更新和疊加,若在文檔中存在該詞匯的上位詞,則直接將影響值加到上位詞的權重中;若不存在,則將上位詞加進來,并初始化其權重值為該詞匯對其的影響值,具體計算公式如下:
經(jīng)過加權語義標注后再綜合考慮,內(nèi)容標記元素包括:分類Class、主題Subject、相關主題Related Subject、帶權值的特征詞匯Weighted Key Words、特征詞匯所在的句子的摘錄Key Sentences。
3標記語言Schema設計
前面已經(jīng)通過DC和語義標注完成了對非結構化文檔在外表特征標記和內(nèi)容特征標記兩方面的研究,接下來就是分析如何對這些標記進行完整的描述并形成一個完整的XML Schema規(guī)范,并按照此Schema來填充和校驗非結構化文檔標記。
本文設計的標記Schema結構如下:MarkupLanguage為根元素,以下再包含Head、Body及Foot三個子元素,各子元素再往下細分。Head包含的是關于標記文檔本身的一些管理控制元素,以實現(xiàn)對標記文檔自身的有效管理和應用,具體元素有:作者、日期、語言、版本信息、權限控制、生成工具及所用的本體等;body元素是標記文檔的主體,包括外表特征和內(nèi)容特征兩個元素,具體子元素前面已說明;Foot則包含了一些補充信息,如版權和聯(lián)系方式等。
文中的Schema文件、結構圖和具體的XML標記文檔,都可以通過XML SPY工具軟件來編寫,本文所采用版本為XML SPY2006企業(yè)版中文破解版。
4小結
本文構建的非結構化文檔標記方法重點是兩方面:基于DC的外表特征元素和基于語義標注的內(nèi)容特征元素,之后添加了一些管理控制元素,形成完整的Schema規(guī)范。對于文檔的標記都按照Schema設計的元素規(guī)范來填充,形成統(tǒng)一結構化的描述,實現(xiàn)非結構化向結構化的轉換,以便進行下一步組織/存儲,實現(xiàn)更高層次的應用。
主要參考文獻
[1] 張德政,張萍萍. 非結構化信息管理[J]. 微計算機信息,2006,22(9).
[2]張曉艷,王挺,陳火旺.命名實體識別研究[J].計算機科學,2005(4).
[3]劉建華,張智雄.基于Stanford Parser的實體間關系識別[J].現(xiàn)代圖書情報技術,2009(5).
[4]荊濤,左萬利,孫吉貴,等. 中文網(wǎng)頁語義標注:由句子到RDF表示[J]. 計算機研究與發(fā)展,2008,45(7).