非結構化文檔的標記方法研究

2012-04-29 15:14:24施秀麗江莉莉

中國管理信息化 2012年4期

施秀麗江莉莉

［摘要］非結構化文檔標記，實現(xiàn)了非結構化文檔向結構化描述的轉變，是非結構化文檔管理的生命周期的重要環(huán)節(jié)。本文構建的非結構化標記方法主要包括：基于Dublin Core的外表特征標記、基于語義標注的內(nèi)容特征標記、完整的XML Schema規(guī)范、工具支持等。

［關鍵詞］非結構化；都柏林核心集；語義標注； Schema模式

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 04. 036

［中圖分類號］F272.9；TP311.13［文獻標識碼］A［文章編號］1673 - 0194（2012）04- 0061- 01

一般，非結構化文檔管理的生命周期包括非結構化文檔的獲取、標記、組織、存儲和應用等環(huán)節(jié)本文是在獲取非結構化文檔并統(tǒng)一轉化為ｔｘｔ格式之后，進行下一步標記分析的。本文構建的非結構化文檔的標記方法著重從外表特征和內(nèi)容特征兩方面來做分析討論。

１基于ＤｕｂｌｉｎＣｏｒｅ的外表特征標記

本文參考了ＤＣ（ＤｕｂｌｉｎＣｏｒｅ，都柏林核心集）的１５個核心元素，剔除若干不需要的元素，保留了其中的主要元素：標題Ｔｉｔｌｅ、作者Ａｕｔｈｏｒ、日期Ｄａｔｅ、標識符Ｉｄｅｎｔｉｆｉｅｒ和格式Ｆｏｒｍａｔ，同時結合企業(yè)環(huán)境需要增加了3個元素：

ＤｏｃｕｍｅｎｔＤｅｐａｒｔｍｅｎｔ：與文檔相關的部門。企業(yè)是一個按職能劃分的系統(tǒng)，文檔可來自不同的部門，且會帶有明顯的部門特征，增加這個元素，可以更好地對文檔進行歸類管理。

ＤｏｃｕｍｅｎｔＩＤ：文檔編號，對文檔按照統(tǒng)一的編碼方式進行編碼。

ＡｃｃｅｓｓＣｏｎｔｒｏｌ：權限控制。企業(yè)中對于權限的設置十分嚴格，查看、修改、刪除都必須有相應的權限，增加權限控制項可滿足企業(yè)安全管理需要。

２基于語義標注的內(nèi)容特征標記

要對文檔進行內(nèi)容標記必須對文檔進行全面的內(nèi)容理解，這種理解是通過語義標注來實現(xiàn)的。語義標注，就是利用本體中定義的詞匯來顯示揭示和表達文檔中的內(nèi)容，主要可分為命名實體識別和實體關系識別。

經(jīng)過語義標注之后，即可形成關于源文檔的標注文檔。標注文檔中的詞匯能在一定程度上表達文檔的內(nèi)容，但其沒有對這些表達文檔內(nèi)容的詞匯進行排序，所以無法判斷哪些詞匯更能表達主題。本文采取的方法是：通過詞匯之間存在的語義關系來計算詞匯的語義加權值，來表示詞匯所能反映主題的程度，下面先介紹下計算語義權重值過程中涉及到的幾個定義：

上位詞：同一本體中，父概念是其子概念和實例的上位詞，父屬性是子屬性的上位詞

詞頻：將詞匯ｉ在文檔中出現(xiàn)的頻數(shù)為詞匯ｉ的詞頻，一般可記為ｆｒｅｉ。

影響值：文檔中的兩個詞ｉ和ｊ，若ｉ是ｊ的上位詞，那么稱ｊ對ｉ有影響，否則無影響，并ｊ對ｉ的影響程度稱為影響值，記作

θｉｊ＝ｗｅｉｇｈｔ［ｊ］若ｊ為ｉ的下位詞０否則（１）

具體語義加權值計算方法如下：首先將文檔中包含的領域詞匯的權重值ｗｅｉｇｈｔ［ｉ］初始化為相應詞匯的詞頻ｆｒｅｉ，然后再按照詞匯之間存在的上下位關系，對權重值進行更新和疊加，若在文檔中存在該詞匯的上位詞，則直接將影響值加到上位詞的權重中；若不存在，則將上位詞加進來，并初始化其權重值為該詞匯對其的影響值，具體計算公式如下：

經(jīng)過加權語義標注后再綜合考慮，內(nèi)容標記元素包括：分類Ｃｌａｓｓ、主題Ｓｕｂｊｅｃｔ、相關主題ＲｅｌａｔｅｄＳｕｂｊｅｃｔ、帶權值的特征詞匯Ｗｅｉｇｈｔｅｄ Kｅｙ Wｏｒｄｓ、特征詞匯所在的句子的摘錄ＫｅｙＳｅｎｔｅｎｃｅｓ。

３標記語言Ｓｃｈｅｍａ設計

前面已經(jīng)通過ＤＣ和語義標注完成了對非結構化文檔在外表特征標記和內(nèi)容特征標記兩方面的研究，接下來就是分析如何對這些標記進行完整的描述并形成一個完整的ＸＭＬＳｃｈｅｍａ規(guī)范，并按照此Ｓｃｈｅｍａ來填充和校驗非結構化文檔標記。

本文設計的標記Ｓｃｈｅｍａ結構如下：ＭａｒｋｕｐＬａｎｇｕａｇｅ為根元素，以下再包含Ｈｅａｄ、Ｂｏｄｙ及Ｆｏｏｔ三個子元素，各子元素再往下細分。Ｈｅａｄ包含的是關于標記文檔本身的一些管理控制元素，以實現(xiàn)對標記文檔自身的有效管理和應用，具體元素有：作者、日期、語言、版本信息、權限控制、生成工具及所用的本體等；ｂｏｄｙ元素是標記文檔的主體，包括外表特征和內(nèi)容特征兩個元素，具體子元素前面已說明；Ｆｏｏｔ則包含了一些補充信息，如版權和聯(lián)系方式等。

文中的Ｓｃｈｅｍａ文件、結構圖和具體的ＸＭＬ標記文檔，都可以通過ＸＭＬＳＰＹ工具軟件來編寫，本文所采用版本為XML SPY２００６企業(yè)版中文破解版。

４小結

本文構建的非結構化文檔標記方法重點是兩方面：基于ＤＣ的外表特征元素和基于語義標注的內(nèi)容特征元素，之后添加了一些管理控制元素，形成完整的Ｓｃｈｅｍａ規(guī)范。對于文檔的標記都按照Ｓｃｈｅｍａ設計的元素規(guī)范來填充，形成統(tǒng)一結構化的描述，實現(xiàn)非結構化向結構化的轉換，以便進行下一步組織／存儲，實現(xiàn)更高層次的應用。

主要參考文獻

［１］張德政，張萍萍．非結構化信息管理［Ｊ］．微計算機信息，２００６，２２（9）．

［２］張曉艷，王挺，陳火旺．命名實體識別研究［Ｊ］．計算機科學，２００５（４）．

［３］劉建華，張智雄．基于ＳｔａｎｆｏｒｄＰａｒｓｅｒ的實體間關系識別［Ｊ］．現(xiàn)代圖書情報技術，２００９（５）．

［４］荊濤，左萬利，孫吉貴，等．中文網(wǎng)頁語義標注：由句子到ＲＤＦ表示［Ｊ］．計算機研究與發(fā)展，２００８，４５（７）．

中國管理信息化2012年4期

中國管理信息化的其它文章: 淺談基礎會計課的教學改革; 探討高職院校會計電算化課程的改革; 基于教育博客的會計網(wǎng)絡教學研究與實踐; 軍隊院校管理教育工作的改革與提高; 淺析軍校學員管理中的“以人為本”; 高校國際市場營銷學課程教學改革的思考