999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非結構化文檔的標記方法研究

2012-04-29 15:14:24施秀麗江莉莉
中國管理信息化 2012年4期

施秀麗 江莉莉

[摘要] 非結構化文檔標記,實現(xiàn)了非結構化文檔向結構化描述的轉變,是非結構化文檔管理的生命周期的重要環(huán)節(jié)。本文構建的非結構化標記方法主要包括:基于Dublin Core的外表特征標記、基于語義標注的內(nèi)容特征標記、完整的XML Schema規(guī)范、工具支持等。

[關鍵詞] 非結構化; 都柏林核心集; 語義標注; Schema模式

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 04. 036

[中圖分類號]F272.9;TP311.13[文獻標識碼]A[文章編號]1673 - 0194(2012)04- 0061- 01

一般,非結構化文檔管理的生命周期包括非結構化文檔的獲取、標記、組織、存儲和應用等環(huán)節(jié)本文是在獲取非結構化文檔并統(tǒng)一轉化為txt格式之后,進行下一步標記分析的。本文構建的非結構化文檔的標記方法著重從外表特征和內(nèi)容特征兩方面來做分析討論。

1基于Dublin Core的外表特征標記

本文參考了DC(Dublin Core,都柏林核心集)的15個核心元素,剔除若干不需要的元素,保留了其中的主要元素:標題Title、作者Author、日期Date、標識符Identifier和格式Format,同時結合企業(yè)環(huán)境需要增加了3個元素:

Document Department:與文檔相關的部門。企業(yè)是一個按職能劃分的系統(tǒng),文檔可來自不同的部門,且會帶有明顯的部門特征,增加這個元素,可以更好地對文檔進行歸類管理。

Document ID:文檔編號,對文檔按照統(tǒng)一的編碼方式進行編碼。

Access Control:權限控制。企業(yè)中對于權限的設置十分嚴格,查看、修改、刪除都必須有相應的權限,增加權限控制項可滿足企業(yè)安全管理需要。

2基于語義標注的內(nèi)容特征標記

要對文檔進行內(nèi)容標記必須對文檔進行全面的內(nèi)容理解,這種理解是通過語義標注來實現(xiàn)的。語義標注,就是利用本體中定義的詞匯來顯示揭示和表達文檔中的內(nèi)容,主要可分為命名實體識別和實體關系識別。

經(jīng)過語義標注之后,即可形成關于源文檔的標注文檔。標注文檔中的詞匯能在一定程度上表達文檔的內(nèi)容,但其沒有對這些表達文檔內(nèi)容的詞匯進行排序,所以無法判斷哪些詞匯更能表達主題。本文采取的方法是:通過詞匯之間存在的語義關系來計算詞匯的語義加權值,來表示詞匯所能反映主題的程度,下面先介紹下計算語義權重值過程中涉及到的幾個定義:

上位詞:同一本體中,父概念是其子概念和實例的上位詞,父屬性是子屬性的上位詞

詞頻:將詞匯 i在文檔中出現(xiàn)的頻數(shù)為詞匯i的詞頻,一般可記為frei。

影響值:文檔中的兩個詞i和j,若 i是j的上位詞,那么稱j對i有影響,否則無影響,并j對i的影響程度稱為影響值,記作

θij = weight[j] 若j為i的下位詞0 否則 (1)

具體語義加權值計算方法如下:首先將文檔中包含的領域詞匯的權重值weight[i]初始化為相應詞匯的詞頻frei,然后再按照詞匯之間存在的上下位關系,對權重值進行更新和疊加,若在文檔中存在該詞匯的上位詞,則直接將影響值加到上位詞的權重中;若不存在,則將上位詞加進來,并初始化其權重值為該詞匯對其的影響值,具體計算公式如下:

經(jīng)過加權語義標注后再綜合考慮,內(nèi)容標記元素包括:分類Class、主題Subject、相關主題Related Subject、帶權值的特征詞匯Weighted Key Words、特征詞匯所在的句子的摘錄Key Sentences。

3標記語言Schema設計

前面已經(jīng)通過DC和語義標注完成了對非結構化文檔在外表特征標記和內(nèi)容特征標記兩方面的研究,接下來就是分析如何對這些標記進行完整的描述并形成一個完整的XML Schema規(guī)范,并按照此Schema來填充和校驗非結構化文檔標記。

本文設計的標記Schema結構如下:MarkupLanguage為根元素,以下再包含Head、Body及Foot三個子元素,各子元素再往下細分。Head包含的是關于標記文檔本身的一些管理控制元素,以實現(xiàn)對標記文檔自身的有效管理和應用,具體元素有:作者、日期、語言、版本信息、權限控制、生成工具及所用的本體等;body元素是標記文檔的主體,包括外表特征和內(nèi)容特征兩個元素,具體子元素前面已說明;Foot則包含了一些補充信息,如版權和聯(lián)系方式等。

文中的Schema文件、結構圖和具體的XML標記文檔,都可以通過XML SPY工具軟件來編寫,本文所采用版本為XML SPY2006企業(yè)版中文破解版。

4小結

本文構建的非結構化文檔標記方法重點是兩方面:基于DC的外表特征元素和基于語義標注的內(nèi)容特征元素,之后添加了一些管理控制元素,形成完整的Schema規(guī)范。對于文檔的標記都按照Schema設計的元素規(guī)范來填充,形成統(tǒng)一結構化的描述,實現(xiàn)非結構化向結構化的轉換,以便進行下一步組織/存儲,實現(xiàn)更高層次的應用。

主要參考文獻

[1] 張德政,張萍萍. 非結構化信息管理[J]. 微計算機信息,2006,22(9).

[2]張曉艷,王挺,陳火旺.命名實體識別研究[J].計算機科學,2005(4).

[3]劉建華,張智雄.基于Stanford Parser的實體間關系識別[J].現(xiàn)代圖書情報技術,2009(5).

[4]荊濤,左萬利,孫吉貴,等. 中文網(wǎng)頁語義標注:由句子到RDF表示[J]. 計算機研究與發(fā)展,2008,45(7).

主站蜘蛛池模板: 高清无码手机在线观看| 国产香蕉一区二区在线网站| 午夜国产小视频| 国产美女主播一级成人毛片| 激情无码字幕综合| 二级特黄绝大片免费视频大片| 亚洲Av综合日韩精品久久久| 国产99视频在线| 亚洲成a人片| 亚洲美女视频一区| 国产三区二区| 日韩欧美国产另类| 国产精品污视频| 91视频精品| 丰满人妻久久中文字幕| 日本在线免费网站| 亚洲精品国产精品乱码不卞| 54pao国产成人免费视频| 最新日韩AV网址在线观看| 91探花在线观看国产最新| 91精品啪在线观看国产60岁| 国产内射在线观看| 亚洲欧洲日产国产无码AV| 国产午夜福利在线小视频| 国产青榴视频| 免费人欧美成又黄又爽的视频| 亚洲男人在线天堂| 米奇精品一区二区三区| 五月天香蕉视频国产亚| 无码专区第一页| 国产区精品高清在线观看| 欧美激情,国产精品| 就去色综合| 色综合久久综合网| 久久久久免费看成人影片| 国产精品亚洲天堂| 亚洲大学生视频在线播放| 日韩AV手机在线观看蜜芽| 欧美日韩v| 久久免费视频6| 日韩成人在线网站| 国产精品30p| 无码福利视频| 天天躁夜夜躁狠狠躁躁88| 2020国产精品视频| 国内精品久久九九国产精品| 伊人国产无码高清视频| 婷婷伊人久久| 亚洲欧美另类视频| 爱色欧美亚洲综合图区| 久久99国产精品成人欧美| 91精品啪在线观看国产60岁| 亚洲人免费视频| 97在线免费| 国产主播在线一区| 国产超碰在线观看| 91久久精品国产| 园内精品自拍视频在线播放| 一区二区三区四区精品视频| 伊人成人在线视频| 国产午夜一级淫片| 色婷婷狠狠干| 97在线观看视频免费| 无码电影在线观看| 岛国精品一区免费视频在线观看| 亚洲中文在线看视频一区| 国产精品嫩草影院视频| 91无码视频在线观看| 欧美中文字幕一区| 亚洲成人福利网站| 中文字幕av一区二区三区欲色| AV无码无在线观看免费| 亚洲第一天堂无码专区| 亚洲精品第五页| 亚洲欧美日韩中文字幕一区二区三区| 国产成人在线无码免费视频| 老司机久久精品视频| 国产午夜福利亚洲第一| 啦啦啦网站在线观看a毛片| 欧美成人一级| 激情网址在线观看| 成年人国产视频|