999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞語相關度的文檔主題抽取算法

2012-09-18 02:25:48袁曉峰
成都大學學報(自然科學版) 2012年4期
關鍵詞:特征文本

袁曉峰

(鹽城師范學院信息科學與技術學院,江蘇鹽城 224002)

基于詞語相關度的文檔主題抽取算法

袁曉峰

(鹽城師范學院信息科學與技術學院,江蘇鹽城 224002)

考慮到文檔中出現頻率較高的詞語能夠體現文檔的主題,設計了一種中文文檔主題抽取算法.該算法首先對目標文檔進行預處理,然后計算文檔中每個詞語的出現頻率,用出現頻率最高的幾個詞語作為文檔的主題.其中,將詞語間的相關度作為計算出現頻率的參考因素.詞語相關度的計算是基于中文知識庫《知網》的方法.實驗證明,本算法具有較高的準確性.

詞語相關度;出現頻率;知網;主題抽取

0 引 言

文檔主題抽取的研究被廣泛應用于搜索引擎、文本聚類等文本自動處理方面的工作.目前,國內相關研究集中于字同現頻率、語言理解、匹配和統計等方面[1-4].本研究在《知網》概念描述方法[5]的基礎上,著重研究《知網》中義原在縱向和橫向上的關系結構,以此來計算詞語之間的相關度.通過考慮詞語之間相關度,提出一種計算詞語出現頻率的新算法:首先對文檔進行預處理,剔除停用詞;然后計算詞語之間的相關度,將初始出現頻率較低的詞歸于與之相關度較高的那些初始出現頻率較高的詞;最后用出現頻率較高的詞作為文檔主題.

1 詞語相關度計算

《知網》中的概念是對詞匯語義的描述,是用知識表示語言來描述的,這種“知識表示語言”所用的詞匯稱為義原.詞語相關度計算需要考慮2個方面:詞語相似度與義原關聯度[6].

1.1 詞語相似度

對于2個漢語詞語W1和W2,如果W1有n個義項(概念):S11,S12,……,S1n,W2有m個義項(概念):S21,S22,……,S2m,則W1和W2的相似度是各個概念的相似度之最大值,

概念之間的相似度計算可分為4個部分[7].

①第一基本義原,直接計算2個義原的相似度,記為Sim1(S1,S2);

②其他基本義原,可以看成是一個集合,通過建立2個集合中元素的對應關系來計算2個集合的相似度,記為Sim2(S1,S2);

③關系義原,可以看成是一個特征結構,即“屬性:值”對的集合,每個“屬性:值”對為一個“特征”.2個特征之間一一對應關系的建立就轉化為對相同“屬性”對應“值”的相似度的計算,記為Sim3(S1,S2);

④關系符號描述,其值為一個特征結構,轉換為2個特征結構的相似度計算,記為Sim4(S1,S2).

則,概念之間的相似度計算式為,

其中,βi(1 ≤i≤4)是可調節的參數,且有,β1+β2+β3+β4=1,β1 ≥β2 ≥β3 ≥β4.

這樣,詞語之間的相似度計算就完全轉化為義原之間的相似度計算.

由于義原可根據上下位關系組織成樹狀結構的層次體系,因此通過計算義原之間的距離可計算出義原之間的相似度[8],

其中,p1、p2分別表示兩個義原,d是p1和p2的距離,α是一個可調節的參數,通常 α表示相似度為0.5時的詞語距離值.

1.2 義原關聯度

兩個義原的關聯度記為A,其計算式為,

其中,pi和pj分別為義項Si和義項Sj的第一基本義原,D為橫向關聯影響深度,即某一義原向上第幾層的解釋義原會對其特征有影響.

1.3 詞語相關度

詞語相關用以描述兩個詞語的概念之間的關系,而相關度是概念之間相關程度的度量.因此,詞語相關度是相似度和關聯度的加權求平均,其計算式為,

式中 ,η1+η2=1.

2 主題抽取

主題抽取可分為:對給定文本d進行特征抽取和主題生成.特征抽取將文本用實詞序列表示,主題生成通過計算實詞序列中詞的出現頻率從而得到文本的主題.

2.1 特征抽取

通常,特征抽取需先對給定文本d進行預處理,如分詞、去除停用詞等.為了降低整個算法的復雜性,本研究僅考慮把實詞作為特征詞,即不考慮連詞、代詞、副詞等虛詞,分詞是中文文本處理常用的步驟,本算法采用中科院中文分詞系統(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)進行分詞,最后得到結果,

2.2 主題生成

主題生成的主要思想是:首先,從經過特征抽取的結果中選取出現頻率最大的s個詞語,并將其稱為待定主題詞,待定主題詞初始權值設為1;其次,計算文檔中其他詞匯與s個待定主題詞之間的相關度,并將相關度加到待定主題詞的權值上;最后,選定t個權值最大的主題詞作為文檔的主題.

主題抽取算法的具體步驟如下:

①選出d中出現頻率最高的s個詞集,合記為hf={w1,w2,…,ws},剩余的詞集合記為 ,left=d-hf={v1,v2,…,vn}.

②初始hf的權值,weight={g1=1,g2=1,…,gs=1}.

③計算left集合中的詞與hf中每個詞之間的相關度,rel=R(left,hf),并將hf中當前詞權值加上rel.

④選出weight集合中值最大的t個詞,記為,subject={w1,w2,…,wt},此即為文檔d的主題.

3 實 驗

3.1 主題抽取實驗

由于算法的參數無法給出標準值,對此,本研究通過反復實驗并與其他文獻比較,設置參數如下:

在實驗中,本研究從復旦大學語料庫中抽取200篇帶有標題的短篇新聞,其中政治類46篇、經濟類45篇、科技類39篇、娛樂類22篇,其他48篇.并將主題句抽取的質量好壞分為4個等級:與原標題基本一致、包含原標題內容、主題基本符合、主題不全面或主題偏離.若結果符合前3個等級則認為抽取正確,并將文本篇數占總測試語料篇數的比例稱為主題句抽取正確率.實驗結果如表1所示.

表1 主題抽取實驗結果

3.2 實驗結果分析

從表1中的數據可以看出,政治類的新聞文檔主題抽取準確率極高,幾乎為100%,與原標題基本一致比率達到了93.5%;經濟類和科技類的新聞文檔主題抽取準確率分別為97.8%、97.4%,略低于政治類;娛樂類的新聞文檔主題抽取準確率為90.9%,較前3類文檔偏低,這是因為娛樂類的新聞內容不緊湊、話題比較廣所致;其他類文章的主題抽取準確率不足90%.準確率最高的新聞類的文檔主題相對集中,文章的布局緊緊圍繞主題,此也再次證明文章的主題分散對主題抽取有不利的影響.盡管如此,本算法對文檔主題的抽取準確率都達到80%以上,證明了本算法的有效性.

4 結 語

出現頻率高的詞語能夠體現文檔的主題,不過頻率不能僅僅由該詞出現的次數決定,而必須考慮與該詞相關度較高的詞語的出現頻率.本研究提出了一種通過詞語相關度來統計詞語在文檔中出現的頻率,進而通過詞語出現的頻率來抽取文檔主題的算法.實驗表明,本算法對文檔主題的抽取準確率較高.需要說明的是,該算法的主題抽取質量與文檔的布局也有著密切的關系,主題思想越集中,抽取的準確率越高;反之,主題思想越發散,抽取的準確率越低.

:

[1]馬穎華,王永成,蘇貴陽,等.一種基于字同現頻率的漢語文本主題抽取方法[J].計算機研究與發展,2003,40(6):874-878.

[2]麻志毅,姚天順.基于情境的文本主題求解[J].計算機研究與發展,1998 ,35(4):344-348.

[3]Yin Zhonghang,Wang Yongcheng.Extracting Subject from Internet Newsby String Match[J].Journal of Software,2002,13(2):159-167.

[4]韓客松,王永成,沈洲,等.三個層面的中文文本主題自動提取研究[J].中文信息學報,2001,12(4):20-27.

[5]董振東,董強.知網[EB/OL].http://www.keenage.com/html/c index .html,1999-2007.

[6]許云,樊孝忠,張鋒.基于知網的語義相關度計算[J].北京理工大學學報,2005,25(5):411-414.

[7]劉群,李素建.基于《知網》的詞匯語義相似度計算[J].計算語言學及中文信息處理,2007,31(7):59-76.

[8]Agirre E,Rigau G.A Proposal for Word Sense Disambiguation Using ConceptualDistance[C]//Porceeding of International Conference on Recent Advances in Natural Language Processing.Bulgaria:arXiv.org,1995.

Algorithm of Document Subject Extraction Based on Word Relevancy

YUAN Xiaofeng

(College of Information Science and Technology,Yancheng Teachers University,Yancheng 224002,China)

A kind of subject extraction algorithm was designed based on the consideration that words with high frequent occurrence could represent the theme of the document.Firstly,this algorithm pre-processed the sample document and calculated the occurrence frequency of eachword of the document.Some most frequent words were used to represent the subject.The relevancy between words was referred to calculate the frequency of each word and the calculation of relevancy was based on the ontology Hownet.At last,the high accuracy of the algorithm was testified by the experiment.

word relevancy ;occurrence frequency ;Hownet;subject extraction

TP391.1

A

1004-5422(2012)04-0367-03

2012-09-04.

袁曉峰(1978—),男,碩士,從事計算機信息檢索與自然語言處理技術研究.

猜你喜歡
特征文本
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产幂在线无码精品| 亚洲乱码精品久久久久..| 欧美劲爆第一页| 美女国产在线| 亚卅精品无码久久毛片乌克兰| 性色一区| 国产无码精品在线| 亚洲中文字幕无码爆乳| 国产激情在线视频| 熟女成人国产精品视频| 夜精品a一区二区三区| 啪啪永久免费av| www.91中文字幕| 制服丝袜亚洲| 久久亚洲中文字幕精品一区 | 正在播放久久| 无码一区18禁| 欧美精品亚洲精品日韩专区| 国产成人麻豆精品| 不卡无码网| 天堂岛国av无码免费无禁网站| 无码视频国产精品一区二区| 黄片一区二区三区| 国产极品美女在线播放| 国产麻豆福利av在线播放 | 久久中文字幕不卡一二区| 在线观看亚洲精品福利片| 国产精品亚洲αv天堂无码| 久久大香伊蕉在人线观看热2| 日本国产精品| vvvv98国产成人综合青青| 伊人狠狠丁香婷婷综合色 | 亚洲人成人伊人成综合网无码| 老色鬼欧美精品| 亚洲欧美日韩成人高清在线一区| 国产资源免费观看| 91精品国产情侣高潮露脸| 国产主播在线观看| 五月天丁香婷婷综合久久| 最新国产网站| 国产午夜小视频| 亚洲男人的天堂在线| 54pao国产成人免费视频| 精品一区二区无码av| 成人在线不卡视频| 在线欧美国产| 日韩成人午夜| 午夜爽爽视频| 亚洲免费成人网| 看看一级毛片| 91精品日韩人妻无码久久| 91精品国产丝袜| 欧美国产精品不卡在线观看| 国产白浆在线| 欧美成人午夜在线全部免费| 成年人久久黄色网站| 操国产美女| 久久国产亚洲偷自| 狠狠色成人综合首页| www.99精品视频在线播放| 欧美日韩国产系列在线观看| 免费看av在线网站网址| 国产欧美成人不卡视频| 亚洲第一福利视频导航| 露脸一二三区国语对白| 亚洲不卡网| 久久人妻xunleige无码| 日韩无码黄色| 欧美在线观看不卡| 第九色区aⅴ天堂久久香| 亚洲欧美日韩中文字幕一区二区三区 | 久久成人免费| 色综合久久88| 国产区网址| 一级香蕉视频在线观看| 久久一级电影| 欧美亚洲一二三区| 国产一区二区三区免费| 污污网站在线观看| 国模在线视频一区二区三区| 在线亚洲精品福利网址导航| 欧美乱妇高清无乱码免费|