999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統計的Web文本自動摘要技術

2019-06-12 00:32:27王健
科教導刊·電子版 2019年12期

王健

摘 要 自動文本摘技術的出現為人們快速閱讀的帶來了極大的方便,本文針對于Web文本的特征設計出了計算詞權重系數公式及句子得分公式,改進并實現了兩種重要的摘要算法

關鍵詞 Web文本 自動摘要 摘要算法 主題詞

中圖分類號:TP391文獻標識碼:A

0引言

基于統計的文本自動摘要方法主要根據線索詞典、詞頻、詞或句子的啟發性函數進行模式匹配,摘取文本中重要句子形成摘要。它不依賴于具體領域,適應面廣,響應速度快,因而受到越來越多的研究者的重視。基于統計的文本自動摘要將文本視為句子的線性序列,將句子視為詞的線性序列。它通常分4步進行:(1)計算詞的權值;(2)計算句子的權值;(3)對原文中的所有句子按權值高低降序排列,權值最高的若干句子被確定為文摘句;(4)將所有文摘句按照它們在原文中的出現順序輸出。在自動摘錄中,計算詞權、句權、選擇文摘句的依據是文本的六種形式特征。

1文本的四種形式特征

(1)詞的頻度:能夠指示文章主題的所謂有效詞(Significant Words),往往是中頻詞。根據句子中有效詞的個數可以計算句子的權值,這是Luhn首先提出的自動摘錄方法的基本依據。V.A.Oswald主張句子的權值應按其所含代表性“詞串”的數量來計算,而Doyle則重視共現頻度最高的“詞對”。美國IBM公司在1960年前后研制了一套文摘自動生產程序ACSI2Matic,該程序在句權的計算方面對Luhn的方法進行了改進。

(2)標題信息:標題是作者給出的提示文章內容的短語,借助停用詞詞表(Stoplist),在標題或小標題中剔除功能詞或只具有一般意義的名詞,剩下的詞和原文內容往往有緊密的聯系,可以作為有效詞。

(3)位置:美國的P.E.Baxendale的調查結果顯示:段落的論題是段落首句的概率為85%,是段落末句的概率為7%。因此,有必要提高處于特殊位置的句子的權值。

(4)句法結構:句式與句子的重要性之間存在著某種聯系,比如文摘中的句子大多是陳述句,而疑問句、感嘆句等則不宜進入文摘。

2主題詞評價

本文針對WEB文檔的結構化特征,在進行主題詞選取時根據文檔中詞頻的出現位置出現的頻繁程度來評價詞的重要性,并以此給出詞的權重,賦予重要詞匯權重,并設計出計算權重系數公式。下面是具體的主題詞選取和評價過程:

3段落中句子權重評價

美國的P.E.Baxendale的研究結果顯示:人工摘要中的句子為段首句的比例為85%,段尾句的比例為7%。美國康奈爾大學G.Salton提出了尋找文章的中心段落為文摘核心的思想。我們觀察表明:除了論題句、段首、段尾等句子之外,段落的第二句常常表示段落的主題。而Mead數據中心的自動摘要系統Searchable Lead,只是簡單的摘錄文件中的前60、150或250個英文詞匯,便達到了90%以上的可接受度(Brandow, et al.,1995)。

4摘要算法分析及改進

4.1 Luhn算法

Luhn在1965年提出了一種基于文章表面級特征的經典的摘要算法,這種算法的核心思想是為文章中的每一個句子賦予一個意義值,那些具有最大意義值的句子將會被抽取出來作為摘要,其中句子的意義值是通過句中意義詞的個數計算得到的。Luhn 認為意義詞應該是文章中的“中”頻詞集。高頻詞區域中的詞多是一些過于普通的詞,沒有什么區分能力,這些無用詞可以通過停用詞表的構造得以消除。

4.2 LSA算法

LSA是建立在奇異值分解(Singlue value decomposition,SVD)之上。SVD是一個矩陣分解技術,已經被人們大量應用到文本集上。給定一個m*n 的矩陣,A = [A1,A2,…An],每一列Ai 表示目標文檔中一個句子的詞頻向量,SVD可以表示為:

A = V U A (T)

其中U = [uij] 是一個m?的列標準化正交矩陣,它的每一列被稱為左奇異向量;∑=diag( 1,2,…,n)是一個n?對角矩陣,其對角線上的元素是按降序排列的非負奇異值;

LSA算法描述:

(1)輸入WEB文檔,并對其進行解析,解析出文本字段;

(2)進行分詞處理,并消除停用詞;

(3)主題詞選擇;

(4)根據主題詞建立句子詞項矩陣,進行奇異值分解;

(5)建立索引矩陣,根據索引矩陣建立句子摘要;

(6)輸出摘要。

LSA能夠通過從語義上對詞和句子進行聚類來捕捉并建模詞語之間的關系,另外,LSA能夠捕獲文章用來表示特定概念和主題的那些顯著的、不斷重現的詞的組合模式。

參考文獻

[1] 劉挺,吳巖,王開鑄.基于信息抽取和文本生成的自動文摘系統設計[J].情報學報,1997,16(增刊):24-29.

[2] 陳燕敏,王曉龍等.一種基于文章主題和內容的摘要方法[J].計算機工程與應用,2004,40(33):11-15.

主站蜘蛛池模板: 国产一区二区免费播放| 欧美日韩在线成人| 亚洲香蕉久久| 国产精品亚洲一区二区三区z| 久久99国产综合精品1| 丁香六月激情综合| 亚洲人在线| 日韩福利在线视频| 国产主播在线一区| 亚欧乱色视频网站大全| 亚洲免费黄色网| 尤物成AV人片在线观看| 亚洲欧州色色免费AV| 亚洲无码视频图片| 亚洲欧美在线看片AI| 欧美视频在线不卡| 国产精品嫩草影院视频| 免费在线观看av| 成年免费在线观看| 小说区 亚洲 自拍 另类| 91亚洲精选| 熟妇人妻无乱码中文字幕真矢织江| 国产波多野结衣中文在线播放| 特级aaaaaaaaa毛片免费视频| 国产精品亚洲片在线va| 国产精品毛片一区视频播| 亚洲人成在线精品| yjizz视频最新网站在线| 国产日韩欧美黄色片免费观看| 精品国产福利在线| 日韩在线播放欧美字幕| AV片亚洲国产男人的天堂| 深夜福利视频一区二区| 国产丰满大乳无码免费播放| 精品免费在线视频| 三级国产在线观看| 免费高清自慰一区二区三区| 久久精品国产91久久综合麻豆自制| 国产激爽爽爽大片在线观看| 精品三级网站| 青青青草国产| 免费欧美一级| 人人爽人人爽人人片| 久久久久人妻一区精品| 国产91熟女高潮一区二区| 精品国产免费观看一区| 一个色综合久久| 国产色网站| 亚洲网综合| 成人免费黄色小视频| 国产呦视频免费视频在线观看 | 伊人久热这里只有精品视频99| 亚洲色成人www在线观看| 亚洲人成网站色7799在线播放| 国产尹人香蕉综合在线电影 | 99久久99视频| 国产欧美日韩18| 中文字幕永久在线看| 国产精品任我爽爆在线播放6080| 亚洲首页在线观看| 国产精品久线在线观看| 99国产在线视频| 精品久久高清| 国产综合另类小说色区色噜噜| 91色在线视频| 欧美一级夜夜爽www| 免费毛片a| 极品国产一区二区三区| 手机成人午夜在线视频| 国产精品免费久久久久影院无码| 制服丝袜一区二区三区在线| 中文字幕有乳无码| 欧美精品在线观看视频| 国产a网站| 99在线免费播放| 污污网站在线观看| 成人一级黄色毛片| 久久伊伊香蕉综合精品| 久久99久久无码毛片一区二区| 国产精品浪潮Av| 99青青青精品视频在线| 国产精品手机视频一区二区|