999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于英文網頁描述性信息的摘要算法

2015-11-07 08:26:06郭培勝
中國科技信息 2015年23期
關鍵詞:排序信息方法

郭培勝 張 燕

一種基于英文網頁描述性信息的摘要算法

郭培勝 張 燕

本文給出了一種基于英文網頁的描述性信息(context)的摘要算法。該算法改進了提取描述性信息的方法,用HtmlParser工具提取所有符合條件的描述性信息。對描述性信息集進行預處理后,討論了如何解決描述性信息集的相關性問題,并通過實驗結果對比分析了本摘要算法中混合法和聚類法的性能。

網頁自動摘要技術是利用計算機從網頁的文本中抽取句子或利用網頁的特點得到網頁內容的縮減版本,據此預先了解網頁的內容,并判斷是否有必要瀏覽網頁全文從而節省瀏覽時間的一門技術。本文第一部分描述描述性信息獲取和預處理技術,第二部分詳細介紹該摘要算法,第三部分對實驗結果進行分析,最后第四部分是結論。

獲取描述性信息及預處理

網頁來源是通過在搜索引擎工具(如Google)的搜索框中搜索得到的,得到源網頁之后,采用HtmlParser工具和eclipse編程軟件,先匹配目標網址,找到其所在的節點,然后得到其父節點的內容,也即得到了描述性信息。但描述性信息集里還是有大量的噪聲。所以首先去掉換行,去掉多余的空格等,作為預處理的第一步。并依次通過去重、去掉只包含了目標網頁的標題和網址、考慮描述性信息的大小原則和停用詞原則,得到經預處理后的描述性信息集。

算法

經預處理后得到的描述性信息集可能存在如下兩個問題:

1.得到的描述性信息部分地概括了網頁的內容,即片面性問題;

2.得到的描述性信息與網頁相關,但是沒有概括網頁的內容,即相關性問題。

本文主要研究相關性問題。

在描述性信息集中,定義一個描述性信息為相關描述性信息(reference context),定義描述性信息集D 中描述性信息S 的話題度為T( S, D)。

下面是解決相關性問題的兩種算法。

混合法

描述性信息S 與文本C中句子的話題相關度能用廣義滿意度來衡量,如公式(1):

混合摘要算法如下:

計算描述性信息S與目標文本中句子的話題相關度。根據1)的結果對描述性信息排序;

選擇具有最高的話題相關度權值的描述性信息作為摘要。

聚類法

當目標文本的文字信息太少時,不適合用目標網頁的文本作為輸入信息,也不適合采用算法一來找出最能描述網頁內容的描述性信息。這里選擇層次聚類算法。

首先選擇一個相似函數,相似度量用經典的余弦相似度。讓S1和S2分別由向量〈w1i,...,wi

N〉和〈w1k,...,wNk〉代表。相似度值公式(2)如下:

設定摘要的最大長度為l ,描述性信息集為:S={Si}i=1..N。

以下是聚類法的步驟。

指定每個句子的類,定義每兩個類{Si}和{Sk}的相似度Sim( Si, Sk)。找出最接近的兩個類并合并,這樣使總的類數減一。計算每一個舊類和新類的相似度。這里把兩個類的描述性信息之間的相似度值求平均作為兩個類的相似度值。

圖1 改進后的混合法與改進前的混合法的相似度值比較

圖2 改進后的聚類法與改進前的聚類法的相似度值比較

反復步驟2)和步驟3),直到所有類都聚為大小為N的一個類,或者最相似的兩個類之間的相似值小于給定門限α(0≤α≤1)。

去除只有一個元素的類。

根據類所包含的描述性信息的個數來降序排列類,得到{C1,...,Cp}。

對每個類Ci運用排序函數f。這里采用基于網頁內容的摘要算法的Lexrank算法來對同一類的描述性信息進行排序,找出權值最高的描述性信息作為摘要。

當i〈min(l, p)時,認為Ci是排序函數f 的最大值。

實驗結果分析

下面分析摘要算法中混合法和聚類法的性能。比較文獻中的未改進的混合法與本文的混合法的結果,主要比較兩種算法與理想摘要的相似度,該相似度用計算單詞頻率和余弦相似度來完成,比較結果見圖1。

通過圖1可以看出,與改進前的方法相比,改進后的混合法與理想摘要的相似度值更高,說明改進后的方法生成的摘要更接近理想摘要。也證實了改進后的混合法中用HtmlParser工具得到更多的質量較高的描述性信息集的必要性。

比較文獻中的未改進的聚類法與本文的聚類法的結果,方法同上,比較結果見圖2。其中未改進的聚類法的排序函數采用平均TF-ISF方法。

通過圖2可以看出,與改進前的方法相比,改進后的聚類法與理想摘要的相似度值更高,說明改進后的方法生成的摘要更接近理想摘要。同圖1一樣,證實了改進后的聚類法中用HtmlParser工具得到更多的質量較高的描述性信息集的必要性,也反映了在處理相關性問題時采用Lexrank方法比采用平均TF-ISF方法能得到更好的描述網頁內容的描述性信息作為摘要。

結束語

本文提出了一種基于描述性信息的摘要算法。針對預處理后的描述性信息集存在的相關性問題,分別對傳統混合法和聚類法進行了改進,對比實驗結果表明改進后的方法生成的摘要更接近理想摘要,對網頁摘要算法研究有一定的參考價值。

10.3969/j.issn.1001-8972.2015.23.011

猜你喜歡
排序信息方法
排序不等式
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
可能是方法不對
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产欧美日韩va另类在线播放| 欧美一级在线看| 在线观看国产小视频| 91丝袜美腿高跟国产极品老师| 99re66精品视频在线观看| 影音先锋亚洲无码| 澳门av无码| 国产导航在线| 激情亚洲天堂| 久久激情影院| 亚洲国产理论片在线播放| 成人欧美日韩| 亚洲中文精品人人永久免费| 国产在线观看91精品| 久久综合伊人 六十路| 色屁屁一区二区三区视频国产| www.日韩三级| 国产精品女在线观看| 国内自拍久第一页| 午夜欧美理论2019理论| www.精品国产| 国产综合日韩另类一区二区| 99视频在线免费| 91色综合综合热五月激情| 日韩欧美国产三级| 高潮毛片无遮挡高清视频播放| 亚洲国产在一区二区三区| 四虎永久免费地址在线网站| 国产日韩欧美在线播放| 国产xxxxx免费视频| 天天躁夜夜躁狠狠躁躁88| 99人妻碰碰碰久久久久禁片| 欧洲欧美人成免费全部视频| 成人一级免费视频| 视频国产精品丝袜第一页 | 国产亚洲成AⅤ人片在线观看| 国产精品粉嫩| 97无码免费人妻超级碰碰碰| 亚洲免费福利视频| 亚洲性视频网站| 在线a视频免费观看| 国产jizzjizz视频| 色婷婷天天综合在线| 97精品久久久大香线焦| 色婷婷在线影院| 少妇精品在线| 日韩黄色大片免费看| 天天干天天色综合网| 日韩无码精品人妻| 亚洲第一福利视频导航| 日韩a级毛片| 亚洲自偷自拍另类小说| 色婷婷丁香| 在线观看欧美国产| 久久永久精品免费视频| 幺女国产一级毛片| 国产色偷丝袜婷婷无码麻豆制服| 久久成人国产精品免费软件| 亚洲国产午夜精华无码福利| 亚洲水蜜桃久久综合网站| 最新国产你懂的在线网址| 中文字幕在线观| 日韩毛片在线播放| 欧美中文字幕在线视频| 亚洲成人精品在线| 久久a级片| 在线视频精品一区| 一级全免费视频播放| 国产三级毛片| 亚洲男人的天堂久久香蕉 | 中文无码日韩精品| 无码专区第一页| 欧美a在线看| 国产va在线观看免费| 99re视频在线| 亚洲国产中文欧美在线人成大黄瓜| 毛片在线播放网址| 国产精品va| 欧美影院久久| 国产亚洲男人的天堂在线观看| 亚洲国产精品无码AV| 高潮毛片免费观看|