999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多文檔自動文摘綜述

2016-07-13 07:58:07劉柏清
大科技 2016年36期
關鍵詞:文本信息方法

劉柏清

(河南省平頂山市魯山縣第一高級中學 467300)

多文檔自動文摘綜述

劉柏清

(河南省平頂山市魯山縣第一高級中學 467300)

隨著社會發展進入信息時代,海量信息的到來,自動文摘技術的誕生和發展為人們進行文獻處理提供了便利。本文主要介紹了自動文摘技術的誕生背景及多文檔自動文摘的定義,并就目前主要的多文檔自動文摘技術方法做了介紹和簡要分析。

多文檔自動文摘;自然語言處理;情報科學

當今信息時代的一大特點是信息爆炸,信息數量呈現指數級增長趨勢,但是噪聲和冗余信息也相應的增多。為了獲取有用的信息,對信息的進一步加工處理就尤為重要。如何讓用戶直接獲取同一主題下經過提煉和濃縮并能全面概括該主題下各方面主要信息的簡要信息,多文檔摘要成為解決這一困境的方法之一。

1 多文檔文摘的定義

多文檔集合是同一主題下不同文檔的集合,各文檔包含的信息雖然與主題相關但并不相同,其中也具有較多的重復信息和冗余信息。以多文檔集合為處理對象的自動文摘技術稱為多文檔自動文摘。其目的是將多文檔集合中重復和冗余的信息進行合理的凝練、整合和抽取,生成一篇能充分表達該主題的文摘,以方便用戶快速準確地獲取該文檔集合表達的主題信息。

相比較而言,多文檔集合的冗余信息更多,句子的時序和邏輯矛盾甚至是相反信息的處理更為復雜。但與單文檔自動文摘相似,多文檔自動文摘也需要對文本進行分析和理解。因此,可以利用單文檔自動文摘的方法對多文檔集合進行初步的聚類處理,然后將多文檔集合作為一個文本根據文本的形式特征,如詞頻、標題、位置、句法結構、提示詞、指示性短語等,抽取文本單元。換句話說,多文檔摘要技術可以看作是單文檔文摘技術的擴展。

2 研究現狀

多文檔自動文摘方法的研究最早在20世紀80年代開始,國內外相關的研究不勝枚舉,但基本沿襲了單文檔自動文摘,經歷幾十年的研究,按照摘要的生成方式大致可以分為以下兩類:

(1)抽取式,即摘要中的內容都是從原文中直接抽取現成的句子。此類方式下常用的方法有兩種:基于統計的自動文摘和基于結構的自動文摘。①基于統計的自動文摘此方法也稱自動摘錄,其核心思想是以處理線性序列的方式處理文本,即將文本視為句子的線性序列,將句子視為詞的線性序列。在處理過程中,首先對輸入到計算機的原始文本進行詞頻統計,并根據詞頻賦予詞一定的權重。然后根據句子中包含的詞的情況計算句子的權重。在確定句子的權重之后,對所有句子按照權值高低降序排列,選取權值較高的若干句子作為文摘句輸出,形成文摘;②基于結構的自動文摘又稱基于多文檔集合特征的自動文摘方法,即將多文檔集合作為一個整體進行研究,將其視為多文檔集合中句子的關聯網絡,按照句義進行聚類,然后從中抽取文摘句。

(2)生成式,即摘要中的內容并非全部來自原文,也包括原文中沒有出現的詞或句子。生成式的方法對自然語言處理技術要求非常高,此類方式下,目前常用的方法有兩種:基于理解的自動文摘和基于信息抽取的自動文摘。①基于理解的自動文摘是以自然語言處理技術為核心,借助一定的分析工具和方法,在對文本進行語法結構分析的同時,結合背景領域知識,通過一定的推理判斷,得到文摘句的語義描述,根據語義描述自動生成摘要。其中,最重要的環節包括語法分析、語義分析和句法分析,這種方法采用了復雜的自然語言理解和生成技術,對文獻意義把握更準確,因此生成的摘要更接近人工處理的摘要水平,質量較好,具有簡潔精練、全面準確、可讀性強等優點。但該方法需要對文章進行全面的分析,生成詳盡的語義表達,還需要事先表達和組織各種背景、領域知識,這對于大規模真實文本處理來說難度巨大。因此,目前這種方法的應用領域十分局限;②基于信息抽取的自動文摘是將自然語言處理技術與信息抽取技術結合,并基于人工制定的模板而實現的,相比于單純基于自然語言理解的自動文摘技術,基于信息抽取的自動文摘方法只需要對部分文本進行有限深度的分析,具有較高的效率和更強的靈活性。但是人工制定模板需要較大的人力,并且不易更新,僅適用于特定領域,不宜推廣,且利用模板生成的文摘語言千篇一律,十分呆板。目前該方法的發展方向是融合單文檔自動文摘技術,研究自動獲取模板的方法,但是這要求計算機進行較多的語料學習,且可以預見到該方法最終生成的文摘會存在較多的語法問題。

3 總結

從紛繁復雜的信息中提煉出有用的信息是一項極富挑戰性的工作。盡管單文檔文摘的研究已經進行了幾十年,但多文檔自動文摘技術目前還是一個相對較新的研究領域,對于該技術的研究,無論是對于文獻處理,還是搜索技術的發展,都具有重要意義。目前,學界主要的研究精力集中于對已有方法的細化和改進。但是也應看到,“自動文摘的研究是跨學科領域的,它的誕生源于情報科學發展的需要,它的發展受到語言學、人工智能、數學和邏輯學的影響。”多文檔自動文摘脫胎于自動文摘技術,因此與各學科的發展進步密不可分。而多文檔自動文摘技術的進步也將反哺各學科的發展。

[1]馬慧芳,祁云平,楊小東.一種基于文本關系圖的多文檔自動摘要技術[J].情報雜志,2007,26(3):67~69.

[2]劉德喜,何炎祥,姬東鴻,等.一種基于演化算法進行句子抽取的多文檔自動摘要系統 SBGA[J].中文信息學報,2006,20(6):48~55.

[3]程娟.中文文檔自動摘要技術[D].山東大學,2006.

[4]秦 兵,劉 挺,李 生.多文檔自動文摘綜述[J].中文信息學報,2005,19(6):15~22,58.

[5]曹 洋,成 穎,裴 雷.基于機器學習的自動文摘研究綜述[J].圖書情報工作,2014,58(18):122~130.

TP391.1

A

1004-7344(2016)36-0268-01

2016-11-20

劉柏清(1999-),漢族,魯山一高高三學生,學習成績優異,愛好鉆研理工科類課題。

猜你喜歡
文本信息方法
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 精品無碼一區在線觀看 | 夜夜操狠狠操| 国产欧美日韩综合在线第一| 在线观看精品国产入口| 午夜福利亚洲精品| 国产乱肥老妇精品视频| 国产精欧美一区二区三区| 强奷白丝美女在线观看| 狠狠v日韩v欧美v| 国产十八禁在线观看免费| 9啪在线视频| 超碰免费91| 久久国产精品影院| 国产免费羞羞视频| aa级毛片毛片免费观看久| 日本欧美中文字幕精品亚洲| 久久精品这里只有国产中文精品| 9久久伊人精品综合| 67194亚洲无码| 国产夜色视频| 激情無極限的亚洲一区免费| 999在线免费视频| 久草视频精品| 国产在线精品人成导航| 中文字幕在线视频免费| 91成人在线免费观看| 亚洲性视频网站| 免费人成视网站在线不卡| 欧美特黄一级大黄录像| 中文字幕佐山爱一区二区免费| 久久精品人人做人人爽电影蜜月| jizz亚洲高清在线观看| 亚洲天堂首页| 日韩国产黄色网站| 久久国产乱子| 中文字幕在线欧美| 国产永久免费视频m3u8| 亚洲自偷自拍另类小说| 亚洲男人天堂2018| 国产精品播放| 国产精品亚洲精品爽爽| 黄色国产在线| 国产成人AV男人的天堂| 97亚洲色综久久精品| 国内精品免费| 亚洲国产日韩在线成人蜜芽| 国产免费福利网站| 国产高清精品在线91| 欧美成人手机在线观看网址| 黑色丝袜高跟国产在线91| 免费国产高清精品一区在线| 亚洲综合极品香蕉久久网| 色网在线视频| 亚洲中文字幕无码爆乳| 亚洲精品国产乱码不卡| 亚洲国产天堂在线观看| 91精品小视频| 国产精品私拍在线爆乳| 欧美三级自拍| 国产微拍精品| 亚洲国产精品日韩av专区| 色综合a怡红院怡红院首页| 91久久偷偷做嫩草影院精品| 国产在线观看精品| 午夜福利免费视频| 思思99思思久久最新精品| 偷拍久久网| 尤物在线观看乱码| 欧美另类精品一区二区三区| 另类欧美日韩| 3p叠罗汉国产精品久久| 国产成人综合亚洲网址| 视频一本大道香蕉久在线播放 | 26uuu国产精品视频| 亚洲日本一本dvd高清| 毛片在线播放网址| 老司机午夜精品网站在线观看| 免费视频在线2021入口| 青青草原国产一区二区| 伊人天堂网| 午夜福利视频一区| 久久semm亚洲国产|