999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于主題劃分及TF-IDF 的文本摘要提取方法*

2022-09-28 01:40:32朱小虎周艷平陳顯利
計算機與數字工程 2022年8期
關鍵詞:文本實驗方法

朱小虎 周艷平 姜 濤 陳顯利

(青島科技大學信息科學技術學院 青島 266061)

1 引言

隨著社會發展和技術進步,人們的日常生活和互聯網技術越來越密切,每天產生海量的信息[1]。一些文本信息篇幅較長,長篇文章的敘述會導致用戶閱讀理解效率低下[2]。在問答系統中,答案過于冗長[3]會大大降低答案質量,影響用戶體驗[4~5]。如何從文本信息中提取摘要信息,使人們在短時間內快速了解文本核心內容[6]是自然語言處理領域中一個極為重要的課題[7]。

文本摘要提取技術興起于20 世紀50 年代,最初是依靠統計學為基礎,依據詞頻、位置等信息為格式較為規范的文章生成摘要[8~9]。隨著機器學習在自然語言處理方面的應用,20世紀90年代開始,文本摘要提取融入了人工智能的元素[10~11]。近些年,隨著深度學習的流行,文本摘要提取與深度學習結合[12~13]也取得了一定的進展。文本摘要提取根據生成方式不同,分為抽取式和生成式[14~15],根據處理文檔的數量不同,分為單文本提取和多文本提?。?6]。

研究發現,文本信息中的文本內容大多包含多個主題,傳統的文本摘要提取方法忽視了各個主題的作用[17],不僅導致摘要提取結果不全面,也造成了算法發揮效果不好。本文針對這一問題,借鑒英文文本摘要提取方法、TF-IDF 算法[18]和大量的對比實驗,提出一種中文的段落摘要提取方法。該方法首先對依據段落表達的主題進行分割,其次對分割的段落提取中心思想,最后將中心思想連貫成摘要,進而表達整個段落的完整意思。該方法不僅能解決傳統摘要提取算法中對主題類別區別不強的缺點,還能有效提升摘要提取的結果質量。

2 文本主題劃分

在日常接觸的文章當中,我們取出其中的一段,此段落往往表達了一個中心思想,而這個中心思想往往由許多片段的主題思想結合而成,片段的主題思想又由中文的漢字、詞語等合成。一般來說同一主題中的段落關聯性高,而不同主題的段落關聯性相對較低。因此將關聯性強的段落劃分到同一個主題中,更容易抓住文本主題,提高文本包含的信息質量。

傳統的主題劃分是統計兩個段落所含的特征詞的共現次數多少,共現次數越多說明這兩個段落具有較高的重復性和關聯度,甚至可以認定表達同樣的中心思想。但在實驗中發現,不僅共現詞能作為兩個句子表達意思的依據,核心重點詞匯也能表達兩個句子之間的關聯性。

一個段落中現有兩個句子:D1=“疫情期間,學生參加學校組織的線上課程學習和考試”。D2=“老師制定相應的教學計劃,確定學生考核要求”。D1、D2均出現詞語“學生”,但實際上D1、D2表達的是與“教學”有關的話題,D1、D2 中的詞語“考核”、“教學”之間具有關聯,為了直觀了解文本各個段落之間的聯系性和相關性,對全文所有段落與其他所有段落進行段落相似度計算,然后以矩陣的形式列出文本每個段落之間的相似度,通過評價機制對段落矩陣表進行分析,從而達到段落劃分的目的。

假設文本共有m 段,記為D1,D2,…,Dm,每段提取特征詞有n個,記為T1,T2,…,Tn,用Word2vec[19]將特征詞轉換為詞向量,計算兩個特征詞之間的相似度S(Ti,Tj),兩個段落所有特征詞相似度計算后,將其平均值作為兩個段落之間的相似度Sim(D1,D2),計算公示如下:

通過計算段落之間的相似度,即可得到相似度矩陣,矩陣中第i 行第j 列上的值代表Sim(Di,Dj),每個段落與自身的相似度為1。通過計算百度百科中一篇文獻所構成的段落的相似度得到相似度矩陣,如表1所示。

表1 段落之間相似度矩陣表

從表1 中可以分析出,D1 與D2 的相似度為0.97,D1 與其他段落的相似度較低,所以D1、D2 劃分為同一個主題。D3 與D4、D5、D6 的相似度比較高,與其他段落的相似度較低,因此D3、D4、D5、D6劃分為同一個主題。同理D7、D8、D9 劃分為同一個主題。經過與原文意思對照,此劃分方法準確。

通過矩陣表中的相似度情況能夠很容易地劃分出屬于統一主題的段落,因此可以通過該規律設計相應的算法來劃分段落,使同一主題的段落劃分在同一集合。不同主題的相鄰段落之間的相似度差值一般都較大,因此我們將相鄰段落的相似度做差來觀察其變化程度,公式如下:

其中di表示矩陣i行中相鄰段落之間相似度的差值,ri 表示矩陣i 行中差值絕對值的最大值。對前面例子中的文獻,根據式(2)兩兩相鄰段落計算差值后,每行最大差值作標記。計算結果如表2 所示。

表2 各行段落相似度差值結果

相似度的最大差值代表了段落之間聯系程度的變化,若差值大,如果變化明顯,兩個段落極大可能不是一個主題,如果變化不劇烈,說明兩個段落很大可能是一個主題。

據此提出三個主題劃分的原則:

1)相似度最大差值原則。從矩陣表中可以直觀的看出,D1、D2段落和D3段落的差值最大,因此把D3 段落作為主題劃分位置,從而把D1、D2 段落劃分到同一主題當中。

2)段落最多區分度原則。如果根據相似度最大差值原則會將D3~D6 分成D3、D4、D5~D6 三個主題,與原文不符。一般而言,同一主題的段落一般是連續的,因此可以依據段落的連續情況對主題進行劃分,如D3~D6連續段落,最大差值位置D7出現了3 次(D3、D5、D6),而D8 位置出現一次(D4),因此選擇區分度最多的位置D7段落為主題段落劃分位置,從而D3、D4、D5、D6 段落會被劃入一個主題中。

3)特殊結尾劃分原則。研究發現,一個段落作為一個主題的情況非常少,因此最后結尾劃分主題時,不能少于兩個段落,并且結尾段落最大差值不能低于前面段落劃分所有最大差值的最小值,例如D1~D6 的所有最大差值的最小值為0.37,而D7、D8、D9 的最大差值分別為0.08、0.14、0.00 都小于0.37,因此都不足以單獨成為主題,故將D7、D8、D9劃分為同一主題。

3 主題摘要提取

從實用性方面講,簡短的信息往往更容易被人接受。當我們對文本進行主題劃分后,有一定的幾率會發生多數段落同時存在于一個主題中的情況,因此,迫切需要一種方法將主體的中心句取出并作為摘要,其既能減少無效信息的擾亂、烘托出該主題的作用,又能使摘要通俗易懂、簡潔明了。通過計算得出不同主題中不同句子的權重,按照權重大小進行排序,找出主題句中的中心句并生成摘要是本文使用的TF-IDF算法的主要功能。

TF-IDF 實際上是TF(Term Frequency)×IDF(Inverse Document Frequency),假設某個詞語或者短句在一篇特定的文章中出現的頻率較高,但是在其他的文本中出現的頻率很低,那么我們就可以認為這個詞語或短句的類別區分能力很好、代表性很強,甚至能夠代表該文章,這就是TF-IDF的中心思想。計算公式如下:

TF 表示一個給定的詞語在整篇文章中的出現次數,其計算公式如下,其中cout(w)表示文章中詞條w 的出現次數,|Di|表示文章Di 中所有詞條的個數:

IDF 表示逆向文檔頻率,其計算公式如下,其中N 表示語料庫的文檔總數,I(w,Di)表示文檔Di是否包含關鍵詞,包含為1,不包含為0:

可想而知,當通過TF 進行詞頻統計,出現最多的是“的、在、是”這一類停留詞,因此我們在主題中的段落進行分詞操作之后,將停留詞和標點符號過濾去除,留下特征詞,再針對不同的詞語,分別計算TF-IDF 的結果,再對結果取平均值來表示當前句子在當前主題內的權重,計算公式如下:

其中n代表句子中詞語的個數,對得到的TS進行排序,優先選擇權重高的作為當前主題的中心句。

例如某一主題段落中有三個句子分別如下:

D1:疫情期間,學生參加學校組織的線上課程學習和考試。

D2:老師制定相應的教學計劃,確定學生考核要求。

D3:同學們要主動適應全新教學模式,積極配合任課老師。

三個句子依次用D1、D2、D3 表示,分別對三個句子進行分詞、去標點符號、去停留詞操作,D1、D2、D變為:

D1:疫情期間學生參加學校組織線上課程學習考試

D2:老師制定教學計劃確定學生考核要求

D3:同學們主動適應全新教學模式積極配合任課老師

然后根據式(3)、(4)、(5)、(6)計算權重:

D1 權重最高,將選擇D1 對應的句子作為該主題的中心句,因此將其作為文本主題摘要。

在實際抽取中心句的過程中,主題劃分之后的各個主題段落包含句子數量各不相等,包含一個至兩個句子的可以直接將所有句子作為當前主題的摘要,包含三個及以上的句子,提取多少中心句作為摘要是一個需要解決的問題。經過人工實驗經驗,選取閾值σ=0.05,當句子TS 值大于等于σ,提取當前句子為中心句,當句子TS 值小于σ,舍棄當前句子。最后將每個主題段落提取的中心句合并成為當前主題的摘要,再將文本各個主題段落的摘要組合形成文本摘要。

4 基于主題劃分及TF-IDF 的文本摘要提取方法流程

根據前面的分析和設計,本文提出一種基于主題劃分及TF-IDF 的文本摘要提取方法(Text topic division and TD-IDF abstract extraction,TDTAE),該方法具體流程為

1)設待處理文本有m 個段落為D1,D2,…,Dm,將每個段落處理,保留特征詞。

2)為得到段落相似度矩陣表,首先將不同段落之間的特征詞進行相似度計算,可使用Word2vec方法,在依據上述式(1)計算獲得不同段落的相似度值。

3)最大差值按照式(2)將每行兩個相鄰的段落帶入來計算。

4)根據上述所闡述的主題劃分思想,按照順序選擇出不同段落的主題。

5)根據式(3)、(4)、(5)、(6)計算每個主題段落中句子的TS值。

6)若句子數量小于等于2,則選取全部句子作為當前主題摘要,句子數量大于2,則根據閾值σ來選取中心句作為主題摘要。

7)將文本所有主題摘要按順序合成文本摘要。

5 仿真實驗及結果分析

文本摘要抽取分為兩個實驗,選取不同數據集進行測試,并和傳統文本摘要處理方法對比。

1)實驗1

從知網中抽取400 篇不同領域的論文,構建知網論文數據集,使用本節提出方法提取正文摘要,并與論文摘要進行cos 余弦相似度計算,余弦值大于0.6的記為提取的摘要合格。該實驗使用“結巴”進行分詞處理,使用Word2vec 訓練詞向量模型,使用準確率(Precision)、召回率(Recall)和F值(F-Measure)三個指標來評估本章算法的性能。

其中TrueResultRow為返回結果中屬于文本摘要內容的行數,ResultRow為算法返回結果的總行數,TextRow為文章摘要的總行數,將本文提出的基于文本主題劃分與TD-IDF的文本摘要抽取方法(TDTAE)與TF-IDF 提取方法、TextRank 提取方法進行實驗對比,實驗結果見表3。

表3 TDTAE與TF-IDF、TextRank對比結果

通過表3 可以看出,在知網論文數據集摘要抽取方面,TDTAE方法相比TF-IDF、TextRank方法準確率召回率都有提高,這說明TDTAE 方法是可行有效的。

2)實驗2

此部分實驗采用DUC 數據集及其摘要評價方法來相對客觀、真實、有說服力的突出TDTAE 方法的可靠性、高效性、準確性等性能優勢,其采用Rouge-N 和Rouge-L 方法作為內部評價指標,該評價方法是國際通用且相對客觀的評價方法。從維基百科的英文語料庫中選取本實驗所要用到的Word2vec 詞向量模型,Word2vec 模型占用約1.26G的存儲空間,為從多方面突出TDTAE 方法的性能,將其與MDT方法進行實驗對比,實驗結果見表4。

從表4 可以得出結論,TDTAE 方法與MDT 方法相比,其他因素相同的條件下,TDTAE 方法在任務Rouge2、Rouge3、Rouge4 中得到的結果更優,這也從側面反映出由TDTAE 方法生成的摘要與文獻中真正的摘要在詞順序和結構上相似性更好、一致性更強,因此得到的語句可讀性更強,更加易懂、通俗、順暢。盡管準確率、F 值這兩個指標在Rouge1、RougeL 兩個通道中TDTAE 方法要稍微遜色于MDT方法,但是顯而易見,表中TDTAE方法的召回率數據更優于MDT 方法,因此我們可以就重避輕,盡可能地去放大其優點、弱化其缺點,更多地去注意獲取文本主題的中心內容。段落之間的關聯、依賴關系是導致TDTAE 方法產生這一性質的主要因素。

表4 TDTAE與MDT對比結果

6 結語

本文提出一種基于文本主題劃分及TF-IDF的單文本抽取式摘要提取方法,該算法無論是在知網論文數據集還是在DUC 公共數據集中準確率、召回率、F 值均比傳統算法要好,并且該方法適用范圍廣。后續研究中,將進一步簡化該方法的計算復雜度,提升算法效率。

猜你喜歡
文本實驗方法
記一次有趣的實驗
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久久a级片| 亚洲中文字幕97久久精品少妇| 亚瑟天堂久久一区二区影院| 91无码人妻精品一区| 婷婷综合缴情亚洲五月伊| 日日碰狠狠添天天爽| 亚洲日本在线免费观看| 91破解版在线亚洲| 久久精品最新免费国产成人| 2020亚洲精品无码| 中国毛片网| 国产亚洲精| 波多野结衣无码AV在线| 91av国产在线| 久久人搡人人玩人妻精品| 中国特黄美女一级视频| 国产欧美性爱网| 亚洲h视频在线| 亚洲第七页| 无码综合天天久久综合网| 亚洲中文字幕手机在线第一页| 亚洲无码视频一区二区三区 | 午夜在线不卡| 91精品专区国产盗摄| 91青青视频| 日本午夜视频在线观看| 97se亚洲综合不卡| 亚洲狠狠婷婷综合久久久久| 人妻少妇乱子伦精品无码专区毛片| 午夜免费视频网站| 毛片网站观看| 手机在线国产精品| 中文字幕亚洲电影| 综合色88| 亚洲精品第五页| 一级看片免费视频| 国产亚洲精品资源在线26u| 中国毛片网| 乱人伦视频中文字幕在线| 在线观看欧美国产| 国产亚洲精品va在线| 一本无码在线观看| 欧美天天干| 久久久久久尹人网香蕉| 在线观看欧美国产| 日韩人妻少妇一区二区| 国产精品自在拍首页视频8| 国产区在线看| 国产成本人片免费a∨短片| 欧美yw精品日本国产精品| 亚洲不卡影院| 亚洲综合欧美在线一区在线播放| 国产精品无码一二三视频| 五月婷婷综合在线视频| a级毛片免费在线观看| 国产福利在线免费| 国产区成人精品视频| 波多野结衣中文字幕久久| 久久99精品久久久大学生| 久久这里只有精品8| 久久99久久无码毛片一区二区| 国产va在线| 亚洲视频四区| 无套av在线| 国产在线八区| 成人一区在线| 欧美精品一区二区三区中文字幕| 美女扒开下面流白浆在线试听| 欧美日韩中文字幕二区三区| 国产精品播放| 成人中文字幕在线| 精品91在线| 青青草原国产一区二区| 国产高清不卡视频| 亚洲不卡网| 美女视频黄又黄又免费高清| 99视频有精品视频免费观看| 欧美日韩精品一区二区在线线| 在线免费观看AV| 在线播放真实国产乱子伦| 色窝窝免费一区二区三区 | 麻豆国产原创视频在线播放|