999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡的文本標題生成原型系統設計

2021-05-12 13:47:24張仕森孫憲坤李世璽
電子科技 2021年5期
關鍵詞:語義文本模型

張仕森,孫憲坤,尹 玲,李世璽

(上海工程技術大學 電子電氣工程學院,上海 201620)

隨著近幾年互聯網的發展,網絡中的文本信息資源的數量呈現指數級增長。根據中國互聯網協會發布的《中國互聯網發展報告2019》,截至2018年底,我國網頁總數量已達到2 816億,這些網頁中所包含的信息覆蓋了社會生活的各個領域。然而這其中也包含了海量不規范的文本信息,例如市場上眾多移動客戶端中自媒體文章的“標題黨”,以及互聯網中大量無標題的評論、微博等,這些不規范的文本信息給人們帶來了巨大的信息過載壓力。為這些不規范的文本信息生成一條簡潔、切合原文表達的標題可以緩解信息過載壓力,提高工作效率并為相關部門監察社會輿論提供幫助。

實際工作中采用傳統的人工總結編寫標題的方式在耗費大量時間、人力成本的同時難以應對每天產生的海量不規范文本。標題生成是以文本內容作為輸入,以標題作為輸出的一種文本摘要任務的變體,因此通過標題生成技術可以高效、經濟地解決這一問題。

文獻[1]通過詞頻、逆序文本頻率等文本特征來計算文章中每一個句子作為摘要的概率,研發出一種基于貝葉斯分類模型的自動文本摘要系統DimSim。但在自然語言中,特征與特征之間并不是相互獨立的,而是存在某些內部聯系,因此文獻[2]使用決策樹替換樸素貝葉斯分類器來構造新的摘要系統。文獻[3]在谷歌公司提出PageRank[4]算法的基礎上提出了TextRank算法來實現文本摘要的生成。這些方法都是通過判斷原始文本中各個單詞或句子的重要程度,對原文中語句進行重新排序,按照重要性的大小抽取原文中的語句來構成摘要的抽取式技術。抽取式技術實現簡單、快速,但是無法滿足人們對于生成摘要準確性和流暢性的要求。

隨著近年來深度學習技術的發展,對文本內容進行整體的全面總結凝練,然后生成摘要的生成式技術逐漸成為文本摘要任務的主流方法。抽取式技術僅僅是抽取原文中的語句來構成摘要,而生成式技術則更加符合人類的閱讀和思考習慣,生成出來的摘要也更符合人工撰寫摘要的規律。

文獻[5]在新聞標題生成任務中應用Seq2Seq(Sequence to Sequence)模型取得了良好的效果。文獻[6]在Seq2Seq模型的基礎上引入了注意力機制,完成了生成式的中文文本摘要生成。本文基于神經網絡和生成式技術對中文文本標題生成原型系統進行了設計與實現。

1 自然語言的文本表示

自然語言的文本表示是指由于計算機無法直接識別語言的符號文字[7],因此需要將這些符號文字轉換為文本向量這種計算機可以進行運算的數學表達形式。轉換之后得到的文本向量一般包含語言的語法、語義等重要特征[8]。自然語言處理技術經過長久的發展,形成了兩種最主要的文本表示方法:離散表示與分布式表示。

1.1 離散表示

在離散表示方法中,對于詞典中的每一個詞一般使用一個長度和詞典總詞數大小相同的離散高維向量來表示詞語。這個離散的高維向量中每一個元素都對應詞典中的某一個詞,其中只有一個元素的數值為1,其余均是0,元素為1的位置代表其對應詞在詞典中的位置。

利用離散向量的方式對文本進行表示的方法有兩個弊端[9]:(1)離散表示方法向量的維度隨著詞的數量增大而増大,具有超高的維度和極大的稀疏性,高維度和稀疏性會產生自然語言處理中的“維數災難”問題,占用較大的運算空間,增加了神經網絡的計算代價;(2)離散表示方法會導致任意兩個詞之間是相對獨立的,相當于給每個詞分配一個id,導致離散表示方式不能有效地表達詞與詞之間的語義關系,無法表示語言復雜的語義信息[10]。在一定程度上離散表示是假設了語義的單一性,即認為語義僅僅是一維的,然而實際上語義應該是多維的。例如對于詞語“家園”,有的人會聯想到“安全”、“溫馨”,有的人則會聯想到“地球”、“環境”。由于不同人對同一個詞的理解存在著較大的差異,因此僅通過給每個詞分配一個id很難將詞語放在合適的位置。此外,離散也無法衡量詞語的相似性,即使是同義詞在離散表示上也會被表示為完全不同的向量。

1.2 分布式表示

自然語言中的詞語并非是全部獨立的,例如“賓館”和“旅館”,“母?!焙汀按髮W”,它們具有一定的關聯性和相似性。離散表示將每一個詞看作一個完整獨立的個體,假設了語義的單一性,無法衡量詞語之間的相似性。為了解決傳統離散表示方法的這一缺點,文獻[11]提出了詞向量(Word Vector)的概念。詞向量又稱為詞嵌入(Word Embedding),是指用一種低維的、連續實值向量的形式來表示詞語[12]。通過用詞向量對詞語進行表示,可使每個詞語都變為詞典的N維向量空間中的一個點。詞向量可以有效解決傳統離散表示的“維數災難”問題。此外,不同詞語在N維向量空間對應的點與點之間有距離的遠近關系,從而可以通過計算對應點之間的距離得到詞與詞之間的語義關系。圖1展示的是部分中文詞向量空間示意圖。

圖1 部分詞向量空間示意圖

從圖1中可以看出,語義相關的詞在詞典向量空間中的相對位置較為接近,例如“健康”和“預防”、“需求”和“增加”等??梢钥闯觯鄬τ诩僭O語義單一性的離散表示,分布式表示可以有效地表達出詞與詞之間的聯系。

2 帶注意力機制的編碼器-解碼器標題生成網絡模型

標準的編碼器-解碼器標題生成網絡模型的結構[13]如圖2所示。其是將整個輸入序列編碼為一個固定大小的上下文語義向量c,之后用這個固定大小的向量進行解碼操作,即標題中每個輸出詞語yi的生成過程為

(1)

其中,f是解碼器Decoder的非線性變換函數。由式(1)可以看出,標準的序列到序列模型,在生成標題中每個輸出詞語yi時使用的上下文語義向量c都是相同的,即無論生成y1,y2,…,yn時,輸入文本中任意詞語對于某個輸出詞語yi來說影響力都是相同的。

圖2 編碼器-解碼器模型網絡結構圖

但在實際應用中,編碼器Encoder將整個輸入序列的信息壓縮到一個固定長度的向量會導致這個固定長度的上下文語義向量c無法有效表示輸入文本的全部信息,導致文本信息的丟失。

在標準的編碼器-解碼器標題生成網絡模型中引入注意力機制可以減輕上下文語義向量c所承擔的信息壓力。其具體操作為:使用根據當前生成詞而不斷變化的上下文向量ci來替換原來Encoder端固定長度的上下文語義向量c,并且在生成上下文向量ci的同時還會生成針對每個輸入的注意力權重參數ai。在解碼器端解碼時,隱藏層向量h′i不僅僅要與Encoder端編碼出來的上下文語義向量ci進行混合,還要與注意力權重參數ai進行混合,共同決定當前時刻的輸出。

雙向門控循環神經網絡可以對上下文同時進行建模計算[14],充分利用上下文語句之間的語義聯系,提高最終的文本生成效果。因此本文研究選取的模型在編碼階段采用了雙向長短期記憶神經網絡[15]進行編碼建模,在解碼階段則采用了單向長短期記憶神經網絡進行解碼操作。網絡結構如圖3所示。

圖3 帶注意力機制的編碼器-解碼器模型結構圖

圖3中注意力權重參數a′i及根據當前生成詞而不斷變化的上下文向量ci的計算如下

(2)

(3)

式(2)和式(3)中,hj是編碼過程中j時刻的LSTM神經網絡隱藏層向量,h′i是解碼過程中i時刻的LSTM神經網絡隱藏層向量;w是注意力權重矩陣。

此時標題中每個輸出詞語yi的生成過程變為式(4)。

(4)

在每個時間步,解碼器會根據當前解碼器的隱藏層向量來引導編碼器產生的上下文語義向量ci生成對應的輸出序列。因此在生成標題的每個詞語時,注意力機制將幫助生成模型選擇與此部分高度相關的原文信息,進而生成更貼合原文的相關標題。

最終結合注意力機制的編碼器-解碼器標題生成網絡模型標題生成詞的條件概率如式(5)所示。

(5)

3 標題生成原型系統的設計

3.1 標題生成原型系統的整體結構

標題生成原型系統主要由前端展示和后端算法兩部分組成,系統的整體結構如圖4所示。

圖4 標題生成系統的整體結構

其中前端展示模塊主要的作用是進行人機交互,即用戶輸入想得到標題的文本后,前端界面可以返回給用戶該文本在標題生成原型系統中生成的對應標題。后端算法部分則在接收到用戶輸入的原始文本后,對用戶的輸入文本進行分詞、文本向量化表示、標題生成等步驟,并將系統生成的標題傳遞給前端界面并展示給用戶。

3.2 標題生成原型系統的功能模塊

3.2.1 人機交互模塊

人機交互模塊在前端可視化界面中展示,主要用于負責接收用戶輸入的待生成標題的原始文本,并將接收到的輸入文本傳遞到后端進行處理,最后再將后端生成的標題展示在可視化界面中。

本文在人機交互模塊中使用Tkinter模塊來搭建標題生成系統的可視化界面。Tkinter模塊是Python的標準Tk-GUI工具包的接口,可以在Windows和大多數的Unix平臺下使用,從而解決了跨平臺的兼容性問題[16]。

3.2.2 分詞模塊

分詞模塊使用jieba開源分詞工具對輸入的文本進行分詞操作,作為后續的文本向量化模塊的預處理操作。

例如輸入文本:近年來,一些社會培訓機構擅自招收適齡兒童、少年,以“國學”“女德”教育等名義開展全日制教育、培訓,替代義務教育學校教育,導致相關適齡兒童、少年接受義務教育的權利和義務不能依法實現。對此,教育部印發《禁止妨礙義務教育實施的若干規定》。該文本經過分詞模塊后的輸出見表1。

表1 分詞模塊處理示例

3.2.3 文本向量化模塊

文本向量化模塊將分詞模塊的輸出文本通過詞向量模型轉變為計算機可以識別的向量表示,之后將經過向量化表示的文本信息傳遞進標題生成模塊進行最終的標題生成。

3.2.4 標題生成模塊

標題生成模塊基于上述模塊和帶注意力機制的編碼器-解碼器標題生成網絡來生成用戶輸入原始文本所對應的標題,并將生成結果傳遞回前端部分的人機交互模塊進行展示。

4 標題生成原型系統的實現

4.1 標題生成網絡模型的訓練

4.1.1 訓練數據的獲取

訓練標題生成任務的神經網絡模型需要文本-標題對結構的大規模高質量文本數據集?;诖?,本文研究主要使用了哈爾濱工業大學的LCSTS(Large Scale Chinese Short Text Summarization Dataset)[17]數據集。

LCSTS是一個大規模的中文短文本摘要數據集,其數據主要來源于一些具有影響力的機構或者媒體在新浪微博平臺上向公眾發布的信息。LCSTS的數據內容如圖5所示。

其中,human_label是志愿者對每條短文本與摘要的相關性程度的標注,從1~5,數字越大代表短文本與摘要的相關性越高;summary則是這些具有影響力的機構或者媒體在發布消息時所用的標題;short_text則是發布的消息內容。

圖5 LCSTS數據示例

LCSTS數據集共包含超過24萬條短文本摘要數據,其數據長度分布如圖6所示。

圖6 LCSTS數據長度分布箱形圖

由圖6可以看出,LCSTS數據集中多數short_text的長度大于100,與之對應summary的長度通常小于20,即可以使用summary的內容作為輸出標題,short_text的內容作為輸入文本進行模型訓練。

4.1.2 標題生成網絡的訓練參數設置

標題生成網絡模型的訓練環境主要為Intel CORE i7 9700,NVIDIA Tesla V100 32G TPU,Python3.6,Tensorflow1.4,Keras2.1.2,Numpy1.17,Pandas0.23,單次訓練耗時約8 h。實驗參數設置如表2所示。

表2 TGMCN模型訓練參數設置

4.2 原型系統的效果展示

標題生成原型系統的可視化界面主要包括以下幾部分:(1)用戶文本輸入框。用戶文本輸入框用于輸入待生成標題的原始文本;(2)標題生成結果框。標題生成結果框用于展示系統根據原始輸入文本而生成的標題;(3)標題生成按鈕。標題生成按鈕用于啟動生成系統;(4)清空界面按鈕。清空界面按鈕用于清空輸入的文本和系統輸出的標題。標題生成原型系統的可視化界面如圖7所示。

圖7 標題生成原型系統的可視化界面

如果用戶輸入的原始文本為空,則系統無法生成對應標題,此時系統進行彈窗,提醒用戶原始輸入文本不能為空,點擊“確定”按鈕回主界面重新進行輸入,如圖8所示。

圖8 輸入文本錯誤時的系統界面

當用戶輸入沒有錯誤的原始文本后,系統會調用后端算法模型來生成輸入文本對應的標題,并將生成結果展示在標題生成結果框中,如圖9所示。

圖9 生成結果展示

4.3 原型系統的性能評價

4.3.1 ROUGE評價指標

本文標題生成原型系統的性能評價采用的評價指標是基于召回率統計的ROUGE(Recalloriented Understudy for Gisting Evaluation)[18]指標。ROUGE指標由ISI的Lin和Hovy提出,是自動摘要研究領域基于機器摘要和人工摘要中N-gram匹配的情況來生成量化結果的一種評價方法。ROUGE-1、ROUGE-L的計算方法如式(6)和式(7)所示。

(6)

式(6)中,referencesummaries是人工編寫的摘要,Countmatch(gram)表示系統自動生成的摘要和人工摘要中相同N-gram的最大數量,Count(gram)表示人工摘要中出現的N-gram個數。

(7)

式中,X和Y分別代表模型自動生成的摘要和人工標準摘要;L(X,Y)是X和Y的最長公共子序列的長度;m和n分別表示人工標準摘要和系統自動生成的摘要的長度,即組成摘要的詞語個數;Rl和Pl則分別表示召回率和準確率;β被設置為一個趨向于正無窮的極大參數,因此ROUGE-L在數值上約等于Rl。

4.3.2 原型系統的性能測試結果

由于LCSTS數據集中human_label標簽數值為“5”的文本代表經過志愿者標注,認為該條文本的標題與文本內容相似度較高。因此在測試原型系統性能時,在LCSTS數據集中所有human_label標簽數值為“5”的文本中隨機選取了510條,并將該510條文本數據移出訓練集來構成測試集以避免訓練過程中的數據泄露。

LexPageRank模型[19]是將PageRank算法應用到文本句子關系表示的方法,是一種基于圖模型的標題生成模型。MEAD模型[20]是通過聯合考慮句子的質心、位置、公共子序列及關鍵詞這4種特征的標題生成模型。為了驗證標題生成原型系統的性能,本文選取了LexPageRank和MEAD模型作為基線模型。系統性能測試結果見表3。

表3 系統性能測試結果

5 結束語

隨著互聯網時代的快速發展,網絡中存在著大量不規范的文本信息。本文針對人工編寫標題無法應對每天產生的海量文本數據這一現象,基于生成式文本摘要技術對中文標題生成原型系統進行了設計與實現,并對系統功能進行了詳細的介紹和展示。通過在LCSTS數據集上的實驗表明,采用訓練結合注意力機制的編碼器-解碼器標題生成網絡模型,可以使系統生成的標題更符合人工撰寫摘要的規律,在一定程度上滿足人們對于生成標題的流暢性和準確性的要求。其中,ROUGE-1、ROUGE-L評價指標的數值分別為29.91和24.68,均高于基線模型,證明了標題生成原型系統的有效性。

但是,因為計算機硬件設備限制的客觀原因以及自身水平有限的主觀原因,本文仍然存在著有待完善優化的地方,例如距離生成真正意義上的語義準確、表述清晰、行文連貫的高質量文章標題仍有著不小的差距。此外,本文所設計并實現的標題生成原型系統僅僅具備簡單的基礎功能,距離實際工業應用還有一定距離。在今后的工作中,研究人員將會持續關注國內外在文本生成領域的最新研究,從而繼續優化和改進標題生成系統的性能。

猜你喜歡
語義文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产AV毛片| 亚洲制服丝袜第一页| 美女内射视频WWW网站午夜| 美女免费黄网站| 国产亚洲视频中文字幕视频| 国产亚洲精品在天天在线麻豆 | 国产精品主播| 老色鬼久久亚洲AV综合| 美女一区二区在线观看| 国产毛片高清一级国语 | 日本爱爱精品一区二区| 欧美午夜视频| 欧美日韩国产在线观看一区二区三区| 午夜高清国产拍精品| 国产日本一区二区三区| 国产一区二区精品高清在线观看| 国产导航在线| 欧美亚洲另类在线观看| 久久99久久无码毛片一区二区| 日韩毛片免费观看| 在线观看无码a∨| 亚洲码在线中文在线观看| 欧美在线网| 国内熟女少妇一线天| 欧美激情,国产精品| 亚洲一区无码在线| 亚洲视频三级| 精品国产91爱| 国产成人在线小视频| 亚洲综合香蕉| 国产麻豆精品久久一二三| 亚洲成A人V欧美综合| 国产成人亚洲欧美激情| 国产香蕉一区二区在线网站| 欧美精品高清| 日韩毛片免费| 亚洲无码高清免费视频亚洲| 免费啪啪网址| 欧美日韩第二页| 美女国产在线| 亚洲欧美自拍一区| 欧美精品伊人久久| 欧美成人综合在线| 亚洲色欲色欲www在线观看| 亚洲精品午夜天堂网页| 日韩欧美国产区| 一级片一区| 亚洲不卡影院| 欧美日韩在线成人| 国产无码制服丝袜| 蜜桃视频一区| 久久国产香蕉| 国产色网站| 九色视频最新网址| 国产真实乱子伦精品视手机观看 | 亚洲三级电影在线播放| 亚洲免费黄色网| 欧美亚洲激情| 色丁丁毛片在线观看| 国产在线观看91精品| 国产91在线|日本| 国产人成网线在线播放va| 71pao成人国产永久免费视频| 久久综合伊人 六十路| 成人中文字幕在线| 日韩a级毛片| 亚洲欧美激情小说另类| 日本伊人色综合网| 精品91在线| 91网站国产| 88av在线| 麻豆a级片| 青草午夜精品视频在线观看| 国产精品福利尤物youwu| 国产最爽的乱婬视频国语对白 | 极品私人尤物在线精品首页| 在线观看免费人成视频色快速| 亚洲欧洲综合| 午夜天堂视频| 亚洲—日韩aV在线| 国产香蕉在线| 国产精品yjizz视频网一二区|