999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自編碼器的文章側面信息提取技術研究

2019-12-26 01:51:51楊澤華毛月月
中文信息 2019年12期

楊澤華 毛月月

摘 要:通過結合Word2Vec模型、TF-IDF算法和自編碼器模型,提出了一種從純文本文章中提取側面信息算法(WT-AutoEncoder)。首先,爬取相關語料,對文章進行分詞、去停用詞等數據預處理,對詞進行向量化表示;然后,利用TF-IDF算法對得到的詞向量做關鍵詞提取;最后,將得到的關鍵詞應用到自編碼器模型中,通過權重排序后,獲取最終的關鍵詞,即代表文章側面信息。結果表明,應用TF-IDF算法和自編碼器模型后,可以獲得到較為準確的信息提取結果。

關鍵詞:Word2Vec模型 TF-IDF算法 自編碼器模型 文本信息提取

Abstract:By combining TF-IDF algorithm and AutoEncoder model, a method of extracting side information from plain text articles is proposed. Firstly, the relevant corpus is crawled, and the data such as word segmentation and word deactivation are preprocessed, and the words are vectorized; secondly, the keywords are extracted by TF-IDF algorithm; finally, the keywords are applied to the AutoEncoder model, and the final keywords are obtained by weight ranking. That is to say, it represents the side information of the article. The results show that more accurate information extraction results can be obtained by using TF-IDF algorithm and AutoEncoder model.

Keywords:Word2Vec model TF-IDF algorithm AutoEncoder model Text Information Extraction

中圖分類號:TP391 文獻標識碼:A 文章編號:1003-9082 (2019)12-000-02

一、引言

隨著互聯網的出現和大量可用的文本數據,當前的挑戰是開發新的工具,以簡潔的形式表示內容。自動文本摘要是自然語言處理的一個重要研究方向,它主要是以壓縮的方式表達長文檔,以方便能夠快速地理解和讀取信息。近幾年,基于深度學習的方法在許多自然語言處理任務中都具有令人印象深刻的準確性,例如在問答、情感分析、文本分類、機器翻譯等領域。為了輸入數據的效果良好以及語義上更有意義的表示,深度學習需要大量的訓練數據。大多數基于深度學習的方法,例如卷積神經網絡(RNN),循環神經網絡(RNN)的等都是需要標記數據來訓練參數的深度網絡構架。

目前將有監督學習的深度學習方法應用于提取文本摘要的最大挑戰是需要人工創建大規模的標簽。本文通過利用不需要標記數據進行訓練的技術來解決這個缺點,尤其是基于詞嵌入(Word2Vec)和自編碼器(AutoEncoder)的深度學習方法。

本文其余部分安排如下:第二節介紹相關理論研究。第三節詳細介紹模型的流程。第四節是對實驗的數據及結果展示分析。最后,第五節總結全文所做的工作和主要貢獻,并提出一些在未來擴展的想法。

二、相關研究

目前,國內外研究者在文本信息抽取方面有多種研究方法。文獻[1] 通過結合Doc2Vec模型、K-means算法和TextRank算法,提出一種文本摘要提取算法(DK-TextRank)。文獻[2]利用文本主題上下圍概念的提取和不同權值的度量方式相結合的方式,提出了主體局的提取方法。文獻[3] 根據句子時間信息得到的時序權重,使得時間較近的新聞內容具有更高的權重,提出一種基于查詢的文本摘要技術。文獻[4] 提出一種用于單個文檔的通用抽取文本摘要的新方法SummCoder,該方法根據句子內容相關性、句子新穎性和句子位置相關性這三個學習指標生成摘要。文獻[5] 提出了一種自動、通用、抽取的阿拉伯文單文檔匯總方法,該方法旨在生成信息豐富的摘要。

在自編碼器方面,文獻[6] 提出了一種門控聯合池化的自編碼器模型,用于學習中英文的文本語義特征。在編碼階段,提出了均值-最大化聯合表征策略來捕捉輸入文本中多樣性的語義信息。文獻[7] 首先經稀疏自編碼器降維,然后通過LDA主題聚類算法進行文本聚類,提高聚類準確性來提取文本特征。

三、模型介紹

對于一篇純文本文章,在進行文章分詞、去停用詞等一系列數據預處理過程之后,首先對文本進行基于Word2Vec模型的詞向量表示;然后利用TF-IDF算法,做關鍵詞提取工作;最后將提取到的關鍵詞通過自編碼器模型訓練得到權重值較大的詞語作為最終的側面信息詞。如果對結果不滿意,可以調整自編碼器模型參數來調試結果,知道效果較優為止。

具體流程如圖3-1所示:

1.基于Word2Vec模型的詞向量化

為了提高信息提取的準確性,本文采用能更好表達詞語間關系的Word2vec模型來對文本中的詞語進行向量化表示。Word2Vec模型可以將文本表征為數字化向量。 該模型參考了神經網絡語言模型,構建多層神經網絡,以極大似然作為目標函數簡歷模型,將每個詞語映射成數字化向量。經過大量訓練,可以獲得高精度的詞向量表示,成為NLP在語義相似度計算中的重大突破。

Word2Vec模型主要包括兩種算法,CBOW和Skip-gram。其中,CBOW是指用上下文預測當前詞,而Skip-gram使用當前詞來預測上下文詞的思路。結合本文的問題,這里采用CBOW。

2.基于TF-IDF算法的文章關鍵詞提取

TF-IDF(Term Frequency-Inverse DocumentFrequency, 詞頻-逆文件頻率)是一種評估一個詞語對一篇文檔的重要程度。詞語的重要程度與她在文檔中出現的次數成正比,但與他在所有文檔中出現的頻率成反比。所以,TF-IDF常被應用于搜索引擎中,作為評價用戶查詢的相關程度的度量。

詞頻(TF)是指某個詞在文檔中的出現次數。逆文檔頻率(IDF)則是指一個詞語普遍重要性的度量。TF-IDf則是詞頻與逆文檔頻率的乘積。

其中,分母加1是為了避免所有文檔都不存在該詞時,分母為零的情況

3.基于自編碼器的文章側面信息提取

自編碼器(AutoEncoder)是一種采用無監督學習方式的神經網絡模型。它可以有效地對高維數據進行特征提取和表示。

AutoEncoder的目的是嘗試將輸入向量壓縮再還原,使得輸出向量盡量還原成為輸入向量,訓練過后,得到的中間層向量可以作為輸入的向量表示。因此,它可以看作兩部分組成,一個編碼器函數和一個生成重構的解碼器函數。編碼器部分的功能是將輸入壓縮成為潛在空間表征,而解碼器部分則用來重構來自潛在空間表征的輸入。整個自編碼器可以用來描述,其中輸入r與原始輸入x接近

如上圖2-1所示,這是AutoEncoder的一個基本結構。如果AutoEncoder的唯一目的是讓輸入值等于輸出值,那么將沒有任何作用。我們希望通過訓練輸入值等于輸出值的自編碼器,讓潛在表征h更具代表性。

一般地,我們并不關心自編碼器的輸出,而是關注通過自編碼器后可以得到隱藏層的潛在表征h。AutoEncoder模型的輸入層和輸出層的維度必須相等,才可以進行無監督訓練。并且,隱藏層的維度一般要小于輸入層,這樣才能實現數據的壓縮,從而提取出主要特征。

一個神經網絡模型,一定要有一個輸入、輸出和損失函數。AutoEncoder的輸入值與輸出值相同。換個角度理解,自編碼器就是一個標簽就是輸入本身的有監督學習。而損失函數L可以是交叉熵、均方差等,表示輸入值與輸出值之間的誤差。

自編碼器的主要用途在數據降噪和降維兩個方面。數據降噪是通過輸入得到更加準確的輸出,從而達到去噪的效果;降維是通過訓練,得到中間的低維度的隱藏層,達到降維的效果。而本文對于自編碼器的用途不同于以上兩點,主要是通過訓練得到輸入層與隱藏層之間的權值,然后對權值排序,獲得權值較大的詞語作為最終需要提取的文章側面信息詞。

四、實驗結果與分析

實驗環境:處理器:Intel(R)Core(TM)i5-6500 CPU @ 3.20GHz(4處理器),內存(RAM):8.00GB,系統:64位Windows操作系統,編程環境:Python/Pycharm。

1.實驗過程

實驗過程具體如下:

1)數據采集。本文爬取新華網、鳳凰新聞網、網易新聞網等新聞文章,涉及文化、教育、體育、經濟、社會等多個方面,共5000篇。

2)數據預處理。通過正則表達式去除一些特殊字符,然后使用jieba分詞工具進行分詞,最后再去掉停用詞。

3)詞向量化。輸入4000篇文章,用于訓練Word2Vec模型。向量維度設定為200維,得到可以表征語義的詞向量集合T,文章可以表示為向量化后的詞語所組成的矩陣。

4)關鍵詞提取。使用TF-IDF算法對得到的詞向量計算每個詞語的重要程度。

5)自編碼器權值計算。訓練模型后,保存編碼器的權值作為排序的依據。

6)文章側面信息輸出。

2.結果分析

通常采用內部評價方法評價自動摘要的提取效果,即與人工撰寫的摘要進行比較評價文摘質量。本文實驗采用F值衡量自編碼器訓練效果,F值越高,說明模型效果越好。

五、結論與展望

本文通過對文章的預處理得到有效數據,在使用Word2Vec模型生成詞向量的基礎上,應用自編碼器模型進行訓練,并通過訓練后的模型得出輸入層的權值,通過排序提取最終的關鍵詞。利用新聞報道文章進行文章側面信息提取實驗,結果表明相對于傳統TF-IDF算法本文提出的WT-Autoencoder算法能有效的提高提取信息的質量。下一步將對WT-Autoencoder模型進一步訓練,從而提升算法效率。

參考文獻

[1]徐馨韜,柴小麗,謝彬,等.基于改進TextRank算法的中文文本摘要提取[J].計算機工程,2019,45(3):273-277.

[2]張云濤,龔玲,王永成.基于綜合方法的文本主題句的自動抽取[J].上海交通大學學報,2006(5):771-774,782.

[3]王凱祥,任明.基于查詢的新聞多文檔自動摘要技術研究[J].中文信息學報,2019,33(4):93-100.

[4]Akanksha Joshi,E.Fidalgo,E.Alegre,Laura Fernández-Robles.SummCoder: An unsupervised framework for extractive text summarization based on deep auto-encoders[J].Expert Systems With Applications,2019,129.

[5]Aziz Qaroush,Ibrahim Abu Farha,Wasel Ghanem,Mahdi Washaha,Eman Maali.An efficient single document Arabic text summarization using a combination of statistical and semantic features[J].Journal of King Saud University - Computer and Information Sciences,2019.

[6]張明華,吳云芳,李偉康,等.基于門控聯合池化自編碼器的通用性文本表征[J].中文信息學報,2019,33(3):25-32.

[7]黃煒,黃建橋,李岳峰.一種基于稀疏自編碼器的涉恐短文本特征提取方法[J].情報雜志,2019,38(3):203-207,186.

主站蜘蛛池模板: 久草视频福利在线观看| 国产精品一区二区国产主播| 在线亚洲精品自拍| 在线观看国产黄色| 亚洲午夜国产精品无卡| 国产九九精品视频| 国产欧美在线视频免费| 99在线观看国产| 男人天堂亚洲天堂| 2021最新国产精品网站| 亚洲二区视频| 一个色综合久久| 一本色道久久88综合日韩精品| 亚洲久悠悠色悠在线播放| 男女猛烈无遮挡午夜视频| 欧美在线一二区| 国产在线无码一区二区三区| 91蝌蚪视频在线观看| 日韩在线第三页| 伊人天堂网| 天天干天天色综合网| 夜夜操狠狠操| 中文字幕人成人乱码亚洲电影| 巨熟乳波霸若妻中文观看免费| 中国成人在线视频| 午夜福利视频一区| 狠狠干欧美| 精品成人一区二区三区电影| 亚洲综合激情另类专区| 久久国产精品嫖妓| 亚洲永久色| 亚洲欧美另类色图| 亚洲Va中文字幕久久一区| 欧美成a人片在线观看| 日本国产一区在线观看| 欧美国产日本高清不卡| 在线人成精品免费视频| 伊人色天堂| 国产福利观看| 成人午夜在线播放| 亚洲无码视频喷水| A级毛片无码久久精品免费| 亚洲第一视频区| 最新亚洲av女人的天堂| 国产精品林美惠子在线观看| 亚洲美女一区二区三区| 无码人妻热线精品视频| 国产福利不卡视频| 国产香蕉在线视频| 免费在线国产一区二区三区精品| 日本免费精品| 夜夜操狠狠操| 亚洲美女久久| 亚洲美女AV免费一区| 欧美在线视频不卡第一页| 久久99国产视频| 精品国产自| 久久精品无码国产一区二区三区| 一级毛片网| 精品福利视频导航| 高h视频在线| 三上悠亚一区二区| 国产成人精品高清不卡在线| 国产福利免费视频| 日韩大片免费观看视频播放| 国产女人18水真多毛片18精品 | 色噜噜狠狠色综合网图区| 免费人成视网站在线不卡| 精品伊人久久久久7777人| 亚洲熟妇AV日韩熟妇在线| 少妇精品在线| 中文字幕日韩欧美| a国产精品| 日本不卡免费高清视频| 鲁鲁鲁爽爽爽在线视频观看| 国产久操视频| 国产99视频在线| 婷婷六月在线| 国产永久无码观看在线| 亚洲国产精品人久久电影| 国产99在线| 日韩av手机在线|