999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

基于深度學習的古代漢語生成模型

2020-06-12 07:45:10黃石林政
電子技術與軟件工程 2020年3期
關鍵詞:文本方法模型

黃石 林政

(中國傳媒大學動畫與數字藝術學院 北京市 100024)

1 概述

自然語言文本生成的核心問題是自然語言如何在計算機中進行表示。常見的方式是使用NLTK等分類詞庫進行分析,分類詞庫存儲大量詞匯,并對每個詞分別存儲其上位詞、同義詞等。但這種方法存在數據主觀化、無法準確計算詞語相似度等問題。如將詞語轉換為one-hot向量表示,則存在向量長度過長等問題。

2003年,Bengio等人以J.R.Firth的理論為基礎,提出在神經網絡中詞嵌入的思想[1]。2013年,Mikolov等人提出word2vec向量模型、Skip-gram和Continuous Bag of Words方法[2]。2014年,Rong X對word2vec模型提供了理論推導和解釋[3]。隨后,斯坦福大學提出詞向量模型GloVe[4],該模型以“預測”為主,對共現矩陣進行降維從而學習詞向量。2018年,Peters.M.E等人提出詞向量模型ELMo[5],該模型為雙層雙向的LSTM(長短期記憶網絡),可通過上下文計算同一個詞匯在不同語境下的表達。隨著Transformer架構的流行,出現基于此架構的GPT和BERT模型。

本文采用GPT-2模型,通過Top-k采樣及核采樣方法,基于《唐才子傳》的樣本數據集,生成若干古代漢語文本,并對LSTM、Sequence to sequence、Sequence to sequence+attention等其它方法進行了比較研究,初步驗證了GPT-2在古代漢語環境中的表現。

2 相關工作

2.1 GPT-2語言模型

GPT-2語言模型是由OpenAI發布的GPT模型的改進版本,其核心思想指明語言模型是無監督的多任務學習者。相比于GPT模型,GPT-2的模型規模更大,表現更加優異。

2.2 Top-k采樣方法

自然語言通過上文以預測的方式生成下一個詞匯的解碼過程,通常使用求最大似然、貪婪算法和束搜索等方法,然而生成的文本質量并不理想。實踐證明,Top-k[6]方法更加有效,通過對概率分布進行截斷,選取概率較大的前k個字符,再根據概率,從中抽取生成字符。

更正式地說,給定一個概率分布P(x|x1:i-1),選取其中的某k個字,使得取得最大值,其中令將初始概率分布進行按式(1)進行重新縮放,后按照新的概率分布P'(x|x1:i-1)進行抽樣,作為下一個生成字。

2.3 Top-p采樣方法

通過分析人類文本和束搜索生成文本的概率分布發現,人類文本中每個詞的困惑度上下起伏波動,而機器生成文本中的困惑度呈現出不自然的平緩,并且其困惑度相對較高。在此基礎上,Top-p采樣方法對概率分布進行截斷,通過定義閾值p,選取累積概率超過閾值p的前n個字符,從中抽取生成字符。

更正式地說,給定一個概率分布P(x|x1:i-1),按從大到小的順序選取前n個字,使得式(2)成立,其中V(n)?V。

Top-p方法可以在有效截斷分布中不可靠的尾部的同時,允許文本的多樣性,從而在不犧牲流暢性和連貫性的前提下,增強生成文本的多樣性。

3 實驗數據

3.1 數據集

本文使用的數據集取自《唐才子傳》。該文集收唐、五代詩人傳記278篇,寫作風格一致,適合作為神經網絡的輸入數據進行訓練。本文數據集共76769個字符。

3.2 模型

本文同時采用了LSTM、Sequence to sequence、Sequence to sequence加上注意力機制,與GPT-2模型進行了對比實驗。實驗詳情如下:

LSTM模型采用雙層的構架模型,每層包含512個LSTM單元。

Sequence to sequence模型包含編碼器和解碼器兩部分,編碼器和解碼器均為雙層架構,每層包含1024個LSTM單元。

Sequence to sequence加注意力機制模型的編碼器部分采用雙向LSTM單元,在解碼器部分添加了注意力(Attention)機制。

本文選擇了GPT-2模型的“345M”版本,并使用稀疏softmax交叉熵計算損失,使用Adam計算梯度下降,學習率為0.0002。

3.3 生成樣本

模型訓練完成后,使用Top-k采樣(超參數k為40)和核采樣方法(超參數p為0.9)生成文本。

表1:Top-k方法的部分生成樣本

表2:問卷調查結果:語句通順度

表3:問卷調查結果:內容一致度

表4:問卷調查結果:整體質量

4 評估與分析

本文采用調查問卷的評估形式,分別從4個模型的8種分類中隨機挑選16個樣本,與數據集的2個樣本,共計18個樣本作為評測對象。問卷分別從語句通順度、內容一致度、整體質量3個方面對文本進行評估,分數范圍為1-10。

參與問卷調查的100名用戶均為在讀研究生,其中有35名為文學類相關專業碩士。其中有10份表示不熟悉文言文,最終選取其余90份作為有效問卷并進行分析。分析結果如表2、表3、表4所示。結果證明GPT-2生成的樣本質量較高。

但GPT-2生成文本也存在一些問題。如生成“善善善”,“TONY?SK?”等無意義的字段。其原因在于GPT-2模型的預訓練數據以英文為主,且微調訓練集數據過小(僅有233KB),因此預訓練數據的影響較大,容易生成英文字段或無意義的重復文字。

5 總結

實驗證明,在自然語言生成中,GPT-2模型適用于古代漢語文本生成,且生成質量較好。但會小概率生成無意義文本和英文文本。在后續研究中,希望增大微調的訓練集并增長訓練時間,并進一步分析Transform架構在古代漢語環境的表現。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 亚洲精品动漫| 国产精品美乳| 成人毛片免费观看| 毛片在线看网站| 日韩精品专区免费无码aⅴ| 91无码国产视频| 毛片视频网址| 色婷婷综合激情视频免费看| 成年免费在线观看| 99精品视频九九精品| 日本欧美精品| 婷婷色一二三区波多野衣| 欧美高清国产| 亚洲综合一区国产精品| 国产精品免费入口视频| 亚洲男人的天堂在线观看| 青青青视频免费一区二区| 欧美亚洲国产日韩电影在线| a毛片免费观看| 欧美精品伊人久久| 好吊色妇女免费视频免费| 国产在线91在线电影| 久久夜夜视频| 强乱中文字幕在线播放不卡| 麻豆国产在线观看一区二区| 久久狠狠色噜噜狠狠狠狠97视色| 视频二区中文无码| 伊在人亚洲香蕉精品播放| 免费无码网站| 91在线中文| 一级看片免费视频| 国产精品美女自慰喷水| 久久黄色小视频| 91精品啪在线观看国产| 国产精品任我爽爆在线播放6080| 国产精品主播| 天天色天天操综合网| 欧美日在线观看| 91在线精品免费免费播放| 欧美日韩国产在线人成app| 五月丁香在线视频| 中文字幕有乳无码| 国产微拍一区二区三区四区| 欧美成人A视频| 全部免费毛片免费播放| 中国国产高清免费AV片| 91av国产在线| 精品成人免费自拍视频| 日韩黄色精品| 欧洲免费精品视频在线| 啪啪永久免费av| 久久精品国产免费观看频道| 国产激情第一页| 91精品在线视频观看| 国产jizzjizz视频| 91小视频在线播放| 男人天堂亚洲天堂| 99精品国产高清一区二区| 四虎国产成人免费观看| 99久久精品久久久久久婷婷| 国产欧美综合在线观看第七页| 伊人欧美在线| 日韩精品少妇无码受不了| 67194在线午夜亚洲 | av一区二区无码在线| 露脸一二三区国语对白| 国产凹凸视频在线观看| 99尹人香蕉国产免费天天拍| 激情无码字幕综合| 国产成人精品亚洲77美色| 免费不卡视频| 中日韩一区二区三区中文免费视频| 97人人模人人爽人人喊小说| 亚洲精品成人7777在线观看| 国产av无码日韩av无码网站| 成人亚洲国产| 免费精品一区二区h| 亚洲天堂777| 亚洲欧美另类中文字幕| 无码精油按摩潮喷在线播放 | 久草视频一区| 成人看片欧美一区二区|