999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多特征融合深度神經(jīng)網(wǎng)絡(luò)的作者識別系統(tǒng)設(shè)計(jì)

2020-01-03 08:59:22郭旭
現(xiàn)代計(jì)算機(jī) 2019年33期
關(guān)鍵詞:可視化深度特征

郭旭

(大連外國語大學(xué)語言智能研究中心,大連 116044)

0 引言

隨著人工智能時(shí)代的到來,使計(jì)算機(jī)“理解”文本的寫作風(fēng)格成為了自然語言處理領(lǐng)域的熱點(diǎn)研究方向,而如何根據(jù)寫作風(fēng)格識別出匿名文本的作者,即匿名文本的作者識別,是這一研究方向主要解決的問題。在實(shí)際應(yīng)用中,作者識別可以用于輿情分析、作者文體風(fēng)格分析和學(xué)術(shù)不端檢測等領(lǐng)域,具有重要的實(shí)際應(yīng)用價(jià)值。

在給定一個(gè)匿名文本t和作者候選集A={a1,a2,…,an}后,匿名文本的作者識別要解決的問題是[1,2]:為匿名文本t指定一個(gè)最可能的作者a*,其中a*屬于A。當(dāng)使用作者書寫的文本表征作者時(shí),作者候選集A={T1,T2,…,Tn},其中Tx為作者ax書寫的文本集,匿名文本的作者識別轉(zhuǎn)換為:為匿名文本t指定一個(gè)最可能的文本集T*,也就是將匿名文本t分類給最可能的文本類別,屬于典型的文本分類問題。

為了解決匿名文本的作者識別問題,文本設(shè)計(jì)完成了支持傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的作者識別系統(tǒng),該系統(tǒng)功能完備,不僅可以完成大多數(shù)主流機(jī)器學(xué)習(xí)算法和特征工程算法,還能以可視化的方式呈現(xiàn)識別結(jié)果。此外,本文采用的基于多特征融合深度神經(jīng)網(wǎng)絡(luò)的作者識別方法,可將特征工程與深度神經(jīng)網(wǎng)絡(luò)結(jié)合到一起,充分發(fā)揮兩者的優(yōu)勢。

1 研究現(xiàn)狀

目前,作者識別的研究方法主要有基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度神經(jīng)網(wǎng)絡(luò)的方法兩類。

基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法通過特征工程技術(shù)提取作者的寫作風(fēng)格特征,將一段匿名文本轉(zhuǎn)換為作者寫作風(fēng)格特征矩陣,構(gòu)建寫作風(fēng)格特征模型。如祁等人[3]使用包括句法結(jié)構(gòu)樹和依存關(guān)系在內(nèi)的多層面文體特征,將作者文體風(fēng)格轉(zhuǎn)換為多層面特征模型,針對15位作者的10895篇博客進(jìn)行識別,取得了較好的實(shí)驗(yàn)效果;李等人[4]使用復(fù)雜網(wǎng)絡(luò)理論,將文本視作一個(gè)復(fù)雜網(wǎng)絡(luò)提取路徑長度等復(fù)雜網(wǎng)絡(luò)特征,并與文本統(tǒng)計(jì)特征相結(jié)合,構(gòu)建基于復(fù)雜網(wǎng)絡(luò)的特征模型,針對多名記者撰寫的25542篇新聞報(bào)道進(jìn)行識別,也取得了較好的實(shí)驗(yàn)效果。

基于深度學(xué)習(xí)的方法通常將一句話或多句話直接作為輸入,通過深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)文本的寫作風(fēng)格特征,這樣可以最大限度的保留句子之間的特征。基于深度學(xué)習(xí)的方法往往可以獲得比傳統(tǒng)方法更高的評價(jià)指標(biāo),但由于作者的寫作風(fēng)格特征是由深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)得來的,因此深度神經(jīng)網(wǎng)絡(luò)提取的特征往往難以解釋,這在一定程度上限制了基于深度學(xué)習(xí)的方法的實(shí)際應(yīng)用效果。如Prasha等人[5]采用卷積神經(jīng)網(wǎng)絡(luò)識別Tweet短篇幅文本的作者,準(zhǔn)確率高于傳統(tǒng)方法6個(gè)百分點(diǎn)左右;徐曉霖等人[6]采用卷積神經(jīng)網(wǎng)絡(luò)與長短時(shí)記憶網(wǎng)絡(luò)相結(jié)合的方法構(gòu)建深度神經(jīng)網(wǎng)絡(luò),針對新浪微博中的10位作者共計(jì)10000篇的微博進(jìn)行作者識別,取得了較好的實(shí)驗(yàn)效果。

2 系統(tǒng)設(shè)計(jì)

2. 1 系統(tǒng)組成

作者識別系統(tǒng)的主要功能是識別匿名文本的作者,由數(shù)據(jù)集管理、文本預(yù)處理、自然語言處理、特征表示、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和可視化七個(gè)模塊組成,如圖1所示。

圖1 作者識別系統(tǒng)模塊圖

(1)數(shù)據(jù)集管理模塊。該模塊主要負(fù)責(zé)候選作者文本集的管理,包括增、刪、改、查候選作者文本集等功能。

(2)文本預(yù)處理模塊。該模塊主要負(fù)責(zé)文本的預(yù)處理,包括文本清洗、文本分割、文本聯(lián)合等功能。

(3)自然語言處理模塊。該模塊主要負(fù)責(zé)文本的基本自然語言處理,借助斯坦福自然語言處理工具包[7]和Han自然語言處理工具包[8]等開源工具包設(shè)計(jì)完成,包括分詞、詞性標(biāo)注、句法分析和依存關(guān)系分析等功能。

(4)特征表示模塊。該模塊主要負(fù)責(zé)提取文本的寫作風(fēng)格特征,構(gòu)建文本的寫作風(fēng)格特征模型,包括功能詞特征、標(biāo)點(diǎn)符號特征和字/詞N-Gram特征等。

(5)傳統(tǒng)機(jī)器學(xué)習(xí)模塊。該模塊主要負(fù)責(zé)傳統(tǒng)機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn),借助scikit-learn機(jī)器學(xué)習(xí)工具包設(shè)計(jì)完成,包括樸素貝葉斯、最近鄰和支持向量機(jī)等算法的實(shí)現(xiàn)。

(6)深度學(xué)習(xí)模塊。該模塊主要負(fù)責(zé)深度學(xué)習(xí)算法的實(shí)現(xiàn),借助TensorFlow和Keras等開源工具包設(shè)計(jì)完成,包括循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、帶有注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)、Transformer[9]、BERT[10]和XLNet[11]等算法的實(shí)現(xiàn)。

(7)可視化模塊。該模塊主要負(fù)責(zé)以可視化的形式輸出作者識別的評價(jià)指標(biāo)。借助Matplotlib工具包設(shè)計(jì)完成,包括文本集統(tǒng)計(jì)信息可視化、作者寫作風(fēng)格特征可視化、作者識別評價(jià)指標(biāo)可視化等功能。

2. 2 系統(tǒng)流程

本文設(shè)計(jì)的作者識別系統(tǒng),運(yùn)行流程圖如圖2所示,包括5個(gè)步驟。

圖2 作者識別系統(tǒng)流程圖

(1)添加文本。選擇添加待識別文本或從候選作者文本集中選擇訓(xùn)練文本。此外通過數(shù)據(jù)集管理模塊,可以管理候選作者文本集。

(2)文本預(yù)處理。清洗文本并生成樣本。

(3)自然語言處理。選擇需要進(jìn)行的自然語言處理,包括分詞、詞性標(biāo)注、分句、句法樹分析和依存關(guān)系分析等。

(4)提取作者寫作風(fēng)格特征。包括字符統(tǒng)計(jì)特征、詞匯統(tǒng)計(jì)特征和句子結(jié)構(gòu)統(tǒng)計(jì)特征等。

(5)選擇傳統(tǒng)機(jī)器學(xué)習(xí)方法或深度學(xué)習(xí)方法。如果選擇深度學(xué)習(xí)方法執(zhí)行步驟①,否則執(zhí)行步驟②。

①訓(xùn)練深度學(xué)習(xí)模型,并識別作者。

②訓(xùn)練傳統(tǒng)機(jī)器學(xué)習(xí)模型,并識別作者。

(6)結(jié)果可視化。以可視化的形式,顯示評價(jià)指標(biāo)。

3 實(shí)驗(yàn)結(jié)果

本文選擇13位作者共計(jì)31部作品構(gòu)建候選作者文本集,作品包括小說、散文和網(wǎng)絡(luò)文本三種體裁,其中,同一作者書寫的網(wǎng)絡(luò)文本按一部作品計(jì)算。小說和散文刪除了首行縮進(jìn)、標(biāo)題和換行符、超鏈接等非作者原文中出現(xiàn)的特殊符號,網(wǎng)絡(luò)文本刪除了轉(zhuǎn)發(fā)、@和超鏈接等內(nèi)容,以求最大限度的保留作者的寫作風(fēng)格。本文按照512字長,將每部作品分割為多個(gè)文本塊,每位作者隨機(jī)抽取100個(gè)文本塊,共計(jì)1300個(gè)文本塊,作為候選作者文本集。

本文采用多特征融合深度神經(jīng)網(wǎng)絡(luò)的方法識別作者,與典型的深度神經(jīng)網(wǎng)絡(luò)方法相比較,該方法除了將完整的文本塊作為輸入外,還融合了字符統(tǒng)計(jì)特征、詞匯統(tǒng)計(jì)特征和句子結(jié)構(gòu)統(tǒng)計(jì)特征,具體如下:

字符統(tǒng)計(jì)特征:所有字符個(gè)數(shù)、中文字符個(gè)數(shù)、數(shù)字字符個(gè)數(shù)、字母個(gè)數(shù)、空符號個(gè)數(shù)、特殊符號個(gè)數(shù)、標(biāo)點(diǎn)符號個(gè)數(shù)、不同標(biāo)點(diǎn)符號個(gè)數(shù)。

詞匯統(tǒng)計(jì)特征:所有詞個(gè)數(shù)、詞最大長度、句子最小長度、平均詞長、詞長方差、長詞個(gè)數(shù)、短詞個(gè)數(shù)、四字詞個(gè)數(shù)、詞匯豐富度。

句子結(jié)構(gòu)統(tǒng)計(jì)特征:句子總個(gè)數(shù)、句子最大長度、句子最小長度、平均長度、句長方差、長句子個(gè)數(shù)、短句子個(gè)數(shù)。

本文采用5折交叉驗(yàn)證的方法,對候選作者文本集進(jìn)行作者識別,平均識別準(zhǔn)確率達(dá)到了89.6%。

4 結(jié)語

針對匿名作品的作者識別問題,本文設(shè)計(jì)了由數(shù)據(jù)集管理、文本預(yù)處理、自然語言處理、特征表示、傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和可視化七個(gè)模塊組成的作者識別系統(tǒng),該系統(tǒng)支持傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩類作者識別方法。最終,本文采用多特征融合深度神經(jīng)網(wǎng)絡(luò)的方法識別由13位作者,每位作者100個(gè)文本塊組成的候選作者文本集,獲得了89.6%的準(zhǔn)確率。

猜你喜歡
可視化深度特征
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
深度理解一元一次方程
基于CGAL和OpenGL的海底地形三維可視化
如何表達(dá)“特征”
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
不忠誠的四個(gè)特征
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 毛片大全免费观看| 内射人妻无码色AV天堂| 日本a∨在线观看| 国产素人在线| 久久久久亚洲精品成人网| 狠狠色综合网| 青青草原国产免费av观看| 自拍欧美亚洲| av在线手机播放| 美女视频黄频a免费高清不卡| 中美日韩在线网免费毛片视频| 少妇人妻无码首页| 国产麻豆aⅴ精品无码| 国产剧情国内精品原创| 亚洲人成网站观看在线观看| 久久综合一个色综合网| 亚洲日本韩在线观看| 青青青草国产| 久青草国产高清在线视频| 欧美日韩综合网| 99久久国产综合精品2020| 久久久久免费精品国产| 国产成人亚洲综合a∨婷婷| www.狠狠| 天堂在线亚洲| 亚洲国产成人精品青青草原| 亚洲欧美一区二区三区蜜芽| 国产91线观看| 怡红院美国分院一区二区| 亚洲另类国产欧美一区二区| 国产福利小视频在线播放观看| 日韩午夜片| 久久这里只有精品66| 一级高清毛片免费a级高清毛片| 国产精品亚洲精品爽爽| 国产麻豆永久视频| 国产成人精品高清不卡在线| 一级黄色片网| 激情无码视频在线看| 亚洲天堂网2014| 亚洲综合第一区| 国产91透明丝袜美腿在线| 好久久免费视频高清| 蜜臀AV在线播放| 好吊色妇女免费视频免费| 色偷偷综合网| 在线色综合| 91成人在线观看视频| 97在线碰| 综合色区亚洲熟妇在线| 久久香蕉国产线看观看精品蕉| 亚洲综合经典在线一区二区| 丁香亚洲综合五月天婷婷| 中文字幕日韩欧美| 久精品色妇丰满人妻| 大学生久久香蕉国产线观看| 特级欧美视频aaaaaa| 精品91自产拍在线| 国产一二视频| 风韵丰满熟妇啪啪区老熟熟女| 国产在线拍偷自揄观看视频网站| 色婷婷电影网| 国产尤物视频在线| 国产色伊人| 亚洲国产欧美目韩成人综合| 国产尤物jk自慰制服喷水| 国产麻豆永久视频| 最新国语自产精品视频在| 国产三级成人| 亚洲国产精品国自产拍A| 青青青伊人色综合久久| 国产视频自拍一区| 国产成人精品一区二区秒拍1o| 永久免费精品视频| 在线国产综合一区二区三区| jizz国产视频| 国产福利2021最新在线观看| 国产精品妖精视频| 最新痴汉在线无码AV| 国产主播福利在线观看| 国产综合精品一区二区| 亚洲第一成网站|