999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進深度學習算法的文本極性智能判斷方法研究

2020-03-03 13:20:44宋思晗王興芬杜惠英
現代電子技術 2020年1期
關鍵詞:深度文本智能

宋思晗 王興芬 杜惠英

摘 ?要: 為了解決傳統的文本極性智能判斷方法判斷結果準確率和召回率普遍較低的問題,基于改進深度學習算法研究一種新的文本極性智能判斷方法。在CNN結構基礎上設計一種新的深度學習算法模型,模型由輸入層、輸出層、采集層、連接層、卷積層五部分構成。使用該模型對文本進行智能判斷,判斷過程共有五步,分別是文本預處理、情感詞提取、表情符號提取、感情傾向值計算和情感最終傾向值分析。為檢測所提方法的有效性以及優越性,與傳統判斷方法進行實驗對比,結果表明,基于改進深度學習算法的文本極性智能判斷方法判斷的準確率和召回率更高,發展空間更廣闊。

關鍵詞: 文本極性; 智能判斷方法; 算法模型設計; 有效性檢測; 深度學習算法; 文本預處理

中圖分類號: TN911.1?34; TP393 ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)01?0076?04

Research on text polarity intelligent judgment method

based on improved deep learning algorithm

SONG Sihan, WANG Xingfen, DU Huiying

Abstract: The accuracy and recall rate of traditional text polarity intelligent judgment methods both are generally low. In view of the above, a new method of text polarity intelligent judgment is studied based on improved deep learning algorithm. A new deep learning algorithm model is designed based on the CNN structure. The model consists of five parts: input layer, output layer, acquisition layer, connection layer and convolution layer. This model is used for text intelligent judgment. The judgment process is devided into five steps: text preprocessing, emotion word extraction, expression symbol extraction, emotion tendency value calculation and emotion final tendency value analysis. In order to test the effectiveness and superiority of the proposed method, an experimental comparison with the traditional judgment method was performed. The results show that the judgemental accuracy and recall rate of the text polarity intelligent judgment method based on the improved deep learning algorithm is higher, and the development space is broader.

Keywords: text polarity; intelligent judgment method; algorithm model design; effectiveness detection; deep learning algorithm; text pre?processing

0 ?引 ?言

隨著互聯網技術的進步,網絡成為人們工作生活必不可少的組成部分。據2018年市場調查顯示,我國互聯網的發展速度已經處于世界前列,互聯網在全國的普及率高達61.3%,網民規模達到了8.25億[1]。近年來,隨著移動互聯網的不斷普及,網絡服務范圍得以最大化推廣,大眾生活方式也得以改變[2]。

人機智能是一種新型技術,在智能識別和智能判斷中發揮著重要作用,將人機智能融入到文本極性智能判斷中,可以大大提高判別算法的工作效率。在機器學習研究中,深度學習算法有著很大的發展空間,這種起源于人工神經網絡的學習算法可以模擬人的大腦對事物進行分析、解釋文本、辨別聲音[3]。深度學習算法不需要監督,它可以在低層特征中不斷組合,再根據高層特征和屬性特征找到數據的分布特征,從而完成文本分層、預測、判斷等工作[4]。

本文基于改進深度學習算法研究了一種文本極性智能判斷方法,在卷積神經網絡(CNN)的基礎上進行優化,重新訓練學習數據,采用隱式特征抽取的方式從訓練數據中學習。該判別方法可以達到細粒度標記水準,將被判別文本清晰明確地分成非常消極、消極、中性、積極、非常積極五個層次[5]。

本文設計的改進深度學習算法采用了局部權值共享的特殊結構,能夠更好地處理語音文本和圖像文本,在布局上與生物神經網絡十分相似。多維向量輸入使判斷過程不需要重建數據,降低工作復雜度[6]。為了更好地檢測所設計的文本極性智能判斷方法的有效性,本文以微博熱門話題作為樣本數據進行實驗,通過準確率、召回率的比較實驗,對比改進模型與普通的CNN、RNN模型。

1 ?改進深度學習算法模型建立

結合已有的CNN、LSTM、多層CNN、Bi?LSTM?CRF等結構,建立了一種新型深度學習算法網絡結構。該神經網絡結構共包括輸入層、輸出層、采集層、連接層、卷積層五部分,改進神經網絡結構圖如圖1所示。

改進神經網絡中,每層之間的變換都涉及一次特征提取,提取后的層由多個二維平面組成,這些二維平面統稱為特征映射圖。在輸入層中輸入原始文本,多次提取原始文本數據。本文采用的計算方式為二次計算,即使輸入的原始數據有很大的形變,二次計算也能夠較好地計算出結果[7]。

改進神經網絡結構中卷積層和子采樣層都是獨立工作的,卷積層工作過程如圖2所示。

觀察圖2可知,卷積層會利用訓練濾波器對輸入的數據和文本進行卷積、偏置處理,從而得到卷積層[8]。卷積層將最初的輸入文本編程為不同的網格,每個網格都記錄著不同的特征數據,便于進行后續工作。

子采樣過程如圖3所示。

將鄰域的4個像素匯集到一起求和,集合成一個像素后,進行加權處理和偏置處理,通過激活函數縮小特征映射圖,縮小后的特征映射圖可以被直接提取,耗費成本低[9]。

卷積運算和采樣運算都能夠強化文本特征,降低噪音。

連接層是以隱含狀態存在的,能夠連接上一層和下一層,在連接層中設置了權重向量和偏置向量,輸入數據經過加權處理和偏置處理后得到一個新的數值,該數值最終會被傳給sigmoid函數。

輸出層具有分類功能,通過回歸曲線計算輸入文本屬于各種類別的概率。

將本文建立的改進深度學習算法模型應用到文本極性智能判斷中,選取文本中的小部分區域在神經網絡最低層次中輸入,依次濾波處理和加權處理,直至確定文本信息最顯著的特征。為確保識別的一致性,每個映射上使用的權值都是相等的,隨著逐層輸出,網絡參數會變得越來越少,最后會出現唯一的不變性特征[10]。文本也可以直接以網格方式輸出,不需要重建數據,工作方式較為簡單。

2 ?基于改進深度學習算法的文本極性智能判斷方法

利用前文建立的深度學習算法改進模型對文本進行極性智能判斷,分析文本中的情感詞和語義規則,判斷流程圖如圖4所示。

分析圖4可知,本文研究的文本極性智能判斷方法共分為五步:

1) 對提取出來的文本數據進行預處理,通過Java工具提煉所有的分詞。

2) 構建情感詞典,將情感詞典與文本中的數據進行匹配,如果情感詞典中不包含文本數據中的關鍵詞,則要重新設定閾值,計算情感極性。

3) 通過表情詞典提煉文本中的表情符號,如果文本中不包含表情符號,則直接進入下一步。

4) 同時使用否定詞典、修飾詞典和連接詞典計算出文本的感情傾向值。

5) 利用加權算法對上述步驟進行求值,得到最終的情感傾向值[S],如果[S>0],則判斷該文本方向為正向;如果[S<0],則判斷該文本方向為負向。

2.1 ?文本數據提取與預處理

2.1.1 ?文本數據提取

文本數據提取采用網絡爬蟲提取方式,所有的目標網站和關鍵字需要自定義[11]。文本數據信息量大,一些文本數據還需要登錄,普通爬蟲難以直接提取數據,本文利用Python設計了一種新的爬蟲,能夠模擬登錄用戶ID,本文設計的爬蟲為scrapy爬蟲,獲取文本信息的流程圖如圖5所示。

本文加入了1 000個關鍵詞組成關鍵詞數據庫,使爬蟲能夠更快地獲取信息。

2.1.2 ?文本預處理

通常爬蟲得到的文本都會含有噪聲信息,如果直接對其進行判斷,準確度會大大降低,因此需要對文本數據進行預處理[12]。預處理主要從三個方面進行:繁體字處理;無效鏈接處理;交互信息處理。

雖然絕大多數的文本信息都是簡體字,但是也有部分文本信息為繁體字,影響后續的分詞判斷、情感詞判斷、權重處理等操作,所以有必要將文本中的繁體字轉化成簡體字。很多文本中可能會存在無效鏈接,對于智能判別毫無幫助,在整體處理之前,要將沒有用的鏈接剔除。通常只有少量文本含有交互信息,這些交互信息對于實際判別沒有任何幫助,需要去除。

2.2 ?文本中情感詞提取

在文本中,情感詞是十分重要的組成部分,提取情感詞對于文本判斷有著重要意義。每一段文本中的信息都要與情感詞典進行匹配,如果能夠在情感詞典中匹配到相應的信息,則只需要記錄下極性和強度值即可;如果不能匹配到對應的詞語,則需要利用語義相似度計算方法計算出每個詞匯的情感傾向,設定固定閾值[13]。

情感詞典中的詞被劃分到五個類別中,分別為非常消極、消極、中性、積極、非常積極,結構如圖6所示。

圖6中的情感詞典是經過多次提煉和反復匹配的,包括了大量能夠表達情感的詞語,但是也有部分情感詞難以在情感詞典中匹配到,所以需要利用語義相似度方法計算文本中詞匯的情感傾向值。設定文本中的詞語為[x],被對比的詞語為[y],假設詞語[x]可以解釋成[m]個義項,則每個義項就可以用[x1],[x2],…,[xm]來表示,假設詞語[y]有[n]個義項,則每個義項就可以用[y1],[y2],…,[yn]來表示,詞語[x]和詞語[y]每個義項的最大相似度計算公式如下:

[Sim(x,y)=max[Sim(xi,yi)]] (1)

利用可變參數[λ]計算出義項原相似度:

[Sim(x1,y1)=λλ+d(xi,yi)] (2)

將每個義項原值進行相似度計算,通過計算平均值差,得到最終的情感值計算結果。

2.3 ?語義規則與表情符號判斷

每一個文本句子都會有自己的語義規則,不同的語義規則將句子劃分為不同的種類,情感傾向通常通過修飾副詞表現出來,修飾強度不同,情感傾向也不同。如果句子中加入了否定詞語,那么情感的極性也會完全發生改變,例如未加否定詞語之前,該句子表達的為“絕對肯定”,加入了否定詞后,該句子想要表達的意思就變成了“絕對否定”。例如“我非常喜歡明星A”表達的是自己對A明星的絕對喜愛之情,在加入否定詞后,就會變成“我非常不喜歡明星A”,表達的是對某個明星的絕對厭惡之情,這是兩種完全不同的感情。

修飾程度副詞可以分為6級,代表性詞語如表1所示。

除了情感詞外,本文設定的判斷方法也會對表情符號進行判斷,因為判斷過程比較簡單,所以本文不做研究。

3 ?驗證實驗

3.1 ?實驗數據

為了檢測本文研究的基于改進深度學習算法的文本極性智能判斷方法的實際工作效果,與傳統判斷方法進行對比,從具有明確情感信息的30 000條微博數據中隨機選取正向情感的微博和負向情感的微博各10 000條進行實驗。微博中文本信息示例如表2所示。

3.2 ?實驗評判標準

本文將準確率和召回率作為評價指標,將判斷正確的正向情感微博文本記為TP,判斷錯誤的正向情感微博文本記為TN,判斷正確的負向情感微博文本記為FP,判斷錯誤的負向情感微博文本記為FN。

正向類別的微博文本準確率計算公式為:

[Ppos=TPTP+FP] (3)

正向類別的微博文本召回率計算公式為:

[Rpos=TPTP+FN] (4)

負向類別的微博文本準確率計算公式為:

[Pneg=TNTN+FN] (5)

負向類別的微博文本召回率計算公式為:

[Rneg=TNTN+FP] (6)

3.3 ?實驗結果與分析

根據上述參數和評價標準進行實驗,設定[α]為判斷后的準確率。不同[α]值下的文本分類準確率如圖7所示。

觀察圖7可知,當[α]值達到0.3時,準確率最高。選用傳統判斷方法和本文判斷方法對同一文本進行判斷,對比兩種方法的準確率和召回率,實驗結果對比如表3所示。

綜上所述,本文研究的判斷方法相較于傳統方法在準確率和召回率方面均有很大程度的提高,對于關鍵詞的提取也十分準確,即使在文本表達復雜的情況下,也能夠快速準確地做出智能性判斷。

4 ?結 ?語

本文基于改進深度學習算法提出一種新的文本極性智能判斷方法,該方法將傳統的情感詞典匹配法和語義相似度計算法結合到一起,同時構建了新的情感詞典。本文設計的判斷方法不需要多次對數據進行標記,具有實時判斷能力。

雖然具備上述優點,但本文提出的判斷方法仍然有一部分需要深入研究,如網絡新詞的判斷,以及如何更好地搜尋到文本中表達關鍵信息的詞匯,希望在后續的研究中能夠得以解決。

參考文獻

[1] 馬勝藍.基于深度學習的文本檢測算法在銀行運維中應用[J].計算機系統應用,2017,26(2):184?188.

[2] 朱國進,沈盼宇.基于深度學習的算法知識實體識別與發現[J].智能計算機與應用,2017,7(1):17?21.

[3] 劉江玉,李天劍.基于深度學習的倉儲托盤檢測算法研究[J].北京信息科技大學學報(自然科學版),2017,32(2):78?84.

[4] 左艷麗,馬志強,左憲禹.基于改進卷積神經網絡的人體檢測研究[J].現代電子技術,2017,40(4):12?15.

[5] 呂淑寶,王明月,翟祥,等.一種深度學習的信息文本分類算法[J].哈爾濱理工大學學報,2017,22(2):105?111.

[6] 喻一梵,喬曉艷.基于深度學習算法的正負性情緒識別研究[J].測試技術學報,2017,31(5):398?403.

[7] 廖健,王素格,李德玉,等.基于增強字向量的微博觀點句情感極性分類方法[J].鄭州大學學報(理學版),2017,49(1):39?44.

[8] 徐嵩,李玉峰.最大效益準則下基于分配公平性的CSGC改進算法[J].電子設計工程,2017,25(5):97?102.

[9] 陳江昀.一種基于深度學習的新型小目標檢測方法[J].計算機應用與軟件,2017,34(10):227?231.

[10] 李翌昕,馬盡文.文本檢測算法的發展與挑戰[J]. 信號處理,2017,33(4):558?571.

[11] 鄒煜,劉興旺.基于深度學習手寫字符的特征抽取方法研究[J].軟件,2017,38(1):23?28.

[12] 蔣兆軍,成孝剛,彭雅琴,等.基于深度學習的無人機識別算法研究[J].電子技術應用,2017,43(7):84?87.

[13] 馮通.基于深度學習的航空飛行器故障自助檢測研究[J].計算機仿真,2015,32(11):119?122.

作者簡介:宋思晗(1992—),男,山東曲阜人,碩士,主要研究方向為自然語言處理。

王興芬(1968—),女,山東平度人,博士,教授,主要研究方向為Web安全、電子商務、大數據分析與管理創新。

杜惠英(1982—),女,福建泉州人,博士,副教授,主要研究方向為移動互聯網、電子商務、大數據消費者行為。

猜你喜歡
深度文本智能
深度理解一元一次方程
在808DA上文本顯示的改善
深度觀察
深度觀察
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
深度觀察
主站蜘蛛池模板: 国产无码精品在线播放 | 亚洲欧美日韩另类| 欧美性爱精品一区二区三区| 人人艹人人爽| 久久精品国产91久久综合麻豆自制| 丰满人妻久久中文字幕| 高潮爽到爆的喷水女主播视频 | 成人精品亚洲| 亚洲一级毛片在线观| 国产精品久久国产精麻豆99网站| 成人免费视频一区| 青青极品在线| 成人伊人色一区二区三区| 亚洲无码91视频| 亚洲国产成人久久精品软件| 91亚洲精选| 久视频免费精品6| 久99久热只有精品国产15| 亚国产欧美在线人成| 中美日韩在线网免费毛片视频| 免费不卡视频| 国产99免费视频| 91色在线观看| 亚洲午夜天堂| 高清色本在线www| 亚洲国产日韩视频观看| 丰满的熟女一区二区三区l| а∨天堂一区中文字幕| 久久a级片| 免费一级成人毛片| 999在线免费视频| 尤物午夜福利视频| 日本不卡在线视频| 在线观看网站国产| 伊人久久综在合线亚洲2019| 国内老司机精品视频在线播出| 久久国产精品电影| 免费一级毛片| 久久综合九色综合97网| 欧美亚洲一区二区三区导航| 欧美日韩另类国产| 国产精品视频久| 日本三区视频| 幺女国产一级毛片| 欧美国产成人在线| 999国产精品永久免费视频精品久久 | 亚洲天堂视频在线观看| 99热最新网址| 91蜜芽尤物福利在线观看| 日韩国产精品无码一区二区三区| 国产成人欧美| 亚洲成aⅴ人片在线影院八| 精品伊人久久久香线蕉| 四虎成人精品在永久免费| 91人妻日韩人妻无码专区精品| 一级毛片在线免费视频| 99久久精品国产综合婷婷| 国产黄色视频综合| 久久久久亚洲精品无码网站| 亚洲精品色AV无码看| 国产天天射| 国产成人a在线观看视频| 婷婷亚洲天堂| 亚洲国产精品无码AV| 國產尤物AV尤物在線觀看| 99精品免费在线| 五月天福利视频| 呦视频在线一区二区三区| 美女扒开下面流白浆在线试听 | 色婷婷亚洲综合五月| 欧美、日韩、国产综合一区| 国产三区二区| 国产精品自在自线免费观看| 亚洲欧美日韩另类| 人妻丰满熟妇αv无码| 中日韩欧亚无码视频| 亚洲高清无码久久久| 成·人免费午夜无码视频在线观看| a亚洲天堂| 欧洲欧美人成免费全部视频 | 国产在线精品网址你懂的| 91午夜福利在线观看精品|