999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進樸素貝葉斯算法實現評教評語情感分析

2018-12-19 12:44:28張俊飛
現代計算機 2018年32期
關鍵詞:評語分類文本

張俊飛

(廣州醫科大學基礎醫學學院,廣州 511436)

0 引言

課堂教學評價是對教學效果的反饋,有利于促進教學活動的開展。根據教學評價方式的不同,評價可分為定量評價和定性評價。課堂教學定量評價是指對評價量化數據利用軟件如SPSS、Excel等或程序算法計算其平均值、方差、標準差等反映教學效果的指標;定性評價則是利用質性數據對課堂教學效果的描述。一般教學的定性評價形式有學生的評語、教學督導的聽課意見等。然而,課堂教學定性評價數據處理很少見有研究,傳統的評教質性數據處理方式是把數據直接呈現給教師、教學管理者,方便他們逐條閱讀。這種采用人工方式對浩瀚的信息進行查詢和統計是勞動密集型的方法,顯然是低效和不切實際的[1]。

隨著信息技術的發展,機器學習技術的成熟,為質性數據處理帶來了契機。本研究采用對定性評價數據情感分析實現質性數據處理,方便用戶分門別類去了解質性評價數據,更具有針對性,便于歸納總結。情感分析通過建立一個有效的分析方法、模型和系統,對研究數據的情感信息做出情緒表達判斷,如情感極性、強度等。

樸素貝葉斯是經典的基于概率論的機器學習分類算法之一,被廣泛地應用于模式識別、自然語言處理、機器學習、機器人項目以及一些信息分析軟件系統。樸素貝葉斯算法是基于貝葉斯定理與特征條件獨立假設的分類方法[2]。特征值間獨立假設與現實是不符合的,在中文語句表達中肯定要區分核心情感詞匯、一般情感詞匯和非情感詞匯。因此當前學者圍繞特征值屬性對樸素貝葉斯進行了改進研究,主要體現在兩個方面:①特征值選擇預處理;②根據特征值和情感類別的關系,加權特征值,弱化獨立假設。Geenen P L[3]提出了基于互信息選擇特征屬性的方法,并整合到樸素貝葉斯算法中,實現對獸醫很好的決策支持。曾宇[4]等利用HowNet情感詞典、NTUSD情感詞典以及收集的網絡情感詞集進行情感特征值提取,再根據情感詞對文本的貢獻度計算權重,實現特征加權樸素貝葉斯分類。饒麗麗[5]通過改進互信息,考慮情感詞詞頻提取特征值,并通過TF-IDF-FC算法實現對特征值權重的計算,最后實現加權樸素貝葉斯分類算法。

基于情感詞典的特征值選取,受限與詞典詞庫大小,情感詞匯數據的稀疏問題將嚴重影響對情感極性的判斷。綜合先前學者研究成果,本文采用點互信息(Point Mutual Information,PMI)實現對特征值的選取,利用TF-IDF函數實現對特征值權重的計算,最后實現對傳統樸素貝葉斯算法基于PMI特征值TF-IDF加權改進,通過對評教評語的分類實驗檢驗算法效果。

1 樸素貝葉斯

樸素貝葉斯算法描述如下:

輸入:評語文本集合訓練數據 T={(x1,y1),(x2,y2),…,(xN,yN)},其中是第i個評語的第 j個特征詞,j=1,2,…,n,l=1,2,…,Sj,yi∈{c1,c2,…,cK};測試評語x。

輸出:測試評語x的分類。

(1)極大似然估計計算先驗概率及條件概率

(2)計算評語x=(x(1),x(2),…,x(n))T歸屬每個類別的后驗概率,根據樸素貝葉斯特征值間條件獨立假定可知:

(3)取最大后驗概率P(ck|x),ck即為X的類別y

在實際的應用中為防止概率計算值為0和下溢出問題,經常采用拉普拉斯平滑和概率運算對數化來解決。

2 改進樸素貝葉斯算法

本文從特征值選取和特征值權重兩個維度,實現對樸素貝葉斯算法的改進。特征值選取使得樸素貝葉斯概率計算更具有情感代表性;特征值加權弱化獨立假設,更加符合現實。

2.1 利用PPMMII實現特征值選取

訓練集評語文本表示成特征向量,需要經過分詞處理,去掉停用詞,但是構成的特征空間通常還是高達幾萬維,直接在這樣的高維向量上進行分類器的訓練和測試,計算量過大。因此,在不影響分類準確率的前提下,需要對原始特征空間降維,將特征維數壓縮到與訓練文本個數相適應的情況[6]。

PMI(Point Mutual Information)點互信息通過計算詞語與基準詞在語料庫中共現概率[7],體現與基準詞的關系。利用PMI算法實現評教評語特征值的選取,首先計算特征詞語與種子集中元素的關聯程度,其中種子集為類別詞集E=(E1,E2,…,EK)。

其中P(x(j)Ek)為x(j)和Ek在評語訓練集合T中共現概率;P(x(j))為包含特征值x(j)評語在T中出現的概率;P(Ek)為類別Ek在T中出現的概率。

點互信息易受臨界文本特征概率影響,當P(x(j)Ek)值相等時,P(x(j))小的PMI值較大,從而導致概率相差太大的PMI值不具有可比性。沒有考慮詞頻特性是PMI算法的缺點,借鑒饒麗麗[8]文本特征選取算法設計,對 PMI公式(5)改進:

其中,P(TF(x(j)))為x(j)的頻數在集合評語語料庫中的概率;P(Ek|x(j))表示x(j)屬于類別Ek的概率,P(Ek)為詞集項Ek的概率。

其中閾值θpmi值的大小依賴訓練數據集中的表現。當高于θpmi時,選為特征值。

2.2 利用TFF--IIDDFF函數計算特征值權重

一個優秀的文本特征集,應具備:①完全性,即能夠涉獵文本內容;②區別性,即將目標本文和其他文本分開的特性。文本特征值的選取不僅應考慮特征值的詞頻特性,還應該考慮其權重,文本特征詞權重綜合反映了該文本特征詞對表示文本內容的貢獻度和文本之間的區別能力[9]。

假設x(j)的權重wi,依據朱顥東[10]關于TF-IDF函數設計,并對wi進行歸一化處理,特征值權重公式(8)

2.3 基于PPMMII特征值TFF--IIDDFF加權樸素貝葉斯評語情感計算

樸素貝葉斯分類認為所有特征值屬性在分類過程中權重一樣,這樣就使得與情感分類無關的、相互有影響的特征值,對有效的情感分類的特征值造成污染,降低了分類的準確率。將加權算法應用到樸素貝葉斯分類器中,有效地解決了訓練樣本的數據不均衡問題,弱化特征間相對獨立假設,提高分類型的性能。根據文獻[11]加權樸素貝葉斯算法設計為如下:

(1)對評語語料庫和待計算極性的詞x進行分詞處理并去掉停用詞,基于HowNet情感詞庫和PMI實現評語特征詞提取。

(2)計算x(j)特征值的權重Wj。

(3)基于評教評語語料庫,整合TF-IDF權重算法計算評語x(j)特征值的后驗概率,然后計算出x歸屬ck(k=1,2,…,K)的概率。計算公式(9)如下:

(4)選擇后驗概率最大P( ck|x),對應的ck即為x歸類情感y。計算公式(10)如下:

3 實驗與分析

情感分析領域通常采用準確率P(Precision)、召回率 R(Recall)和 F1 值(F1-measure)作為分類結果的指標。準確率是用來衡量檢測系統的查準率的指標,準確率值越大說明實驗的分類效果越好,反之分類效果越差。召回率是用來衡量檢測系統查全率的指標。F1值是召回率與準確率的綜合體現,當F1值較高時說明分類方法效果較好[12]。假設實驗語料的數量為N條,從中提取出M條進行分類,分類后正確的語料數量為n條,則準確率、召回率和F1值的計算公式如公式(11)所示。

采用廣州醫科大學2014年全校的教師教學學生評價數據集作為語料,并把它分為訓練語料和測試預料。數據集包含9854條數據,每條數據都由量化評分和質性評語構成。質性評語集合構成了語料庫中的Data(數據屬性),量化評分經過如下規則構成語料庫中的Label(目標屬性)值。

表1 目標屬性構建規則

分5次進行傳統樸素貝葉斯評語情感分類算法和加權樸素貝葉斯算法實驗,學生評教數據集分別取1000條、1500條、2000條、2500條、3000條作為測試集,剩余為訓練數據集。實驗對比結果,如表2所示。

表2 分類對比實驗

從表2中可以看出,改進后的加權樸素貝葉斯算法分類效果有一定的提高。通過計算數據集中每條評語的詞語元素與類別間的PMI相關性選擇特征值,并計算其權重值,對后驗概率的每個概率項進行加權修正。可以看出,對PMI特征值進行TF-IDF加權有效地利用了語料數據信息,提升了分類器的性能。

4 結語

特征值間獨立性假設在現實中很難達到,數據分布不均衡等因素都影響著樸素貝葉斯文本分類效果。為了實現評教評語的準確情感分類,本文提出了改進特征值加權樸素貝葉斯文本分類算法。該算法基于點互信息實現特征值提取,并對篩選后的特征值進行TF-IDF權重計算,最后把計算得到權重應用到樸素貝葉斯算法上。通過特征值權重的計算,減小了數據分布不均衡的影響,使得數據特征值間弱化獨立假設,權重越大,則代表歸屬類的能力越大。通過實驗表明改進后的樸素貝葉斯算法較傳統的樸素貝葉斯算法分類效果更好。在教學評教質性評語情感分析中,本研究算法具有較大的意義。

猜你喜歡
評語分類文本
分類算一算
流沙河語錄及諸家評語
四川文學(2020年11期)2020-02-06 01:54:52
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
怎樣為作文寫評語
散文百家(2014年11期)2014-08-21 07:16:36
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 久久久久88色偷偷| 中日韩一区二区三区中文免费视频| 91精品国产91久久久久久三级| 国产区人妖精品人妖精品视频| 成人字幕网视频在线观看| 久久亚洲高清国产| 福利国产微拍广场一区视频在线| 精品国产黑色丝袜高跟鞋| 亚洲精品国产首次亮相| 日本精品视频一区二区| 亚洲精品国产精品乱码不卞| 亚洲成人精品| 精品一区二区无码av| 强乱中文字幕在线播放不卡| 精品国产毛片| 青青青国产精品国产精品美女| 精品小视频在线观看| 狼友av永久网站免费观看| 国产三级国产精品国产普男人| 毛片免费在线| 性色在线视频精品| www亚洲天堂| 九九久久精品国产av片囯产区| 三上悠亚精品二区在线观看| 亚洲网综合| 国产精品思思热在线| 天天摸夜夜操| 色天天综合| 日本黄网在线观看| 成年免费在线观看| 伊人成人在线| 亚欧美国产综合| 亚洲综合香蕉| 在线日韩日本国产亚洲| 二级特黄绝大片免费视频大片| 亚洲性网站| 亚洲色图综合在线| 黄色网页在线播放| 精品视频一区在线观看| 激情综合图区| 国产性猛交XXXX免费看| 国产91视频观看| 中文字幕亚洲乱码熟女1区2区| 欧美亚洲一二三区| 欧美97色| 无码AV高清毛片中国一级毛片| 日韩av电影一区二区三区四区 | 国产一区二区三区免费| 亚洲Va中文字幕久久一区| 伊人精品视频免费在线| 亚洲精品天堂在线观看| 欧美日韩中文字幕在线| 扒开粉嫩的小缝隙喷白浆视频| 国产无码制服丝袜| 国产乱子伦视频三区| 日韩在线永久免费播放| 国产美女人喷水在线观看| 老司机精品99在线播放| 免费人成网站在线高清| 最新国产高清在线| 国产精品久久久久久久久kt| 亚洲男女天堂| 欧洲成人在线观看| 国产成人一区二区| 五月天福利视频| 免费a在线观看播放| 亚洲AV色香蕉一区二区| 国产成a人片在线播放| 亚洲成人高清在线观看| 香蕉eeww99国产在线观看| 毛片视频网| 野花国产精品入口| 欧美无遮挡国产欧美另类| 久久这里只有精品23| 激情综合婷婷丁香五月尤物| 呦女亚洲一区精品| a级毛片网| 婷婷激情亚洲| 黄色网在线免费观看| 激情午夜婷婷| 色香蕉影院| 亚洲中文久久精品无玛|