999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學生評教留言的傾向性分析*

2016-05-25 00:37:35李效偉
網絡安全與數據管理 2016年3期
關鍵詞:文本方法學生

李效偉

(山東女子學院 信息技術學院,山東 濟南 250300)

學生評教留言的傾向性分析*

李效偉

(山東女子學院 信息技術學院,山東 濟南 250300)

學生評教留言經過逐年累積,已經形成一個巨量的信息資源,如何進行挖掘和分析這些資源已經成為一項緊迫的任務。本文采用頻率、信息增益、條件概率比、期望值差異等四種特征選取方法對留言進行分析,采用ICTCLAS分詞軟件進行分詞,利用MATLAB軟件進行矩陣奇異值分解和降維,使用支持向量機進行訓練和預測數據,從而能夠對學生留言的情感傾向性給出很好的預測結果。最后通過實例說明了文中算法的有效性。

傾向性分析;分詞;特征選擇;降維;支持向量機

0 引言

學生評教留言經過逐年累積,已經形成一個巨量的信息資源,對其進行數據挖掘已經成為刻不容緩的工作,如何更好地利用大量的留言體現了一個學校對其教學水平和方法進行提升和改進的能力,一個高水平的學校應積極發展對學生留言的挖掘,對其進行分析、處理并最后得出結論,及時了解和分析教師的教學現狀和學生們的聽課反饋。

國內外相關學者對文本傾向性分析進行了大量研究[1-5],雖然英文的傾向性研究已經很成熟并得到了豐碩成果[6-17],但是中文文本的傾向性研究還處在發展階段,有著廣闊的發展空間。柴玉梅等[1]通過分析中文文本內容褒貶色彩的客觀性和褒貶傾向性分類的可行性,將特征選擇方法和褒貶特征提取技術結合起來,實現了名人網頁的褒貶傾向性分類;唐慧豐等[2]通過對中文文本不同分類方法的對比分析,提出采用BiGrams特征表示方法、信息增益特征選擇方法和SVM分類方法,在足夠大訓練集和選擇適當數量特征的情況下,在情感分類方面取得較好的效果;Tan等[6]針對中文文本,通過對四種特征選擇方法和五種學習方法進行實驗,提出信息增益特征選擇方法與SVM進行組合,能夠得到較好的預測結果;Prabowo等[7]提出一種規則分類、監督學習和機器學習相結合的方法,能夠對電影評論、產品評論和MySpace留言進行傾向性分析;Li等[8]提出結合K-means聚類算法和SVM來實現無監督學習的方法,并利用此算法進行在線論壇熱點的偵探和預測。

Tan等[6]針對中文文本,通過使用MI(Mutual Information)、IG(Information Gain)、CHI(CHI Statistics)和DF(Document Frequency)四種特征選擇方法和質心分類、K近鄰、Window分類、貝葉斯分類、支持向量機五種分類方法進行實驗,提出信息增益特征選擇方法與SVM進行組合,得到較好的預測結果,但是其只是針對1 021個文本數據進行實驗,并未能夠將其應用到學生評教留言中,學生評教留言具有一定的特殊性,它是對教師教學活動的評價,其中含有對教師豐富的情感,并非只是對一件物品的評價。針對學生評教留言,本文提出了一個學生評教留言的傾向性分析算法。首先,利用ICTCLAS對2 500條留言文本進行分詞,其次,進行詞性過濾,保留名詞、動詞、形容詞和副詞四類詞語,再次,進行詞語過濾,使用基于頻率、信息增益、條件概率比和期望值差異四種方法進行實驗,然后,生成詞頻矩陣,并將矩陣進行奇異值分解、降維、去除冗余數據操作,最后,利用SVM將生成的矩陣進行訓練和預測。本文特別針對學生評教留言,為實際的教學評價活動提供一定的決策支持,能夠生成較好的預測結果,使得此算法能夠更好地應用于實際的教務系統和教學活動中。

1 算法流程

本文特別針對學生評教留言,提出一種基于期望值差異的詞語過濾方法與支持向量機相結合的傾向性分析算法,算法流程如圖1所示。

圖1 算法流程圖

算法流程如下:

輸入: 500條留言作為訓練數據, 2 060條留言作為預測數據。

輸出:2 060條預測數據的傾向性結果,以及本算法的正確率和拒識率。

(1)分詞。用ICTCLAS50分別對訓練數據和預測數據進行分詞。

(2)詞性過濾。保留名詞、動詞、形容詞和副詞四類詞性詞語。

(3)詞語過濾。利用基于頻率、信息增益、條件概率比和期望值差異的過濾方法對詞語進行過濾。

(4)生成詞頻矩陣。以“詞項×文檔矩陣”的格式生成詞頻矩陣。

(5)矩陣處理。獲得訓練文件,對矩陣進行奇異值分解、降維、去除冗余數據后生成訓練文件。

(6)訓練。用LIBSVM對訓練集進行訓練,獲得訓練模型。

(7)預測。將預測集導入LIBSVM,利用上一步獲得的訓練模型進行預測。獲得傾向性結果,計算本算法的正確率和拒識率。

2 學生留言的傾向性分析

2.1 學生留言的預處理

2.1.1 訓練數據的選取

訓練數據的質量直接決定預測的效果,訓練數據是需要精挑細選的一些留言數據,必須具有良好的分類代表性,選取遵循以下原則:

(1)需要過濾掉所有空留言、只含有標點符號的留言以及不包含任何詞語的文本。

(2)重復性留方過濾。完全重復的留言,以及留言文字相同但是有標點符號不同的文本需要刪除,因為它們的向量基本相同。向量相同的留言放到libsvm中處理只會增加計算量。

(3)訓練數據中各類的數目要大體相當。

(4)刪除部分表達意思相近的留言。

(5)訓練數據不宜選取過多,也不宜過少,如果過多就會存在很多重復性的向量,如果過少,訓練集太小,不能很好地進行預測。訓練集的大小在500條左右即可。

基于以上選取數據的原則,本文從數據庫中抽取了500條數量相當的差評留言和好評留言。

2.1.2 雙重否定短語的確定

一般情況下,一條留言中出現否定詞就會被判定為差評。例如:“講課太過于粗糙,條例不太清晰”,這樣的留言中含有“不”,會被判定為差評,這樣進行判定看似是理所當然的,實則不然,例如留言“注意啟發學生課外閱讀,不拘泥于課本,能調動學生積極性,活躍課堂氣氛”,其中含有“不”,但是“不”后面跟的是“拘泥”,在語言中,雙重否定表達的是肯定意思,根據語義分析這是好評,但是訓練器把它標記成差評了,這樣不符合客觀事實。為了解決這個問題,本文把兩個表達否定意義的詞語組合成一個短語,形成一個表示肯定意義的短語,優先對這些組合起來的二元詞語匹配,并在后續處理過程中把這些短語當做一個詞語對待。

在留言中經常出現的雙重否定詞語包括:不拘泥、不單純、不忘、不脫離、不失、不死、不死板、不拘于、不枯燥、不只、不少、不錯、不容易等等。

2.2 特征詞的四種選擇標準

2.2.1 基于頻率的過濾方法

基于頻率的過濾方法中,一條留言中一個詞語出現一次以上都是按照一次計算。本文采用了長匹配優先的方式對其進行匹配。如果一個詞語包含另一個詞語,則被包含的詞語的次數不能加一,例如第一條留言中出現“清楚”,包含“清”,第二條留言中包含“清”,則“清”出現的次數只能是一次,而不是兩次,還有一種特殊情況是“松”被分作了兩個詞性,“松/a”和“松/ng”,對于這種情況需把所有詞語的詞性去掉之后再統計這個詞語出現的次數。去掉出現頻率低于二次的留言之后,還剩下407個詞語。

2.2.2 基于信息增益的過濾方法

基于信息增益的過濾方法中,根據IG計算公式計算需要留下的IG值:

c表示類別,屬于此類或者不屬于;τ表示此特征出現與否,布爾型。若特征與類別無關,則IG=0。按照IG值的大小排序,獲取IG值較大的407個詞語。

2.2.3 基于條件概率比的過濾方法

基于條件概率比的過濾方法,根據下面公式計算P(word),P1=P(word|C1),P2=P(word|C2):

在這里P(word)越小越有意義,說明word在不同類別中出現的概率差異大。若P1/P2=1或者P2/P1=1,則說明word的出現與類別判斷無關,可去掉;若P1/P2=0或者P2/P1=0,則說明word的出現與類別高度有關,此類詞語需保留。

2.2.4 基于期望值差異的過濾方法

基于期望值差異的過濾方法,其具體計算方法是:一個詞項word在類i中出現的期望值ei=word在所有數據表中出現的總次數×P(Ci),令fi表示word在類i中出現的實際次數,則

其中E的值越大越有意義。

3 實驗結果分析

在Intel雙核CPU、主頻3.06 GHz、內存2 GB的臺式機上實現一個實例,來驗證本文算法的有效性。

3.1 數據集

本文使用山東女子學院教務系統2011年評教數據作為數據來源,原始數據來源于教務系統中的學生留言,共計3 000條。由于這些數據包含無意義數據,經過篩選,從前1 000條數據中選出500條作為訓練數據集,預測數據集為從后2 000條中篩選出的1 309條數據。

3.2 訓練

本文基于真實數據集,利用四種詞語過濾算法,使用SVM進行訓練。訓練結果如表1和圖2所示,表1中標記為“0”的訓練結果為負面評價,標記為“1”的訓練結果表示為正面評價,每個單元格中的三個數字分別表示正確率、錯誤率和拒識率。

表1 訓練集實驗結果

圖2 訓練集實驗結果統計

從表1和圖2可以看出,基于頻率的過濾方法、基于信息增益的過濾方法、基于期望值差異的過濾方法訓練數據的正確率達到了80%以上,錯誤率都低于20%,但是基于條件概率比的過濾方法正確率不到50%。從這些數據來看,針對學生評教留言文本,選擇基于頻率、信息增益、期望值差異的詞語過濾方法能夠達到較好的效果。

3.3 預測

預測結果如表2和圖3所示,表2中標記為“0”的訓練結果表示為負面評價,標記為“1”的訓練結果表示為正面評價,每個單元格中的三個數字分別表示正確率、錯誤率和拒識率。

表2 預測集實驗結果統計

圖3 預測集實驗結果統計

從表2和圖3可以看出,基于頻率的過濾方法、基于信息增益的過濾方法、基于期望值差異的過濾方法預測數據的正確率達到了70%以上,錯誤率都低于30%,基于期望值差異的過濾方法錯誤率低于20%,與其他三種算法相比,基于期望值差異的詞語過濾算法效果最好。從這些數據來看,針對學生評教留言文本,基于期望值差異的詞語過濾算法與SVM結合能夠達到較好的效果。

4 結論

本文特別針對高等學校學生評教留言,通過實驗研究了基于頻率、信息增益、條件概率比、期望值差異的四種詞語過濾方法與支持向量機結合,最終給出文本傾向性結果的效果,通過對比分析,得出基于期望值差異的詞語過濾方法與支持向量機結合的算法,能夠對學生評教留言的傾向性給出較優的預測結果。

[1] 唐慧豐. 基于監督學習的中文情感分類技術比較研究[J].中文信息學報, 2007,21(6):88-94.

[2] 柴玉梅,熊德蘭,昝紅英. Web文本褒貶傾向性分類研究[J].計算機工程, 2006,12(9):89-91.

[3] 楊超,馮時,王大玲,等.基于情感詞典擴展技術的網絡輿情傾向性分析[J].小型微型計算機系統, 2010,31(4):691-695.

[4] 何鳳英.基于語義理解的中文博文傾向性分析[J].計算機應用, 2011,31(8):2130-2137.

[5] 李艷紅,程翔.基于網絡論壇文本挖掘的筆記本電腦滿意度研究[J].微型機與應用,2014,33(18):61-65.

[6] TAN S,ZHANG J.An empirical study of sentiment analysis for Chinese documents[J].Expert Systems with Applications, 2008,34(4):2622-2629.

[7] PRABOWO R, THELWALL M. Sentiment analysis: a combined approach[J]. Journal of Informetrics, 2009,3(2):143-157.

[8] LI N, WU D D. Using text mining and sentiment analysis for online forums hotspot detection and forecast[J]. Decision Support Systems, 2010,48(2):354-368.

[9] STEFANO B,ANDREA E, FABRIZIO S.SentiWordNet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining[C]. Proceedings of the Seventh Conference on International Language Resources and Evaluation. Malta:European Language Resources Association ,2010:2200-2204.

[10] PANG B,LEE L.Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008,2(12):131-135.

[11] ERIK C,BJORN S, YUNQING X, et al. New avenues in opinion mining and sentiment analysis[J]. IEEE Intelligent Systems, 2013,2(28):15-21.

[12] LIU B,ZHANG L. A survey of opinion mining and sentiment analysis[M].New York:Springer US, 2012.

[13] THERESA W,JANYCE W, PAUL H. Recognizing contextual polarity in phrase-level sentiment analysis[C]. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg:Association for Computational Linguistics, 2005:347-354.

[14] EFTHYMIOS K,THERESA W, JOHANNA M. Twitter sentiment analysis:the good the bad and the OMG![C].Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, New York:Springer US, 2011:538-541.

[15] PANG B,LEE L.A sentimental education: sentiment analysis using subjectivity summarization based on minimum cuts[C]. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Stroudsburg:Association for Computational Linguistics, 2004:212-217.

[16] DAVE K,LAWRENCE S,PENNOCK D M.Mining the peanut gallery:opinion extraction and semantic classication of product reviews[C].Proceedings of the 12th International Conference on World Wide Web, New York:ACM,2003:519-528.

[17] PANG B.LEE L.Thumbsup sentiment classification using machine learning techniques[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,2002:79-86.

展訊通信推出紫潭安全解決方案

北京,中國 2016年1月24日——展訊通信(上海)有限公司(以下簡稱“展訊”),作為中國領先的2G、3G 和4G無線通信終端的核心芯片供應商之一,今日正式推出面向智能手機及物聯網等應用領域的紫潭安全解決方案。該方案作為中國首款搭載可控芯片及操作系統的雙OS安全解決方案,將實現硬件平臺、操作系統以及生物識別等關鍵技術的高度安全,從而重新定義國產安全智能終端的標準。

為了應對移動終端及物聯網發展中日益普及而爆發的信息安全問題,紫光集團旗下的展訊開發了基于自主安全可信架構的智能終端解決方案——紫潭,該方案具備生物識別、公私分離、硬件加密、安全通信、可管可控、整機安全六大特色。特別是其硬件平臺采用展訊自主研發的安全定制芯片——椒圖,支持可信計算STEE安全級別的安全應用處理器,代碼安全認證的安全啟動模塊,符合國際和中國標準加解密算法的加密模塊,實現語音/數據加密通信的安全通信處理器,以及敏感數據特殊區域存儲的存儲加密。

通過專用加密通信技術、代碼防篡改技術、安全運算區隔技術,椒圖從最核心的芯片硬件源頭解決整個移動終端系統的完整性和安全性。作為一款采用28 nm工藝的八核五模LTE智能安全手機芯片,它具有更強運算能力的ISP、GPU及更低功耗。該芯片從硬件源頭解決系統完整性、關鍵應用完整性等問題,可防止篡改Boot、OS、服務及應用,杜絕惡意代碼運行。

展訊通信有限公司董事長兼首席執行官李力游博士表示:“手機安全和芯片有200%的關聯,從安全意義上將,芯片的自主可控、自主設計顯得極其重要。作為中國本土的芯片設計企業,展訊通信責無旁貸地扛起這份重任。此次推出的紫潭安全解決方案是第一次真正實現了從硬件、周邊附件、芯片物理層、底層基礎軟件到上層應用軟件安全可信,自主可控的目的。”

中國工程院倪光南院士對紫潭安全解決方案表示肯定:“在信息核心領域,我們不能受制于人,要做到真正的自主可控,安全可信。很高興看到基于紫潭方案的安全手機的推出,搭載展訊自主研發的芯片并集成雙OS操作系統,在保密通話、虹膜識別技術上的應用創新,實現了技術上的巨大突破,它的產業轉化將對信息安全具有重要的意義。”

更多信息,敬請訪問:www.spreadtrum.com

(展訊通信供稿)

Orientation analysis for student comments

Li Xiaowei

(School of Information Technology, Shandong Women’s University, Jinan 250300, China)

In the teaching evaluation system of most universities, student comments accumulate year by year, and have been a source with huge amount of information. How to use these comments to reflect the capability of a university to enhance and improve its level and methods of teaching has been an urgent lask. This paper fell in the scope of text orientation and gave orientation analysis of student comments using feature selection such as frequency, information gain, probability ratio, and difference in expectation, and used the software named ICTCLAS to get the segmentation of comment text. Then it used LIBSVM to train and predict data and used Matlab software to run singular value decomposition and dimensionality reduction. The system can give emotional tendentiousness as the result of the comment analysis. Examples are given to show the performance of our algorithm.

orientation analysis; segmentation; feature selection; dimension reduction; support vector machine

山東省高等學校人文社會科學研究項目(J14WJ02);全國統計科學研究計劃(2012LY022);山東省自然科學基金(ZR2011FL005)

TP391

A

1674- 7720(2016)03- 0024- 04

李效偉.學生評教留言的傾向性分析[J] .微型機與應用,2016,35(3):24- 27,30.

2015-10-05)

李效偉(1989-),男,研究生,助教,主要研究方向:人機交互與虛擬現實。E-mail:xiaowei_li@hotmail.com。

猜你喜歡
文本方法學生
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
趕不走的學生
學生寫話
學生寫的話
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 美女一级免费毛片| 亚洲欧美成人网| 国产91特黄特色A级毛片| 午夜视频在线观看区二区| 2020最新国产精品视频| 亚洲国内精品自在自线官| 亚洲欧美日韩中文字幕在线一区| 免费黄色国产视频| 亚洲综合日韩精品| 欧美在线导航| 国产经典在线观看一区| 欧美日韩精品一区二区视频| 欧美色伊人| 国产一区二区丝袜高跟鞋| 国产乱子伦一区二区=| 国产网站一区二区三区| 国内精品久久九九国产精品| 在线va视频| 波多野结衣中文字幕久久| 不卡的在线视频免费观看| 久草美女视频| 性网站在线观看| 久久无码高潮喷水| av手机版在线播放| 小说 亚洲 无码 精品| av无码一区二区三区在线| 亚洲不卡av中文在线| 试看120秒男女啪啪免费| 国产嫖妓91东北老熟女久久一| 美女潮喷出白浆在线观看视频| 亚洲欧美精品在线| 丁香亚洲综合五月天婷婷| 黄色福利在线| 欧美视频在线播放观看免费福利资源 | 特级aaaaaaaaa毛片免费视频| 呦女亚洲一区精品| 理论片一区| 五月丁香在线视频| 少妇高潮惨叫久久久久久| 亚洲区第一页| 欧美亚洲一二三区| 91福利片| 9966国产精品视频| 在线亚洲精品自拍| 麻豆AV网站免费进入| 毛片a级毛片免费观看免下载| 露脸国产精品自产在线播| 无码专区在线观看| 国产一区二区三区精品欧美日韩| 国产精品精品视频| 日韩黄色精品| 热这里只有精品国产热门精品| 国产麻豆精品手机在线观看| 亚洲中文字幕日产无码2021| 一区二区自拍| 国产99视频精品免费观看9e| 99热国产在线精品99| 精品视频一区二区观看| 激情亚洲天堂| 亚洲精品在线观看91| 香蕉精品在线| 国产成人成人一区二区| 国产精品久久久久久影院| 无码aaa视频| 中文无码影院| 国产成人精品免费av| 国产香蕉97碰碰视频VA碰碰看| 免费啪啪网址| 2022精品国偷自产免费观看| 国产人妖视频一区在线观看| 久久精品丝袜高跟鞋| 久草热视频在线| 国产99欧美精品久久精品久久| 成人无码一区二区三区视频在线观看| 全午夜免费一级毛片| 国产精品主播| 国产成人毛片| 在线观看亚洲国产| 国产在线观看人成激情视频| 成人午夜视频在线| 国产精品成| 国产男女XX00免费观看|