999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進特征權重的短文本聚類算法①

2018-09-17 08:49:42郭銳鋒
計算機系統應用 2018年9期
關鍵詞:語義文本情感

馬 存,郭銳鋒,高 岑,孫 詠

1(中國科學院大學,北京 100049)

2(中國科學院 沈陽計算技術研究所,沈陽 110168)

1 相關工作

隨著移動終端智能化的發展,紛繁多樣的短文本信息充斥著互聯網的各個角落.由于短文本信息少,口語化嚴重,網絡新詞多,使用傳統的文檔聚類會導致向量空間模型高度稀疏,缺乏語義信息,所以需要針對短文本的固有特點尋求一種有效的模型表示和聚類方法.

傳統的向量空間模型,主要通過特征詞和權重來表示短文本數據,它的缺點也很明顯,它忽略了同義詞在語義中的貢獻并且會出現特征稀疏的問題,進而造成維數災難.為了解決短文本特征稀疏的問題,一些學者研究了外部信息增強的方法,對短文本特征進行擴展,從而提高聚類效果[1–3].然而語義擴展方法并沒有解決“維數災難”的問題,還帶來了新的問題,比如聚類的效果完全依賴于知識庫的豐富程序,無法識別新興的網絡新詞,比如 2016 年流行的“老司機”,“發車了”等.另有一部分學者通過原始高維特征詞空間映射到低維的潛在語義空間或主題空間,挖掘文本潛在的語義結構[4–6].但這種模型忽略了低頻詞的貢獻,尤其是短文本中貢獻度高的低頻詞,導致上述模型應用于網絡短文本中的效果很差.

詞向量是一種基于大量未標注的語料學習而來的低維分布式實數向量,充分挖掘了同義詞之間的共現關系[7,8].基于此,本文結合短文本的特點和詞向量的優勢,提出一種改進的特征詞權重并結合松弛詞語移動距離(RWMD)的短文本聚類算法.首先,定義多因子權重規則,如文本中詞性和情感詞,對于情感詞的處理主要包括文字和表情符號,接著使用Skip-gram模型基于定義好的權重規則訓練特征詞向量,最后引入RWMD距離計算文本之間的相似度并以此聚類.實驗結果表明本文提出的方法切實可行,尤其是在網絡短文本中效果明顯.

2 改進的特征詞向量及聚類模型框架

2.1 改進策略

短文本數據,尤其是論壇帖子,商品評論以及微博和微信的聊天記錄,形式復雜多樣,包含各種表情符號,在數據預處理階段不能簡單的將表情符號當作噪聲直接去除,否則會失去一部分語義信息,即情感信息;另外由于數據包含的短文本的長度也大小不一,因此關鍵詞的位置因素也必須考慮在內;再者就是詞性對短文本的影響[9],名詞、動詞、形容詞和副詞是文本特征的重要組成部分,因此詞性的貢獻也不容忽視.基于此,本文在文獻[8]中提出的特征權重計算法進行了修改,提出一種融合表情符號、位置因素以及詞性信息的多因子加權策略的關鍵詞提取方法:

式中,Weight(w)表示詞語w在文本d中的權重,Weightsen表示單詞w在文本d中情感所占的權重,α,β,γ為加權系數,他們之和為1.Weightpos和Weightlen的計算公式參考文獻[8],Weightsen的計算公式為:

其中,tf(wi,d)表示特征Wi在文本d中的詞頻;N表示文本總數;表示所有文本集中出現第i個詞語的文本數量;senwi表示該詞的情感加權值,其具體值需要根據文獻[10]的研究內容加以定義,將表情符號歸為7個情感類別,結合實驗用數據集,分別統計每一類情感所占比例,以此比例作為senwi的加權值.定義如表1所列.

表1 情感類別系數

在預處理階段,當文本中含有表情符號時,會根據表1中的希臘字母進行替換.若一個短文本中含有多種表情符號,則根據多個表情符號的權值綜合計算其權重;若一個文本中不含有表情符號,則在特征詞權重的計算公式中,第3項將為0.即:

此時,α取經驗值0.6.本文將此模型記為EFA(Emotion Fusion Algorithm)算法.

2.2 訓練特征詞向量

本文使用Mikolov[11]提出的基于Hierarchical Softmax構造的Skip-gram模型訓練詞向量,它主要包括 3層結構:輸入層,投影層和輸出層,目標函數L如式(1)所示:

其中,V是數據詞典,Context(w)表示單詞w的上下文窗口,一般窗口值取5到10效果較好.

2.3 以特征詞表征的短文本相似度計算

文本采用RWMD距離算法來計算文本之間的語義相似度,RWMD算法是基于WMD算法放松限制條件來降低算法的復雜度[12]改進而來.RWMD算法是將一個短文本的特征詞向量全部流向另一個短文本的特征詞向量所經過的距離總和的最小值作為兩個短文本之間的語義相似度.

2.3.1 特征詞之間的語義相似度

RWMD算法在計算文本的相似度之前需要先計算特征詞之間的相似度,衡量兩個特征詞之間的相似度使用歐式距離來計算,即:

L的值越小,說明兩個詞越相近.

2.3.2 短文本之間的相似度計算

使用RWMD距離計算短文本d中所有特征詞流向短文本d′中所有特征詞距離和的最小值作為短文本d和短文本d′之間的相似度.假設允許短文本d中的每個特征詞可以流向d′中的任意一個特征詞,矩陣T ∈ Rn×n是轉移矩陣,其中Tij≥0,表示詞語i有多少轉移到了詞語j,C(i,j)表示詞語i和詞語j之間的語義相似度,目標函數為:

約束條件為:

2.4 K-means聚類算法流程

輸入:實驗所用的短文本數據集.通過數據預處理,并加權計算融合情感詞權重的特征詞集合,并由Softmax模型訓練而成的特征詞向量.輸出:具有K類的短文本集合.Step 1.指定聚類數目K,以及K個初始聚類中心.Step 2.指定 RWMD 算法為距離函數.Step 3.計算每個文本向量d與K個初始聚類中心的RWMD距離,將每個文本向量d分配給距離最小的聚類中心.Step 4.重新計算新的K個聚類中心.Step 5.重復 Step 3 及 Step 4,直到聚類中心小于閾值.

3 實驗與結果分析

3.1 實驗數據

本文采用了3種類型數據集:微博數據、文本分類通用數據和QQ群聊天數據.其中文本分類通用數據集從中選取5個類別的標題;聊天記錄數據人工標注出若干個聊天片段.具體描述如表2所示.

3.2 評價指標

為了使結果更有對比性,本文采用了文本聚類常用的準確率、召回率、和宏平均作為實驗結果的評價指標:

其中,Pij、Rij和Fij表示類別i在類簇j中的準確率、召回率和F1值,Ci表示正確類別i中的文本數,Cj表示結果中類簇j中的文本數,Cij表示結果中類簇j中原本屬于類別i的文本數,對于類簇j取各個類別中Fij最高的作為類別i的F1值,Fmacro表示宏平均的結果,m表示原始類別的個數.

3.3 實驗結果與分析

本文使用VSM,LDA和BTM這3中模型對文本進行表示來驗證模型的可行性和有效性,分別將結果記為KM-VSM、KM-LDA、KM-BTM,本文提出的模型結果記作KM-EFA.其中VSM中使用TF-IDF作為特征權重,LDA模型和BTM模型中主題數設為15,超參數 α和β 取經驗值50/K,β=0.01,迭代次數為2000.

3.3.1 對比實驗

在上文中介紹的3個數據集上分別使用上述4 種方法進行實驗,使用平均F值作為評價指標,結果如表3所示.從表中可以看出,基于主題模型的聚類評測結果一般要好于基于VSM模型的聚類結果,說明無法發現同義詞之間語義關系的模型會受到短文本數據特征稀疏的影響;基于BTM模型的聚類評測效果優于基于LDA模型的聚類效果,說明在短文本特征比較少的時候基于主題概率的統計方法統計出的數據意義不大.其中模型KM-EFA1是不考慮情感因素只考慮詞性和位置因素的評測結果,而KM-EFA2是考慮了所有因素的評測結果.對比發現,本文提出的方法評測結果要優于對比方法,在3個數據集的試驗中,性能比次優的結果平均提高了13.62%,從而驗證了本模型使用情感加權更能挖掘出詞之間的語義相似性,從而提高聚類效果.

表3 模型在數據集上的評測結果

3.3.2 特征值參數與權重系數分析

為了校驗特征詞選擇過程的參數K以及情感權重加權系數 γ對聚類的影響,本文在3個數據集上分別取γ等于 0.1、0.25 和 0.45,同時對參數K在[5,100]范圍以步長為5,進行遍歷,結果如圖1所示.

從圖中可以看出,當情感權重系數不同時,隨著K的變化,F值也變得有所不同.綜合來說,當特征K在[40,50]之間時,F值表現最好,這是因為K太小時,特征個數不足以表達完整的語義,當K太大時,句子的主題信息不明顯,會造成“富者越富”的現象,影響聚類效果.另外,當數據集中表現情感的詞比較多時,情感權重的大小會直接影響聚類的好壞.如微博和聊天數據含有大量情感詞,聚類的效果完全由情感權重決定,但在普通的分類文本中情感權重越大聚類效果則越差.

圖1 特征個數與權重參數分析

4 結束語

本文融合情感加權的方法有效的提高了短文本的聚類效果,尤其在微博微信等即時聊天的短文本數據中,效果更好,這是因為在這類文本中人們使用表情符號的頻率相對普通文本較高,此方法能充分挖掘符號下的語義信息.但隨著深入的研究,這類文本中也充斥著大量的不規范用語,如“狗帶”,“一顆賽艇”等,這些不規范用語對聚類結果產生一定的影響,尤其是一些拆分字沒有辦法對其準確的表示,比如“古月哥欠”,表達的是胡歌,但經過分詞之后,這幾個字會變得毫無意義,雖然這類詞語出現頻次較低,但往往這類詞語是短文本的核心語義,同時用戶故意使用這類詞語一般均會涉及不正當言論,是網絡監督和輿情管理的重要分析方向.因此,對這種現象的研究,具有重要的現實意義.

猜你喜歡
語義文本情感
如何在情感中自我成長,保持獨立
語言與語義
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产精品视频白浆免费视频| 亚洲香蕉久久| 午夜国产在线观看| 久久精品一卡日本电影| 国产特级毛片aaaaaa| 国产jizz| 丰满少妇αⅴ无码区| 暴力调教一区二区三区| 国精品91人妻无码一区二区三区| 欧美性久久久久| 亚洲AV色香蕉一区二区| 成人中文字幕在线| 国产精品亚洲va在线观看| 国产成人乱无码视频| 国产精品网址你懂的| yy6080理论大片一级久久| 国产成人高清精品免费软件 | 精品福利网| 国产浮力第一页永久地址| 久久伊人操| 97av视频在线观看| 国产一级二级在线观看| 亚洲三级片在线看| 日本影院一区| 久久久久青草大香线综合精品| 色色中文字幕| 日韩一级毛一欧美一国产| 热99精品视频| 亚洲V日韩V无码一区二区 | 亚洲Aⅴ无码专区在线观看q| 久久中文电影| 免费看一级毛片波多结衣| 欧美日韩资源| 欧洲亚洲欧美国产日本高清| 久久黄色影院| 色成人综合| 久久中文字幕不卡一二区| 手机在线国产精品| 久热re国产手机在线观看| 美女视频黄频a免费高清不卡| 亚洲精品你懂的| 午夜无码一区二区三区在线app| 国产成人精品18| 精品黑人一区二区三区| 亚洲欧美日韩中文字幕在线一区| 99视频免费观看| 国产精品自拍露脸视频| 日本成人福利视频| h视频在线观看网站| 高清乱码精品福利在线视频| 狠狠色噜噜狠狠狠狠色综合久| 亚洲无码视频一区二区三区| 精品人妻AV区| 99精品欧美一区| 在线观看亚洲人成网站| 国产自视频| Aⅴ无码专区在线观看| 亚洲欧洲日产国产无码AV| 亚洲av片在线免费观看| 欧美视频在线第一页| 91精品福利自产拍在线观看| 国产美女精品一区二区| 久久久精品无码一二三区| 国产精品护士| 天堂岛国av无码免费无禁网站| 亚洲人成色77777在线观看| 天天色综网| 岛国精品一区免费视频在线观看 | 国产精品99在线观看| 美女高潮全身流白浆福利区| 伊人无码视屏| av大片在线无码免费| 国产高清色视频免费看的网址| 久久永久免费人妻精品| 国产精品蜜芽在线观看| 东京热高清无码精品| 伊人网址在线| 美女一区二区在线观看| 国产精品开放后亚洲| 91成人免费观看| 在线国产91| 一本大道无码日韩精品影视|