999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合神經網絡的文本降維方法*

2020-03-20 07:56:52陳新元謝晟祎
福建輕紡 2020年3期
關鍵詞:文本方法模型

陳新元,謝晟祎

(1.福州墨爾本理工職業學院 信息工程系,福建 福州 350108;2.福建農業職業技術學院 實驗實訓中心,福建 福州 350119)

1 引言

隨著科技和社交網絡的進步,人們的交流呈現在線化、數字化的趨勢。微博是國內的主流社交網絡平臺之一,類似國外的Twitter;截至2018年,活躍用戶數達到4.62億(出自微博數據中心發布的2018年用戶發展報告)。人們可以在微博上分享其觀點和情感,可以發表微博或對其他用戶的微博進行評論。此外,微信、人人等IM工具或平臺也有大量的社交信息。

對社交文本進行分析,可發現網絡意見領袖,可提取、監控、跟蹤網絡輿情[1],還可進一步將數據挖掘的結果用于構建情感網絡模型,或用于商業領域如產品、服務的智能推薦等。

文本分析的基礎是構建表示模型。傳統的文本特征表示方案多采用向量空間模型(VSM),將文本表示為特征向量,向量取值代表了特征權重。當文本較短時,特征詞數量也較少,且動態性較強,故生成的特征多為稀疏矩陣;隨著文本規模的增長,特征向量矩陣的維數巨大,出現了維度災難,因此文本降維具有重要意義。

傳統聚類方法可分為劃分法和密度法,前者根據距離等標準,給定分區數K,通過初始劃分并反復迭代的方法優化樣本的劃分,將數據集構造為K個分組,令同一個組內的對象盡可能接近或相關,每個分組代表一個聚類。密度法則是計算區域內點的密度,若密度超過閾值,則加入相似聚類;密度法可克服基于距離的算法只能發現“類圓形”的缺點[2]。

本文希望能進一步提高表示模型構建的準確率,因此嘗試對幾種主流降維方法進行分析,并在真實數據集上比較其降維效果。在此基礎上,結合神經網絡實現聚類,將分詞后的微博文本表示為特征詞簇,從而優化文本表示模型。實驗階段將自組織神經網絡的表現與傳統k-means算法比較以驗證方案的有效性。

2 結合神經網絡的文本降維方法

2.1 隨機映射(RP)

根據Johnson-Lindenstrauss引理,可以在多項式時間內將高維空間映射到O(log )維的子空間上;同時對于任意0<ε<1,點間距離偏差可控制在1±ε以內。因此對于m×n的矩陣Mm×n,可通過Mm×n·Rn×r = M’m×r(r<<n)的方式降維,其計算復雜度為O(mnr),若原矩陣為稀疏矩陣,可進一步將計算復雜度降至O(cmr),其中c<n為行內非0元素的均值。

2.2 非負矩陣分解(NMF) [3]

由于文本特征矩陣的元素值非負,故可以分解為2個非負矩陣的乘積,即Mm×n = Km×r×Rr×n(r<<n),(m+n)×r < mn。取原矩陣和矩陣R的第i列,可表示為Mi = KRi,則Mi則可視作關于K的正線性組合,系數為Ri。K=[w1, w2, …, wr]可看做是對M進行線性估計的優化的基向量,可嘗試用用較少的基揭示M的數據結構。該算法具有收斂快、存儲空間小等優點,適用于大規模文本。

2.3 隱含語義分析(LSA)

文本用詞多樣性并非可靠的概念表示,相反很可能掩蓋了其語義結構,因此LSA方法通過奇異值分解實現降維,將矩陣W表示為W=UAVT,U、V分別是對應的左右奇異向量矩陣,A是W按奇異值遞減構成的對角矩陣;通過構建近似矩陣Wr=UrArVrT實現降維以突顯語義特征,Ur和Vr分別作為文本向量和詞向量。通過奇異值分解和近似矩陣設計,LSA在很大程度上消除了文本噪聲[4]。但奇異值分解資源開銷較高,達到O(mn2),因此LSA通常用于少量文本的處理。此外,若文本為稀疏矩陣,同樣可將復雜度降至O(cmn),其中c<n為行內非0元素的均值。3種方法中,RP和NMF的復雜度低于LSA。

2.4 基于神經網絡的特征詞聚類算法

基本思路為特征詞的上下文越相似,其應用環境和語義就越相似[5];因此將特征詞左右各n個詞計入上下文考慮范圍,根據上下文的相似度,使用神經網絡實現自動聚類。

具體過程如下:

⑴ 在給定特征詞集合的基礎上,使用Huffman編碼;

⑵ 設置context窗口參數并進行提取,將特征詞自身作為第1層DBN的輸入,其上下文作為第1層輸出,訓練DBN,得到最能代表該特征詞的窗口向量;

⑶ 將DBN的輸出作為SOM神經網絡的輸入,其輸出即為相同或相近語義的特征詞聚類結果。

3 實驗與結果分析

實驗所用硬件為:Xeon 3104×2;16G×8內存;1.2T SAS硬盤×3,Raid5。

本文自建微博數據集,使用分布式的爬蟲系統同時通過微博API接口和Web頁面提取信息,隨機抽取話題;使用中科院的ICLCLAS對抓取的數據進行分詞和停用詞處理等預處理操作,最后得到分割后的文本單元。

分別運用RP、NMF和LSA等方法作降維處理(r=100和r=200),采用SOM神經網絡進行文本聚類分析,在來自4個話題的10萬、20萬、50萬條微博短文本上比較降維用時和聚類平均準確性,結果如表1、表2所示。分析可知:

表1 降維用時 (單位:s)

⑴ 與計算量少的RP方法相比,NMF和LSA的耗時高出許多;后兩者間,耗時隨著數據集規模增加逐漸接近;在50萬條數據集上,無論r取100或200,NMF和LSA的用時基本一致;

⑵ 3種降維方法都能在一定程度上提高聚類的準確率,相比RP,NMF和LSA的聚類準確率有明顯提高,能夠在一定程序上降低噪聲的影響;LSA的準確率最高。

此外,實驗中使用了增量算法對文本分塊并不斷更新表示模型,同時使用了Storm框架提高分析效率,實現文本表示模型的動態更新。具體過程如下:LogHub系統接收文本后,使用并行Spout組件讀取文本;將數據副本緩存在IRichBolt中;數據通過增量模型,經聚類和降維后發送到IncrementBolt;最終通過HBase Shell進行實時表示和分析。

4 結論

文本降維是特征矩陣表示模型優化的重要環節,合適的文本降維方法有助于提高聚類準確性。實驗數據表明,RP、NMF和LSA方法都能在一定程度上改善聚類表現;基于神經網絡的聚類方法相比傳統K-means方法也有一定改善。另外,降維矩陣的選擇和計算,對于方法用時和準確率也有一定影響,相關參數的計算可作為今后研究的內容。

表2 聚類平均準確率

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 中文字幕在线视频免费| 成人在线天堂| 中文字幕人妻av一区二区| 免费又黄又爽又猛大片午夜| 在线中文字幕日韩| 亚洲成a人片在线观看88| 亚洲天堂精品视频| 国产香蕉在线视频| 久久精品国产亚洲麻豆| 伊人中文网| 大学生久久香蕉国产线观看| 久久黄色影院| 欧美在线精品一区二区三区| 国产乱视频网站| 国产91成人| 91在线精品麻豆欧美在线| 色综合成人| 亚洲国产在一区二区三区| 亚洲天堂2014| 在线国产91| 欧美有码在线观看| 精品免费在线视频| 国产理论精品| 国产一级精品毛片基地| 亚洲成网站| 2020国产精品视频| 99在线视频免费| 爱色欧美亚洲综合图区| 国产在线91在线电影| 91亚瑟视频| 国产a v无码专区亚洲av| 亚洲天堂区| 国产a v无码专区亚洲av| 午夜欧美在线| 日韩午夜福利在线观看| 欧美精品一区在线看| 亚洲中文字幕久久精品无码一区| 中文字幕精品一区二区三区视频 | 亚洲狼网站狼狼鲁亚洲下载| 91系列在线观看| 国内自拍久第一页| 综合色天天| 国产成人综合亚洲欧洲色就色| 欧美精品成人一区二区视频一| 精品欧美视频| 午夜天堂视频| AV不卡国产在线观看| 免费在线色| 这里只有精品国产| 人妻丰满熟妇啪啪| 99热这里只有精品国产99| 亚洲精品自产拍在线观看APP| 高清无码一本到东京热| 国产一区二区影院| 欧美一级99在线观看国产| 伊人久久精品无码麻豆精品 | 亚洲娇小与黑人巨大交| 青草视频在线观看国产| 国产精品白浆无码流出在线看| 2020精品极品国产色在线观看| 亚洲免费人成影院| 亚洲国产日韩一区| 国产美女无遮挡免费视频网站| 高清无码手机在线观看| 五月天福利视频| 福利在线不卡| 99精品一区二区免费视频| 国内精品久久久久久久久久影视 | 国产精品人人做人人爽人人添| 国产女人在线| 国产色偷丝袜婷婷无码麻豆制服| 国产激情在线视频| 亚洲国产精品日韩专区AV| 男人天堂伊人网| 国产精品污视频| 精品福利一区二区免费视频| 美女亚洲一区| 国产黄色免费看| 亚洲欧美日韩色图| 国产成人无码AV在线播放动漫| 亚洲午夜福利在线| 久久美女精品|