張 影,劉紅美
(三峽大學理學院,湖北 宜昌 443000)
在大數據和信息化的時代特征下,網絡平臺無疑為收集海量的文本數據提供了便捷,如何快速、有效、精確地篩選出主要信息并對其分類、答復,是一個需要不斷精化、持續進步的課題。為了不斷改進智能文本挖掘模型及算法,對計算機讀取的研究引起了人們的廣泛關注。
計算機讀取技術的發展對信息檢索、自動文摘、答復系統等自然語言處理研究任務有積極作用,同時也能夠直接改善搜索引擎、智能APP 等產品的用戶體驗。因此,以讀取篩選、文本挖掘為契機研究機器自然語言的技術,在有限的信息范圍內要做到準確全面處理,具有重要的研究與應用價值。
網絡問政平臺作為一種新興模式,以其快捷、不受時空限制等優點而受到政府機構的青睞。借助網政平臺收集群眾反饋的海量信息數據,是實時了解民意、匯聚民智、凝聚民氣的重要渠道。如果能從群眾留下的信息中敏銳地捕捉信號,不僅能夠提升政府的管理水平,同時也能更好地為群眾百姓提供服務,進行互贏模式間的雙向信息傳遞。本文針對智慧政務的文本挖掘問題,采用潛在語義分析、聚類分析、主成分分析方法,基于留言的一級標簽分類,實現了對熱點問題的挖掘和排名。
數據來源為“智慧政務”互聯網公開渠道,對其留言的一級標簽分類簡述的處理過程如下。
基于Python,采用sklearn 提供的函數劃分數據集,實現分層抽樣,以保證60%訓練集、20%驗證集、20%測試集3 部分數據的一級標簽分布均勻性。
數據清洗:清除附件“留言詳情”欄附有HTML 標簽、URL 地址等文本標記的無效分類信息以及標點符號,去除噪聲,為后續分類奠定基礎。分詞采用Python 開發的一個中文分詞模塊——jieba 分詞器,分詞效果如圖1 所示。
建立停用詞字典:維護一個停用詞表,在分詞后將停用詞去除。
基于TF-IDF 對文本特征進行提取[1],以向量空間模型(VSM)[2]表示文本留言。
Word2vec 是一個Estimator,它采用一系列代表文檔的詞語來訓練Word2vec model。該模型將每個詞語映射到一個固定大小的詞向量,將文本結構化。
2.1.1 語義空間降維
通常情況下,當得出文本向量后,直接比較兩向量的夾角的余弦值,并進行相似度計算。但是,針對智慧政務平臺上的留言所構造的詞匯-文本矩陣是一個巨大矩陣,計算起來比較困難。另外,留言文本信息中存在同義詞和近義詞等詞語,即使通過特征抽取轉化得到的文本向量,可能仍然達不到自然語言屬性本質的要求。
因此,這里需要借用潛在語義分析(Latent Semantic Semantic Analysis,LSA)理論[3]將留言信息中文本向量空間中非完全正交的多維特征投影到維數較少的潛在語義空間上。而LSA 對特征空間進行處理時用的關鍵技術是奇異值分解(Singular Value Decomposition,SVD),在統計學上,它是針對矩陣中的特征向量進行分解和壓縮的技術。

圖1 過濾后分詞結果
2.1.1.1 一般的奇異值分解
奇異值分解可以將網頁文本通過向量轉換后的非完全正交的多維特征投影到較小的一個潛在語義空間中,同時保持原空間的語義特征,從而可以實現對特征空間的降噪和降維處理。奇異值分解是一類矩陣分解,是正規矩陣酉對角化的一種推廣。對于任意的矩陣A,其奇異值分解表達式為A=U∑VT,其中A∈Rm×n,且Rank(A)≤min(m,n),正交矩陣(即A的左右奇異向量),U∈Rm×m和V∈Rn×n,半正定對角矩陣…≥σr≥0,UUT=Im,VVT=In。
在奇異值分解A=U∑VT中,有A的k階截距陣即:

由上述可知,在F-范數中,Ak是和A相似度最高的k秩矩陣,這將用于矩陣降維。
2.1.1.2 詞匯-文本矩陣的奇異值分解
對于矩陣詞匯-文檔矩陣Am×n的奇異值分解可表示為:

∑矩陣表示某類詞與留言文本之間的相關性。在生成的“語義空間”中,大的奇異值對應的維度更具有詞的共性,而小的奇異值所對應的維度更具有詞的個性。

在A矩陣中,Ui和∑決定每一行i的信息,和∑決定每一列j的信息。對角矩陣∑的信息主要由奇異值大小決定,奇異值越大,對∑的影響也越大,對整個矩陣的影響也越大。因此,可以通過保留較大的奇異值,刪去較小的奇異值,從而對矩陣進行行與列的降維處理。
另一方面,∑矩陣的奇異值σ1≥σ2≥…≥σr中,如果σi(1,2,…,r)的值比較小,則它對整個詞匯-文本矩陣A的影響也小,所以可以刪除對矩陣A影響較小的σ以及對應的U和VT的信息,保留影響較大主要信息,得到Am×n的近似矩陣Ak。

在不影響留言文本分析結果的同時對矩陣進行降維處理,簡化了運算的復雜度。
通常情況下,前10%的奇異值的和占總奇異值和的99%。k值的選取決定著近似矩陣的相似性,k值的大小與主要信息的承載量成正比,k值越大,所包含的主要信息越多,相應地對次要信息的刪除就會減少,且會減弱降維的效果,而取值越小,則會刪除更多信息,以至于剩下的信息沒有很好的區分度。
由于在∑矩陣中只取非零的奇異值,只要滿足m×n≥m×k+n×k+k×k(近似矩陣中的三個矩陣的元素個數),即可以去掉次要的信息,保留主要信息,達到降維的目的,降低計算機對存儲的要求,從而保證聚類的準確性。
2.1.2 向量語義化
對某一特征項為n的文本向量t進行奇異值分解以及t在進行k維映射后得到的向量t′為:進行語義壓縮后的向量被認為投影在同一空間里,然后方可進行文本聚類。
2.1.3 文本聚類
2.1.3.1 留言文本相似度計算
為表示不同留言間的差異,先計算基于距離度量的歐幾里得距離,再轉化為余弦相似度[4]。
令i=(x1,x2,…,xp)和j=(y1,y2,…,yp)是兩個被p個數值屬性標記的對象,則對象i和j之間的歐氏距離,以及根據余弦相似度和歐氏距離的關系,留言文本間的余弦相似度可表示為:

2.1.3.2 基于K-means 聚類[5]的文本聚類
該算法要求在計算之前給定k值。本文通過初步估計留言數據中的熱點問題數,并以此給定k的值,這里令k=7 為初值,根據后續的熱度值大小,進行適當增減k的值,也就是對熱點問題的數量進行調控。原理流程如圖2 所示。主成分基本步驟如圖3 所示。

圖2 K-means 聚類流程圖

圖3 主成分基本步驟
2.2.1 矩陣和特征量的計算
考慮到影響熱點問題間的差異性,將每個熱點問題所包含的留言數、留言時間密集度、點贊數、反對數等作為評價指標。
希望用較少的綜合變量來代替原來較多的變量,而這幾個綜合變量又能盡可能多地反映原來變量的信息,并且彼此之間互不相關。
標準化指標變量:選取m1個指標,
計算相關系數矩陣R的特征值λ1≥λ2≥…≥λm1≥0,及對應的特征向量a1,a2,…,am1,其中aj=[a1j,a2j,…,am1j]T,由特征向量組成m1個新的指標變量:

2.2.2 主成分的選擇
為達到降維,選取部分更具代表性的主成分,計算各主成分Fj的信息貢獻率bj及F1,F2,…,Fp的累計貢獻率αp:

當αp接近于1(取αp>0.95)時,則選擇前p個指標變量F1,F2,…,Fp作為p個主成分,代替原來m1個指標變量,從而可對p個主成分進行綜合分析。
2.2.3 主成分分析的綜合評價
篩選出p個主成分;通過標準化指標前特征向量數值的相對大小,分析各主成分主要反映的對應指標。
以p個主成分的信息貢獻率為權重,構建綜合評價模型求出綜合分
在純文字文本下,調用Python 的庫函數,根據語義分析LSA 的奇異值分解SVD 技術和K-means 算法,實現留言語義空間降維,將相似問題聚類并實現熱點挖掘。
經統計,數據來源共有4 326 條留言,經Python 處理得每個熱點的留言信息,首先分層篩選出留言文本在前175 條的熱點占總留言內容的98.86%,因此其余留言可以忽略不計,進而構造上述指標,利用SPSS 對其進行綜合排名。
對篩選得到的數據導入SPSS 進行標準化處理,得到各標準化指標的解釋方差,如表1 所示。
由表1 可知,成分1~6 的因子比較重要,其方差累計貢獻率達到了92.6%(>90%)符合主成分分析方差提取原則。考慮到因子較多時,剔除主成分的第一行特征值小于1的因子,因此成分1~4 的因子是主導作用的。

表1 解釋方差
對篩選出的4 個主成分,經計算得如下各標準化指標前的特征向量表,如表2 所示。

表2 特征向量矩陣
將得到的特征向量與標準化后的數據相乘,可以得出各個主成分得分值。以每個主成分所對應的特征值占總特征值的比例作為權重計算主成分綜合得分F,其中λi表示第i主成分因子的特征值。

得到綜合排名分F以及排名前5 的熱點問題,如表3所示。

表3 熱點問題表
本文的研究是針對智慧政務平臺的留言信息,結合所建模型以及算法對留言進行了充分挖掘,原理可解釋性極強,實驗也表明其結果具有可靠性和有效性,非常適用于此類大量文本數據的情況。對熱點問題的排名采用主成分分析法,很好消除了評價指標之間的相關影響,減少了指標選擇的工作量,且便于實現。
為了更好地對類似政務平臺單位進行政務文本挖掘,解決文本熱點留言的挖掘問題,推進簡化平臺的發展,對智慧政務留言信息文本進行了詳細分析研究,具有一定的理論研究意義和廣泛的實際應用價值。
對留言文本采用降維方式匹配篩選的綜合模型,如何精簡所建模型及算法,同時對留言的情感語義進行分析,是筆者們下一步的工作。