朱佳雯
(西安航空職業技術學院,陜西西安 710089)
近年來,心理疾病在大學生群體中出現的頻率越來越高,并由此導致惡性事件的發生,這不僅對家庭,也對學校和社會造成了一定的負面影響[1]。目前越來越多的高校開始重視學生的心理健康教育與指導工作,并對存在心理隱患的學生進行積極的引導及干預。但其中大部分高校仍是基于人工處理的方式來發現心理問題。該方式準確率較高但效率偏低,尤其是在面對海量數據時,其處理能力有限。此外,還有部分高校引入了一些數據分析算法,雖可保證處理效率,但仍難以達到分析準確率的要求[2-4]。
基于上述問題,該文基于BP 神經網絡(Back Propagation Neural Network,BPNN)和數據挖掘(Data Mining,DM)技術設計了一種智能化的高校學生情感分析與心理預警算法。該算法能在保證處理效率的同時,有效提高心理問題預警的準確率。同時功能性實驗與性能測試也充分驗證了,所提方法的有效性與穩定性。
數據挖掘是指從大量有噪聲、不規則的原始數據中,獲取之前未知且對用戶有價值信息的過程[5]。也可理解為是從包含海量數據的數據庫或數據系統中,提取并分析數據間無法被輕易發現的隱藏關系,并給用戶反饋有用信息的技術。該文采用的數據挖掘過程框架由數據準備、數據挖掘及結果評估與展示三個模塊組成[6],具體如圖1 所示。

圖1 數據挖掘基本過程
圖中展示了通過數據挖掘將原始數據轉換為可用知識的過程:
1)數據準備是整個數據挖掘過程中最基礎且工作量最大的環節,通常其所占比例在50%~70%之間。該模塊又可細分為數據采集、數據篩選、數據預處理及數據轉換四個階段[7]。其中,數據采集是指從網站論壇等相關渠道獲取未經加工的原始數據信息,并將其放入數據庫中。數據篩選是指根據數據挖掘任務需求確定挖掘計劃,再從數據庫中提取出符合數據挖掘需求的數據。而數據預處理負責對篩選數據中存在的異常加以處理,例如數據冗余、數據缺失和數據不標準等。對應的處理方法包括:數據去重、數據插值與數據標準化[8]。數據轉換則負責對數據進行規范化處理,使之更易被計算機識別,進而提高數據挖掘的效率。常見的操作包括連續與離散的數據轉換、歸一化處理等。
2)數據挖掘是整個過程的核心部分,其主要在經過處理的數據集基礎上建立數據模型,并利用相關數據挖掘算法對模型進行訓練與優化。目前常用的數據挖掘算法主要可分為兩大類:人工智能型算法和統計學分析型算法。其中,人工智能型算法以機器學習(Machine Learning,ML)、神經網絡理論為基礎,通過訓練集對模型的學習與訓練來不斷優化網絡參數,并得到所需的模式。此類算法包括支持向量機(Support Vector Machine,SVM)、K-means 聚類(K-means Clustering Algorithm)以及BP 神經網絡等算法[9-11]。統計學分析算法則是建立在統計學基礎上、旨在發現大量數據內在聯系的一種算法,其主要包括[12]因子分析法(Factr Analysis)、相關性分析以及概率與判別分析法等。
3)經數據挖掘能夠得到數據的預測結果,該結果通常需要與實際結果進行分析與評估才能獲得最終結論。再通過文字、圖表等方式可視化地展示給用戶,方可進行后續操作處理。
BP 神經網絡是在傳統人工神經網絡(Artificial Neural Network,ANN)的基礎上發展而來的一種多層前饋型神經網絡,其最顯著的特征是誤差反向傳播(error Back Propagation,BP)[13]。該文設計的BP神經網絡工作流程可劃分為兩部分,即數據信號正向傳遞與誤差信號反向傳遞。網絡中每個訓練樣本均包含原始信號值及期望信號值,具體數據處理流程為:數據信號通過網絡的輸入層進入網絡,經輸入層處理后再將輸出作為隱藏層的輸入,并最終傳遞給輸出層進行數據的逐層處理。若輸出層輸出的結果無法滿足預先設定的期望值,BP網絡將會進入反向傳播過程。在此過程中,網絡可通過實際值與期望值之間的誤差來不斷調整自身所涉及的各項參數,直至誤差維持在一定范圍之內為止。
如圖2 所示,該文采用的BP 神經網絡結構設計與其工作流程相關,主要由輸入層、隱藏層以及輸出層組成[14-16]。其中,位于輸入層與輸出層之間的隱藏層可根據實際情況設置為多層,同時該層與外部不存在直接連接。網絡中每層神經元僅與相鄰非同層的神經元相連,而與同層神經元相隔離。網絡在對訓練集進行處理的過程中,將不斷學習與獲取輸入樣本的特征與規則,并利用這些數據不斷更新神經元節點間的連接權值。

圖2 BP神經網絡結構
該文的研究旨在提出一種情感分析與心理預警算法來實現對高校學生心理狀態的有效監測,從而便于管理人員進行人工干預等處理。為此,在對BP神經網絡和數據挖掘技術進行深入研究的基礎上,提出了基于兩種技術相結合的情感分析與心理預警算法。該算法進行心理健康數據挖掘的流程如圖3所示。

圖3 心理健康數據挖掘流程
該流程可描述為:通過可視化操作界面選擇待處理的原始心理數據;通過數據篩選、數據預處理及數據轉換等步驟將原始數據處理成能夠被計算機識別的規范化數據;利用BP 神經網絡數據挖掘算法從處理后的數據中獲取心理數據間所隱含的關系及其他有價值的信息。
在上文算法流程的基礎上,設計了圖4 所示的情感分析與心理預警算法架構。

圖4 情感分析與心理預警算法架構
該算法在整體上可以分為三層,即數據存儲層、數據處理層以及界面展示層。其中,數據存儲層是整個架構的最底層,其包括原始和經處理后的心理數據存儲及預處理;而中間層是數據處理層,該層由數據挖掘引擎與支持向量機所組成,并負責心理數據隱含知識的挖掘及對結果的分類分析。最頂層則是界面展示層,其負責為用戶提供人機交互界面,用戶可通過該層發送心理問題分析與處理請求,而計算機則通過該層將數據處理結果可視化地反饋給用戶。
BP 神經網絡數據挖掘結構的設計主要在于對隱藏層層數的確定,該網絡輸入層與輸出層通常僅有一個,而隱藏層則可以有多個。在處理復雜問題時,多個隱藏層的疊加雖然能夠提高模型的精度,但同時也為網絡帶來了更高的時間與空間復雜度,使得模型在訓練過程中占用較多的計算機內存且消耗更長的處理時間。基于上述考慮,該文設計了輸入層、隱藏層以及輸出層融合為一層的網絡結構。
確定網絡結構后,下一步則需確定各層神經元節點的數量。由于輸入層與輸出層是與外部數據進行信息交換的接口,所以應根據實際情況而定。該文的研究對象是高校學生的心理問題,因此各設置一個神經元。而隱藏層的神經元節點數量則通過被廣泛使用的試湊法來確定,該方法的具體數學表達式如下:
式中,x和y分別代表隱藏層神經元數量的下界與上界,m、l分別為輸入層及輸出層的神經元個數,z則是隱藏層的神經元個數。在應用中,首先確定模型的訓練次數;然后,用同一訓練集對隱藏層取[x,y]個神經元節點的模型加以訓練;再對比隱藏層在不同節點得到結果的誤差與時間并選擇其中最優的值,該值即為最終隱藏層的神經元節點數。
為了提高BP 神經網絡模型的收斂速度和精度,在計算傳統神經網絡連接權重的基礎上,引入了調整因子來對各層神經元間的連接權重進行修訂,修訂后的公式如下:
式中,Δω(i)為修訂后的連接權值;σ是學習率;ε表示實際值與期望值之間的誤差;o為網絡的輸出值;α是引入的調整因子,其范圍為[0,1];Δω(i-1)則為連接權值的前一次修訂值。調整因子的引入使得模型在訓練過程中不會出現大幅度擺動,由此增強了模型的收斂速度,并提高了模型精度。
為進一步優化式(2),需確定最優的調整因子。在心理預警模型訓練的過程中,分別給調整因子賦值0.4、0.5、0.6、0.7、0.8 和0.9。根據結果發現,當調整因子為0.8 時,心理預警模型的收斂速度最快且精度符合后續處理需求。因此該文將調整因子設置為0.8,優化后的公式如下:
為了驗證文中基于BP 神經網絡和數據挖掘的情感分析與心理預警算法的可行性及有效性,以某高校采集的數據集為樣本,并在其原有心理數據采集系統的基礎上引入了所提算法。同時,搭建了基于BP 神經網絡和數據挖掘的情感分析與心理預警平臺,且在該平臺上進行了實驗。
平臺所涉及開發環境的各項配置如表1 所示。

表1 開發環境各項配置
實驗主要分為兩項:功能性實驗與性能實驗。其中,功能性實驗主要測試平臺是否能夠有效實現所設計的各項功能,包括心理數據增刪改查、心理問題預警等;而性能實驗則負責檢查系統能否在高并發的情況下實時、準確地完成各項數據處理請求。
1)功能性實驗
該項實驗又可具體劃分為基本項實驗與心理問題預警實驗兩部分。基本項實驗可驗證平臺的基礎功能是否滿足要求,其為進行其他實驗的基礎。該項實驗的結果如表2 所示。

表2 基本項實驗結果
由該結果可以看出,平臺能夠順利完成各項基礎測試,從而保證后續實驗的正常進行。
而心理問題預警實驗主要驗證所提算法在處理心理問題上的準確性,其可體現該算法的優勢。為此,文中設置了基于決策樹(Decision Tree)的心理問題預警算法(A 算法)和人工處理(B 算法)作為對照組和基準組進行實驗,并分別評估學生的心理健康情況。此外,為了降低人工處理中所存在的主觀性,對同一數據分別請多位老師同時進行分析,并取其分析結果的平均值為基準結果。心理問題預警對照實驗結果如表3 所示。

表3 心理問題預警對照實驗結果
由表3 可看出,該文算法的精度明顯高于基于決策樹的心理問題預警算法,且總體能夠達到93%以上,充分驗證了該算法在學生心理問題預警中的優勢。
2)性能實驗
該項實驗可驗證平臺在高并發條件下的穩定性。此次設置的實驗條件是模擬平臺在10 min 內接受500 次訪問請求,同時進行心理數據的采集與處理等操作,以測試平臺的平均響應時間、CPU 與內存占用情況等。具體實驗結果如表4 所示。

表4 平臺性能實驗結果
由表4 可知,在高并發情況下基于該文算法搭建的平臺能夠較好地滿足性能要求,說明平臺運行的穩定性與承載力均較強。
該文介紹分析了BP 神經網絡與數據挖掘技術,并在其基礎上提出了一種情感分析與心理預警算法。該算法主要由數據存儲層、數據處理層及界面展示層所組成,各層相互配合,共同完成對高校學生心理數據的處理與分析,實驗結果充分說明了所設計算法的有效性與準確性。