【關鍵詞】深度學習;電子創新產品;情感分析
近年來,電子創新產品市場呈現出快速增長的態勢,消費者對產品的評價和反饋也愈發重要。在線評論作為消費者表達意見和感受的重要渠道,蘊含著豐富的情感信息[1]。對這些評論進行情感分析,有助于企業及時了解用戶對產品的滿意度、發現潛在問題,并據此調整產品設計和市場策略。傳統方法主要依賴人工構建的詞典和規則進行情感分類,但這種方法難以適應大規模、多樣化的評論數據[2]。近年來,隨著深度學習技術的興起,基于神經網絡的情感分析方法逐漸嶄露頭角,深度學習模型能夠自動學習文本特征,實現更準確的情感分類。然而,針對電子創新產品評論的情感分析仍面臨諸多挑戰。本研究的意義在于,通過提出新的深度學習模型SCB,并對其進行實驗驗證和性能評估,為情感分析任務提供新的思路和方法。同時,通過對比實驗和參數優化,本研究深入探討了影響深度學習模型性能的關鍵因素,為深度學習技術在自然語言處理領域的應用提供了有力支持。
深度學習作為機器學習領域的一個重要分支,致力于構建高度復雜且具有深層次結構的神經網絡模型。這一范式通過無監督學習的方式,自動且高效地從原始數據中提取并學習其內在的高級特征表示,從而實現對數據深層次模式的理解與挖掘。深度學習的核心優勢在于其依托一系列先進且強大的算法,這些算法構成了其理論與方法論的基石,其中卷積神經網絡(Convolutional Neural Networks,CNN)、循環神經網絡(Recurrent Neural Network, RNN)以及長短期記憶網絡(Long Short-Term Memory, LSTM)等模型尤為關鍵[3]。
CNN憑借卷積和池化機制在圖像處理中表現出色,能捕捉圖像空間特征;RNN專于處理序列數據,動態建模時間序列;LSTM作為RNN的改進,通過記憶單元增強長序列處理能力,在語言模型和機器翻譯中成效顯著。這些核心算法推動了深度學習的廣泛應用,深刻影響了人工智能的發展。

情感分析作為一種關鍵性的自然語言處理技術,也被稱作意見挖掘或情感傾向識別。其核心在于通過細致的分析、處理、總結及邏輯推理,針對蘊含情感色彩的主觀性文本內容,自動識別出文本作者對于特定話題所持有的態度傾向或情緒表達[4]。情感分析的策略主要可劃分為三大類別:一是依賴情感詞典的傳統方法,深度學習技術的深入發展,極大地推動著情感分析領域向更高效、更精準的方向邁進。深度學習模型,如CNN、RNN、LSTM等,能夠自動學習文本特征,充分利用文本的上下文關聯信息,實現對文本情感的精準分析[5]。此外,注意力機制和預訓練模型(如BERT、XLNET等)的引入進一步提升了情感分析的性能,使得該方法在處理復雜情感任務時更加高效和準確。當前,情感分析在輿情分析、內容推薦、商品評價等多個領域具有廣泛應用。
(一)構建模型
本研究創新性地提出了SCB模型,該模型結合了CNN和基于注意力機制的雙向門控遞歸單元(Bidirectional Gated Recurrent Unit,BiGRU),旨在開發一種高效針對序列數據的分類與預測模型。在SCB模型中,CNN層被用于捕捉序列數據中的局部特征,并執行最大池化以提取關鍵信息;隨后,BiGRU層通過對特征雙向處理,全面把握序列數據的內在信息。最終,輸出層通過全局最大池化進一步精選關鍵特征,并對序列進行壓縮。模型的訓練過程采用了反向傳播算法與Adam優化器來優化模型參數,并引入Dropout機制以增強模型的魯棒性。這些設計確保了SCB模型在處理序列數據時能夠表現出色,兼具高穩定性和準確性,具體如圖1所示。
(二)數據采集與預處理
本研究采用的數據集是通過網絡爬蟲技術從中關村在線收集的產品評論數據。在原始數據集中,用戶對電子創新產品的評價被細分為五個等級(1-5星)。然而,研究并未直接依賴這種簡單的星級劃分來評價情感傾向,而是采用了更為先進的深度學習方法,構建復雜的神經網絡模型,旨在自動學習評價中的情感傾向。數據集經過預處理后,最終包含100,000條評論,其中正面評價和負面評價各占50,000條,以此作為深度學習模型的訓練與測試數據。數據預處理階段應用了先進的自然語言處理技術,利用PyTorch分詞工具實現文本的高效分詞與預處理。為確保數據的純凈性和一致性,刪除了停用詞、標點符號及非中文字符。為了構建符合深度學習模型輸入要求的特征表示,研究根據模型的最大輸入長度(max_length)對評論進行了截斷或填充操作,使得所有評論數據具有相同的輸入長度。值得注意的是,整個預處理過程都未將平均評論長度作為固定長度,而是將其作為設置max_length參數的重要參考因素,以高效處理變長輸入序列,為后續的模型訓練與評估奠定了堅實的基礎。

(一)評價指標
對深度學習方法的評估主要關注準確性(α)、精確度(p)、召回率(r)和F1分數這四個性能指標。真正例(TP)指代成功識別的有害樣本,假正例(FP)表示被錯誤地判定為有害的良性樣本,真負例(TN)準確描述了被正確歸類為正常的樣本;假負例(FN)則反映了被誤標記為正常的異常樣本。p是一個關鍵指標,它聚焦于模型預測為正面評論中實際為正面的比例,從而有效評估模型對正面評論的預測準確度。另一方面,r則體現了模型正確識別出所有實際正面評論的能力,即正確預測的正面評論在實際所有正面評論中的占比,這對于全面捕捉實際正面評論至關重要。最后,F1分數作為精確度和召回率的調和平均值,綜合評估了模型的性能,特別是在數據不平衡的情況下,F1分數尤為重要,因為它能夠平衡精確度和召回率,進行更為全面的性能評估。具體如式(1)所示:
(二)實驗結果分析
為了全面且精確地評估本文提出的深度學習模型性能,研究采用了10折交叉驗證與5×2交叉驗證兩種策略。在10折交叉驗證中,數據集被隨機且均衡地劃分為10個部分,每次使用其中的9個部分進行模型訓練,剩余的1個部分用于驗證,最終的性能評估是基于這10次驗證結果的平均值。而在5×2交叉驗證中,數據集被隨機分為兩個子集,這兩個子集交替用于訓練和測試,重復5次后取平均值作為最終的評價。此外,考慮到文本序列長度的多樣性,研究設定了統一的長度閾值,并試驗以最大句子長度和平均句子長度作為模型的固定輸入長度。由于在選擇平均句子長度作為輸入長度時,超長的句子會被截斷,從而可能導致上下文信息的丟失,影響模型的性能;因此,選擇合適的輸入長度是優化模型性能的關鍵考量之一,具體如表1所示。

本研究系統性地探究了詞匯表大小對深度學習模型性能的調節作用。實驗首先從包含50,000個單詞的廣泛詞匯表開始,依據單詞頻率逐步縮減,每次減少5,000個單詞進行迭代。分析結果顯示,當詞匯表規模調整至約30,000個單詞時,模型展現出最優性能。這表明,選擇適當的詞匯表大小對于優化深度學習模型性能至關重要。接著,實驗考察了不同訓練迭代次數對模型性能的影響,發現隨著訓練迭代的增加,模型性能先提升后降低,在迭代8次時達到最佳性能,之后模型開始出現過擬合現象。為了提升模型的能力,實驗引入dropout機制,并通過微調dropout值發現,設定為0.5時,模型性能達到最佳平衡,既保持了高訓練精度,又有效避免了過擬合。此外,實驗還對比了加權詞與未加權詞向量在模型中的應用效果,發現加權詞向量通過情感詞典的精細處理,能更顯著地突出情感特征,從而提升模型在情感分析任務中的性能。最后,實驗為了全面評估SCB模型的性能,在同一數據集上將其與支持向量機(Support Vector Machine,SVM)、CNN和BiGRU等情感分析模型進行對比,結果顯示深度學習模型,尤其是CNN和BiGRU,性能明顯優于傳統機器學習模型SVM,其整合注意力機制能進一步提升模型的分類性能。最終,結合CNN、BiGRU和注意力機制的SCB模型,在性能上超越了其他幾種模型,充分證明了其優越性和有效性。實驗結果如表2所示。
實驗數據揭示了深度學習模型,尤其是CNN和BiGRU,相較于傳統的機器學習模型SVM,展現出更為出色的性能。不僅如此,通過在深度學習模型中融入注意力機制,模型的分類性能得到了顯著提升。尤為值得注意的是,本研究提出的SCB模型,通過結合深度學習技術,包括CNN、BiGRU以及注意力機制,其整體性能超越了其他幾種在情感分析任務中廣泛應用的深度學習模型,從而充分彰顯了SCB模型在情感分析領域的優越性。
隨著網絡的快速發展,大量蘊含價值信息的電子產品評論應運而生。為更有效地挖掘和利用這些信息,本文專注于提取產品特征并進行深入的情感分析。為此,本文構建了一個結合CNN和BiGRU的SCB模型,該模型實現了對文本情感的精準分析。實驗結果顯示,SCB模型在準確性、精確度、召回率和F1分數等多項性能指標上均表現出色,顯著超越了其他幾種主流的情感分析深度學習模型。為了進一步提升模型性能,研究深入探究了詞匯表大小、訓練迭代次數以及dropout值等關鍵參數對模型性能的影響,并據此優化了模型設置。此外,加權詞向量的使用也有效強化了句子中的情感特征表達,使SCB模型取得了更為優異的性能。綜上所述,本研究提出的SCB模型在情感分析任務中展現出了顯著的有效性和優越性,為相關領域的研究提供了新的思路和方法。