基于RoBERTa的評論與評分推薦系統模型研究

2024-01-01 00:00:00張姝曦陳建峽肖亮王天賜陳志康王菁

湖北工業大學學報 2024年5期

［摘要］原始推薦系統的詞嵌入部分訓練成本高昂且難以泛化，提出一種基于預訓練模型RoBERTa的評論與評分推薦模型PANN，利用RoBERTa作為預訓練模型，使用動態掩碼策略和字節級詞匯表進行訓練，解決了單詞的一詞多義問題。該模型可以從輸入序列中提取特征，具有很高的泛化性能。同時，PANN模型擁有用戶和項目兩個網絡，這兩個網絡結構相同但分別訓練參數和提取特征。最后使用因式分解機對兩個網絡的輸出特征進行交互，以預測用戶對項目的興趣，即用戶對項目可能的評分。實驗結果表明，該PANN模型在大多數數據集上優于傳統模型。

［關鍵詞］預訓練模型；推薦系統；循環神經網絡；注意力機制

［中圖分類號］ TP183" ［文獻標識碼］ A

隨著互聯網信息量的大幅增長，推薦系統越來越多地應用于人們的生活中，如電子商務購物平臺、視頻平臺和廣告系統等。這是因為推薦系統可以過濾海量數據中的信息，為用戶提供更合適的信息［1］。用戶評論是推薦系統中常見的輔助信息［2］，其中包含來自用戶的大量反饋。通常，利用評論的推薦系統是將每條評論單獨提取特征，再將每條文本的特征結合，從而分別得到用戶和項目的特征的步驟進行建模學習。

經典的推薦方法會使用很多的特征工程，如熊才權［3］等使用關聯規則算法根據用戶間的關注關系進行數據挖掘。而最近，源于神經網絡的巨大表現力，深度學習的迅速發展為推薦技術的廣泛應用帶來了新的機會。例如，DeepCoNN［4］就是代表性的研究工作之一，它從并行卷積神經網絡（convolutional neural network， CNN）中提取用戶興趣特征和項目特征，最后使用因式分解機（factorization machine， FM）［5］模型來完成商品推薦的高級交互。Tr-DNNMF［6］將矩陣分解和深度神經網絡非線性結合，使模型既具備良好的擴展性，又有強大的擬合能力。

在這些傳統模型中，預訓練語言模型主要利用Word2Vec［7］和Glove［8］技術，但不能充分考慮上下文信息，難以處理一詞多義的問題。隨后提出的ELMo［9］基于上下文獲取詞向量，以緩解多義詞的問題。ELMo利用雙向長短期記憶網絡（long and short-term memory networks， LSTM）［10］作為特征提取器。LSTM優勢在于擬合較為復雜的非線性，非平穩性數據［11］，但是，它的并行性并不好。

因此，有研究者提出用transformer模型［12］來解決這個問題。此外，許多預訓練語言模型都是通過自注意機制提出的，例如生成預訓練模型（generative pre-training， GPT）［13］和來自transformer的雙向編碼器表示（bidirectional encoder representation from transformers， BERT）［14］。GPT利用了transformer的解碼器端，并利用半監督學習方法完成語言理解任務，這是文本生成的單向語言模型。GPT-2［15］利用更大的數據集構建更大的模型，并完成了基于GPT的零樣本，少樣本學習任務，之后的GPT-3［16］與GPT-2相比，參數量進一步增加，結果更好。

BERT利用transformer的編碼器側對文本進行特征提取。且利用掩蔽語言建模策略和transformer中自注意力機制在編碼一個詞元的時候同時利用其上下文詞元，是一個雙向的語言模型。基于自回歸模型，XLNet［17］可以消減預訓練和微調因特殊詞元［MASK］帶來的差距；ERNIE［18］使用了對詞元級別、短語級別和實體級別對象進行掩碼的知識掩蔽策略；ELECTRA［19］使用字符探測替換的預訓練策略，避免與XLNet相同的差距。許多基于BERT的預訓練語言模型也被提出，例如BioBERT［20］和SciBERT［21］用于特定領域的訓練，MacBERT［22］用于特定語言的訓練，多語言模型ERNIE-M［23］以及TinyBERT［24］的模型壓縮。

RoBERTa［25］和BERT、ERNIE等其他自編碼模型一樣，都是從損壞的輸入文本序列中重建原始數據。與BERT預訓練策略不同之處在于，RoBERTa改進了BERT預訓練策略并增強了模型的有效性，其優點是在預測單詞時捕獲單詞位置之前和之后的信息，能夠利用動態屏蔽策略和字節級詞匯表進行訓練，更好地從輸入文本中提取特征。

通常，使用預訓練模型有兩種主要方法，包括微調和基于特征的方法。根據BERT［14］實體識別任務的實驗結果，微調的方法相比基于特征的方法中拼接最后四層隱藏層特征的結果F1分數相差0.3，差距較小。而如果基于特征的方法是采用的最后一層隱藏層特征，則它們的F1分數相差1.5，基于微調的F1分數為96.4，基于特征的方法的F1分數為94.9。因此，能發現在一些情況下使用基于特征的方法與微調結果相差較小，是有效的。

基于上述分析，選用大型預訓練模型作為一個將文本轉為詞向量模塊能提取到很多有用的信息，并且預訓練模型輸出的詞向量能夠包含句子中雙向的信息。因此，本文提出了一種基于預訓練語言模型的新型神經網絡，并使用了評論、評分和注意力機制（attention mechanism， AM），簡稱PANN。

所提出的PANN模型分為用戶側和項目側，兩者結構相同，但參數是分開訓練的。初始特征提取是通過RoBERTa基于特征的方法完成的。之后，通過帶有AM的LSTM模型完成進一步的特征提取。最后，拼接用戶和項目模塊的輸出，使用FM進行最終預測。

本模型PANN的主要貢獻內容如下：

1）使用RoBERTa提取輸入模塊中的句子特征，相比一些原始的詞向量工具能夠提取到更多的信息；

2）在特征提取層之前將每句輸入的評論的得分拼接在詞向量的維度之后，并用消融實驗證明該操作確實提升了模型的效果。

在不同數據集上，所提出的PANN模型的均方誤差（MSE）得分顯示，與基線模型相比，最小改善為0.8%，最大改善為10.3%。這些結果證明了PANN模型的有效性。

1 相關技術原理

1.1 BERT模型

BERT是一種流行的預訓練模型，在十一種不同的自然語言處理測試中創出了當時最好的表現［14］。BERT利用transformer的編碼器，編碼器中的Self-attention機制在編碼一個詞元的時候同時利用了其上下文的詞元，其中“同時利用上下文”即為雙向的體現，而并非像雙向LSTM［26］（bidirectional LSTM，BiLSTM）那樣把句子倒序輸入一遍。

BERT整體框架如圖1所示，包含預訓練和微調兩個階段。預訓練階段模型是在無標注的標簽數據上進行訓練，微調階段，BERT模型首先是根據預訓練模型參數初始化，然后所有的參數會用下游的有標注的數據進行訓練。BERT的預訓練任務是由兩個自監督任務組成，即掩蔽語言建模（masked language modeling，MLM）和下一個句子預測（next sentence prediction，NSP）［14］。

RoBERTa是基于BERT模型的一個改進。從結構上講，RoBERTa基本沒有對BERT進行創新，但是它改進了BERT很多的預訓練策略。例如，原始BERT可能訓練不足，并沒有充分地學習到訓練數據中的語言知識［25］。在RoBERTa中，采用了動態掩碼、增加訓練過程中的批量大小、使用更多的訓練數據和更多的訓練步數且使用了Byte級的BPE（byte-pair encoding）詞表，該詞表共計包含50 K左右的單詞，這種方式不需要擔心未登錄詞的出現，能夠更好地對文本進行建模。

1.2 循環神經網絡

循環神經網絡（recurrent neural network，RNN）是具有隱狀態的神經網絡，隱狀態是在給定步驟所做的任何事情的輸入，并且這些狀態只能通過先前時間步的數據來計算。假設在時間步t有小批量輸入Xt∈Rn×d。換言之，對于n個序列樣本的小批量，Xt的每一行對應于來自該序列的時間步t處的一個樣本。接下來，用Bt∈Rn×h表示時間步t的隱藏變量。與多層感知機不同的是，這里保存前一個時間步的隱藏變量Bt-1，并引入一個新的權重參數Mhh∈Rh×h，來描述如何在當前時間步中使用前一個時間步的隱藏變量。具體地說，當前時間步隱藏變量由當前時間步的輸入與前一個時間步的隱藏變量一起計算得出式（1），其中隱藏層的權重Mxh∈Rd×h，Mhh∈Rh×h和偏置bh∈R1×h。

Bt=φ（XtMxh+Bt-1Mhh+bh）（1）

上面介紹了RNN隱狀態的計算公式，RNN的輸出計算公式則如式（2）所示。其中時間步t的輸出Ot∈Rn×q，時間步t的隱藏變量Bt∈Rn×h，輸出層的權重Mhq∈Rh×q ，偏置bq∈R1×q。

Ot=BtMhq+bq（2）

而RNN中的矩陣連續乘積可以導致梯度消失或梯度爆炸的問題，而后來研究者也嘗試解決這個問題，最常用的兩個RNN的變體是LSTM［10］和門控循環單元［27］（gated recurrent unit，GRU）。

2 PANN模型原理

如圖2所示，PANN架構主要包括三層：輸入層、特征提取層和評分預測層。每一層的主要思想呈現如圖2所示。

2.1 輸入層

在這一層中，預先訓練的RoBERTa模型旨在獲取輸入評論的向量化表示。

對于用戶端的評論，本文將評論，文本 {UserR1，UserR2，…，UserRn}（n代表模型抽取的最大評論數量）轉換為向量輸出{UserO1，UserO2，…，UserOn}。每個詞元的向量維數定義為d維，句子長度是自定義的，本文實驗中最長的句子選擇為l，太長被截斷，太短則使用特殊詞元［PAD］填充。那么，在這篇論文的實驗中UserOn∈Rl×d。在項目端本文進行相同的操作，將文本{ItemR1，ItemR2，…，ItemRn}轉換為向量 {ItemO1，ItemO2，…，ItemOn}，同樣的，ItemOn∈Rl×d。

PANN的整體模型結構顯示在圖2的左側，而RoBERTa的結構展示右側。首先，根據RoBERTa的BPE詞表將一個句子分成一系列詞元，然后進行詞元嵌入，位置嵌入和段嵌入。這些嵌入是768維的，這源于RoBERTa-base的設計，將這些嵌入直接相加起來送入transformer層即可，RoBERTa-base中包含12個transformer層。在文本中采用基于特征的方法，可得到的輸出是動態的詞向量。

本文將評論對應的評分拼接到每個詞元向量的最后一維，那么拼接后的用戶和項目向量維度分別表示為UserOn∈Rl×c，ItemOn∈Rl×c，作為特征提取層的輸入。

2.2 特征提取層

特征提取層利用帶有AM的BiLSTM［26］，簡稱BiLSTM-Att，其架構如圖3所示。

LSTM 計算如式（3）所示：

It=σ（XtMxi+Bt-1Mhi+bi），Ft=σ（XtMxf+Bt-1Mhf+bf），Ot=σ（XtMxo+Bt-1Mho+bo），t=tanh（XtMxc+Ht-1Mhc+bc），Rt=Ft⊙Rt-1+It⊙t，Bt=Ot⊙tanh（Rt）（3）

其中，It∈Rb×h 表示輸入門，b為批量大小，h為隱藏單元數；Ft∈Rb×h 表示遺忘之門；Ot∈Rb×h 表示輸出門;Xt∈Rb×c 表示輸入，c表示輸入數；t∈Rb×h 表示候選記憶單元；Rt-1，t∈Rb×h 表示以前和當前記憶單元；Bt-1，Bt∈Rb×h 表示前一個時間步的隱藏狀態和當前時間步的隱藏狀態；Mxi，Mxf，Mxo，Mxc∈Rc×h 和 Mhi，Mhf，Mho，Mhc∈Rh×h 是權重參數；bi，bf，bo，bc∈R1×h 是偏置。

雙向模型實際上是兩個單向模型，其中輸入在正向和反向各一次，并將這兩次的隱藏狀態拼接，計算拼接結果得到輸出，表示為：

Bt=BtBtOt=BtMhq+bq（4）

其中，Bt∈Rn×2h，表示 BiLSTM 的隱藏狀態；Bt，Bt∈Rn×h，分別表示序列正向輸入的隱藏狀態和序列反向輸入的隱藏狀態；Ot∈Rn×2h，表示 BiLSTM 的輸出。

本文的注意力實現是將BiLSTM的所有時間步輸出和最后一個隱狀態先進行矩陣乘法，其結果進行softmax操作后再與BiLSTM的輸出進行矩陣乘法，其最終結果維度為Rn×2h。本實驗中批量設為b，每個樣本中包含k條評論，隱藏單元設為h，則BiLSTM-Att模塊的輸出維度為Rbk×2h。

特征抽取層的最后一層是一個多層感知機，將BiLSTM-Att模塊的輸出轉換為維度Rb×m的向量。

2.3 評分預測層

評分預測層使用的是FM。經過了特征抽取模塊，用戶端和項目端的輸出都為Rb×m。雖然上述輸出可以看作是用戶和項目的特征，但這兩個輸出并不能在不同的特征空間中進行直接的比較。因此，在模型的末端設置一個預測層來耦合用戶端輸出和項目端輸出，并將用戶u和項目i的特征拼接成單個向量X，將X∈Rb×2m輸入FM。

FM的實質是在隱空間下計算相關性，隱空間通常是低維稠密空間，而不是直接計算輸入向量本身的相關性，其計算過程定義為

（x）∶=w0+∑2ma=1waxa+∑2ma=1∑2mb=a+1〈va，vb〉xaxb（5）

其中，〈va，vb〉代表va和vb的內積，va和vb是隱向量；xa代表第a個特征，輸入樣本有2m個特征；w是特征參數。

式（5）經過一系列的簡化后可以得到

（x）∶=w0+XW+12sum（（XV）⊙（XV）-（X⊙X）（V⊙V），axis=1）（6）

其中，X∈Rb×2m 代表輸入；V∈R2m×v 和 W∈R2m×1 是可訓練的權重，v是一個可以自由設置的超參數；（x）∈Rb×1 是預測結果。

本文選擇MSE作為損失函數和評價指標。MSE的計算由式（7）定義：

MSE=1N∑Nn=1（n-yn）2（7）

其中：N是總樣本量；n表示預測值；yn表示真實值。

3 實驗結果與分析

本文將評論文本數據集分成用戶數據集和項目數據集。用戶數據集包含每個用戶對不同項目所做的評論，而項目數據集包含每個項目從不同用戶收到的評論。

實驗的目的是預測未交互的用戶和項目之間的評分。數據集以這種方式指定，每個用戶和項目不超過10個評論并且不少于2個評論。

3.1 數據集介紹

數據集在亞馬遜產品數據網站上獲取，選擇的是5-core子集數據，數據集中的每個用戶和項目都具有至少5條評論信息。論文中選擇了其中的五個數據集，包括Toys，Kindle，Office，Health和Tools，數據集規格如表1所示。

實驗中劃分了訓練集、驗證集和測試集，它們的比例是8∶1∶1。在訓練集中每個用戶項目對是包含公共的評論及評分信息的，而在驗證集和測試集上這種公共信息需要被刪除。

3.2 基線方法和評價指標

本文通過將其與幾種基線方法進行比較來評估方法的性能，包括：

1） PMF［28］，概率矩陣因式分解；

2） SVD［29］，基于梯度下降法的共現矩陣分解；

3） DeepCoNN［4］，使用CNN編碼器對用戶和項目的評論進行聯合建模；

4） MPCN［30］，使用“評論等級共同關注”方法選擇信息最豐富的評論；

5） AHN［31］，它使用不對稱的注意模塊來獲取用戶和項目表示。

在本文中，使用MSE對模型性能進行定量評估，MSE在式（7）中定義。由于本文是評分預測任務，MSE可以直觀地顯示預測值與實際值之間的差異。MSE的值越小，所提出的模型的性能越好。

3.3 實驗設置

本文的硬件環境如下，GPU使用英偉達RTX3090，CPU使用英特爾至強E5-2680v4。系統使用Ubuntu20.04，CUDA版本11.1。用Python編寫代碼，主要用到的包和版本為torch-1.9.0與transformers-4.17.0。本文實驗選擇的優化算法為Adam，學習率設置為10-4，權重衰減程度設置為10-5，學習率衰減程度設置為0.9998。前文中涉及尺寸變化的參數的大小和含義列于表2中。

3.4 實驗結果

本文將表1中的5個數據集全部單獨訓練，所提出的模型均優于基線模型。本文的詳細實驗結果如表3所示，圖4展示了PMF、SVD、DeepCoNN、MPCN、AHN、PANN-rating和PANN模型在5個數據集上的比較結果。

與最佳基線模型相比，該模型在Toys數據集上提高了6.3%，在Kindle數據集上提高了0.8%，在Office數據集上提高了1.2%，在Health數據集上提高了6.9%，在Tools數據集上提高了10.3%。所提出的模型在Toys、Office和Health三個數據集上都有顯著改進。

同時，本文在Toys數據集上進行了消融實驗，沒有在輸入層中添加評分信息，在本文中稱為PANN-rating。從圖4可以看出，不添加評分信息的模型的MSE得分明顯高于PANN的MSE得分。這證明了在推薦模型中同時使用評論和評分信息的有效性。

本文對RoBERTa預訓練模型使用的是基于特征的方法，僅將其作為輸入模塊的特征提取工具在使用，而沒有在訓練的過程中對其內部參數進行改動，因為測試微調后發現收斂困難，分析其原因可能是由于學習率設置過大，但是減小學習率模型的訓練成本又會增加，故本文模型沒有微調RoBERTa。

4 結論

本文解決了未產生交互的用戶與項目間的評分預測問題，PANN模型分為用戶網絡和項目網絡，這兩個網絡的內部結構相同，使用了RoBERTa預訓練模型作為輸入模塊提取特征的工具，而后在輸入模塊的輸出向量的最后一維拼接了每條評論對應的評分，然后，利用具有AM的BiLSTM模型進一步從拼接的評論向量中提取特征。最后使用FM模型交互用戶網絡和項目網絡的特征，完成用戶對項目評分的預測。

實驗結果表明，PANN模型在大多數數據集中的表現都是顯著的。然而，由于大規模預訓練模型，所提出的模型的計算成本也很大。在未來的工作中，本文將增強所提出的模型在各種數據集中的靈活性。

［參考文獻］

［1］劉華玲，馬俊，張國祥.基于深度學習的內容推薦算法研究綜述［J］.計算機工程，2021，47（07）：1-12.

［2］張舒，李慧，施珺，等.結合用戶評論與評分信息的推薦算法［J］.陜西師范大學學報（自然科學版），2020，48（02）：84-91.

［3］熊才權，陳曦.基于FP-Growth的社交好友推薦方法研究［J］.湖北工業大學學報，2020，35（01）：33-37.

［4］ ZHENG L， NOROOZI V， YU P S. Joint deep modeling of users and items using reviews for recommendation［C］. Proceedings of the tenth ACM international conference on web search and data mining. 2017： 425-434.

［5］ RENDLE S. Factorization machines with libfm［J］. ACM Transactions on Intelligent Systems and Technology （TIST）， 2012， 3（03）： 1-22.

［6］鄭吟秋，汪弘揚，程玉，等.融合神經網絡與矩陣分解的旅游景點推薦模型［J］.湖北工業大學學報，2021，36（02）：29-33.

［7］張祖平，沈曉陽.基于深度學習的用戶行為推薦方法研究［J］.計算機工程與應用，2019，55（04）：142-147.

［8］馮永，陳以剛，強保華.融合社交因素和評論文本卷積網絡模型的汽車推薦研究［J］.自動化學報，2019，45（03）：518-529.

［9］ PETERS M E， NEUMANN M， IYYER M， et al. Deep contextualized word representation ［C］. Proc of the 2018 Conf of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg，PA：ACL，2018：2227-2237.

［10］ GREFF K， SRIVASTAVA R K， KOUTNK J， et al. LSTM： A search space odyssey［J］. IEEE transactions on neural networks and learning systems， 2016， 28（10）： 2222-2232.

［11］余聰聰，熊才權，徐仕強，等.基于改進SARIMA-LSTM的海上風速預測方法［J］.湖北工業大學學報，2022，37（01）：24-28.

［12］ VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need ［C］. Advances in Neural Information Processing Systems. 2017： 5998-6008.

［13］ RADFORD A， NARASIMHAN K. Improving language understanding by Generative Pre-Training ［EB/OL］.（2018-06-11）［2022-11-10］.https：∥cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf.

［14］ DEVLIN J，CHANG M W，LEE K，et al.BERT：pre-training of deep bidirectional transformers for language understanding［C］. Proceedings of the 2019 Conference of the North American Chapter of the Linguistics：Human Association for Computational Language Technologies（NA ACL-HLT），2019：4171-4186.

［15］ RADFORD A， WU J， CHILD R， et al. Language models are unsupervised multitask learners［EB/OL］. ［2022-11-10］。https：∥cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.

［16］ BROWN T， MANN B， RYDER N， et al. Language models are few-shot learners［J］. Advances in neural information processing systems， 2020， 33： 1877-1901.

［17］ YANG Z， DAI Z， YANG Y， et al. Xlnet： Generalized autoregressive pretraining for language understanding［C］. Advances in neural information processing systems， 2019：5754-5764.

［18］ SUN Y， WANG S， LI Y， et al. Ernie： Enhancedrepresentation through knowledge integration［J/OL］〗. 2019：1-8.https：∥arxiv.org/pdf/1904.09223.pdf.

［19］ CLARK K， LUONG M T， LE Q V， et al. Electra：Pre-training text encoders as discriminators rather than generators［J/OL］.2020：1-18.https：∥arxiv.org/pdf/2003.10555.pdf.

［20］ LEE J， YOON W， KIM S， et al. BioBERT： a pre-trained biomedical language representation model for biomedical text mining［J］. Bioinformatics， 2020， 36（04）： 1234-1240.

［21］ BELTAGY I， LO K， COHAN A. SciBERT： A pre-trained language model for scientific text［C］. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing （EMNLP-IJCNLP）. Hong Kong： Association for Computational Linguistics.2019：3613-3618.

［22］ CUI YIMING， CHE WANXIANG， LIU TING， et al. Revisiting pre-trained models for Chinese natural language processing［C］. Findings of the Association for Computational Linguistics： EMNLP. Stroudsburg， PA： ACL， 2020： 657-668.

［23］ OUYANG X， WANG S， PANG C， et al. ERNIE-M： enhanced multilingual representation by aligning cross-lingual semantics with monolingual corpora［C］. Proceedings of the Conference on Empirical Methods in Natural Language Processing， 2021： 27-38.

［24］ JIAO X， YIN Y， SHANG L， et al. TinyBERT： distilling BERT for natural language understanding［C］. Findings of the Association for Computational Linguistics： Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing， Nov 16-20， 2020. Stroudsburg： ACL， 2020： 4163-4174.

［25］ LIU Y， OTT M， GOYAL N， et al. Roberta： Arobustly optimized bert pretraining approach［J/OL］. 2019：113.https：∥arxiv.org/pdf/1907.11692.pdf.

［26］ ZHANG S， ZHENG D， HU X， et al. Bidirectional long short-term memory networks for relation classification［C］. Proceedings of the 29th Pacific Asia conference on language， information and computation， 2015： 73-78.

［27］ CHO K， VAN MERRINBOER B， GULCEHRE C， et al. Learning phrase representations using RNN encoder-decoder for statisticalmachine translation ［J/OL］. 2014：1-15. https：∥ arxiv.org / pdf / 1406.1078.pdf.

［28］ MNIH A， SALAKHUTDINOV R R. Probabilistic matrix factorization ［J］. Advances in neural infor mation processing systems， 2007， 20： 1257-1264.

［29］ KOREN Y， BELL R， VOLINSKY C. Matrix factorization techniques for recommender systems［J］. Computer， 2009， 42（08）： 30-37.

［30］ TAY Y， LUU A T， HUI S C. Multi-pointer co-attention networks for recommendation［C］. Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery amp; data mining. 2018： 2309-2318.

［31］ DONG X， NI J， CHENG W， et al. Asymmetrical hierarchical networks with attentive interactions for interpretable review-based recommendation［C］. Proceedings of the AAAI conference on artificial intelligence. 2020， 34（05）： 7667-7674.

RoBERTa-based Recommendation for Reviews and Ratings

ZHANG Shuxi，CHEN Jianxia，XIAO Liang，WANG Tianci，CHEN Zhikang，WANG Jing

（School of Computer Science， Hubei Univ. of Tech.， Wuhan 430000， China）

Abstract： Recommendation systems based on user reviews and ratings of items are a hot research area. However， the word embedding part of the original recommender system is expensive to train and difficult to generalize. We propose in a novel neural network based on the pre-trained language model via an attention mechanism for the reviews and ratings， named based on a Pre-trained model an Attention Neural Network （PANN）. The paper utilizes the RoBERTa as the pre-trained model， which uses a dynamic masking strategy and byte level vocabularies for training. It solves the problem of multiple meanings of words， and can extract features from the input sequence with high generalization performance. The model employs two networks， users and items as its two networks， to train parameters and extract the features respectively， and finally use the factorization machine to interact two features to predict the user’s interest in the item， in other words， the possible user ratings upon items. The experimental results demonstrate the proposed model outperforms conventional models on most datasets.

Keywords： pre-trained model; recommendation system; recurrent neural network; attention mechanism

［責任編校：裴琴］

湖北工業大學學報2024年5期

湖北工業大學學報的其它文章: 三峽工程運行背景下洞庭湖及鄱陽湖濕地類型動態變化規律; 膨潤土輔助微生物固化砂土的試驗研究; 球磨法制備硅基負極材料及其增強的儲鋰性能研究; 一種新型1型單純皰疹病毒mRNA疫苗的制備; 不同烹飪方式對地木耳營養品質的影響; 依折麥布阿托伐他汀鈣片體外溶出度測定