劉 蘭 李英祥 鐘劍丹
(成都信息工程大學通信工程學院 成都610225)
學術論文是用以提供學術會議上宣讀、交流、討論或學術刊物上發表,或用作其他用途的書面文件,它是一項研究工作的最佳體現。當前最常見的評估學術論文的方法是同行評審,即由專業人員進行人工審查以決定接受或拒絕。然而,隨著論文稿件的不斷增加,耗時費力的人工審查已經不堪重負,2018年的NIPS會議由于收到過多稿件而啟用剛畢業的本科生作為審稿人的新聞就引起了軒然大波[1]。同時,De Silva等[2]指出,同行評審是指某領域的專家對同領域其他研究人員的研究質量的判斷,它本身存在著很強的主觀因素,不利于客觀評價。Jefferson T等[3]也表明對同行評審作為選擇優質研究工作的唯一標準持懷疑態度。因此,引入機器自動評審來協助傳統的人工審查已經十分地迫切,它既可以減輕人力物力的負擔,也有助于構建更加客觀、公正的評估系統。
伴隨著人工智能理論的不斷推陳出新,自然語言處理也獲得了急速的發展,但目前針對論文自動評審這一任務的研究還相對匱乏且無法達到預期效果。2017年,Brian Keith等[4]首次通過分析論文評論中所包含的情感來預測論文的評審結果,但這只是針對評論文本所作的預測,并非根據論文本身。之后,Pengcheng Yang等[5]提出了基于論文的LATEX源文件和元信息來對評審結果進行預測,D Kang等[6]則提供了第一個基于同行評審的用于研究目的的公開數據集PeerRead,并訓練了多個簡單二分類模型,從中選取效果最好的模型用于預測評審結果。但單一的分類模型性能不夠優異,穩定性也無法得到保證,因此本文建立了一個多分類器投票模型用于預測論文的評審結果,基于集成學習的投票法能有效增強模型的魯棒性和泛化性。投票法是指對多個基分類器的分類結果進行線性組合,主要包括多數投票法和加權投票法[7],當各個基分類器的性能不一致時,大多采用加權投票代替多數投票。但傳統的加權投票只能輸出最終的類別,無法得到各類別的預測概率,且基分類器的權重在訓練前進行人工分配,導致該系數不夠精準。基于此,本文引入訓練之后得到的類概率來自動調整各個基分類器的初始權重,有效地優化了權重分布,從而使模型性能得到提高,并可以輸出各類別的預測概率。
由于論文文本是非結構化的數據,計算機無法對其進行識別,所以必須對其進行科學的抽象,建立它的數學模型,用來描述和代替文本,轉化為算法可以識別的數值特征,這一過程被稱為特征提取[8]。當前,對文本的描述大多采用向量空間模型,即采用通過分詞、詞頻統計等算法得到的特征項來表示文本向量的各個維。但如果使用所有的特征項來表示這個向量,那這個向量將會非常大,這不僅會給后續工作帶來巨大的計算開銷,還會損害分類算法的精確性。因此必須通過特征選擇來降維,在保留原本語義的基礎上,去掉無關特征,找出最利于區分特征類別的文本特征,從而減小文本向量的維度。本文從兩個角度來對論文的特征進行選擇:1)文本中的詞匯特征。用于表示文本的基本單位是單詞,由多個單詞依照規律連接起來,構成完整的文本。眾多詞匯本身的特征置于特定語境中,集合成文本的特征,因而可將單詞作為特征項,通過獲取當前語境中的單詞特征來提取文本特征。2)評審準則的統計特征。論文的評審準則中,除卻創新型、實用性等主觀準則,通常還包含部分可統計的客觀準則,例如摘要中是否包含關鍵字、參考文獻的數量、參考文獻的出版年份等,這些準則主要決定論文的規范性和專業性,是更加直觀的不可或缺的評價標準,因此將其作為另一種特征。
特征提取及特征選擇的主要步驟如下。
1)將所有的原始數據作為一個語料庫,這個語料庫包含所有文章。對每篇文章進行分詞處理,此時文章可看作單詞的集合,然后對所有文章去除停用詞,只留下有用的單詞;
2)為了節約計算時間和提高計算精度,利用詞嵌入技巧獲取文本的詞匯特征。使用預訓練好的Glove[9]詞向量(glove.840b.300d.txt)來表示第1)步之后剩下的所有單詞,重構文本的上下文語境,得到一個300維的向量空間,使得所有單詞都映射到這個空間中的一個向量;
3)通過TF-IDF算法[10]優化單詞的權重,對所有單詞進行加權平均,得到用來表示每篇文章詞匯特征的文本向量;
4)基于評審過程的客觀規則,對每篇文章的特征項進行統計,并添加在詞匯特征之后。本文基于評審準則共添加了24個特征項,如表1所示。

表1 基于評審準則的特征項
預測論文的評審結果可以看作是一個二元分類問題,其分類結果是論文稿件被接收或被拒稿,本文采用投票法來解決這個問題。投票法是一種常用的集成方法,它通過線性組合多個基分類器的投票結果來實現。一般來說,組合而成的分類器減少了單個分類器的誤差,性能優于單個分類器。
假 設X={(xj,yj)|xj∈RD,yj∈{accept,reject},j=1,2,…,k}表示一個樣本數據集,其中yj表示xj所屬的類,D是樣本空間的維數,k是樣本的數量,則模型結構如圖1所示,模型搭建的主要流程如下。

圖1 模型結構圖
1)將訓練集X輸入到N個基分類器中進行訓練;
3)根據各基分類器的性能優劣分配初始權重,用ωn表示第n個基分類器的初始權重;
4)基于類概率對該初始權重進行優化,并按照優化之后的系數對已訓練好的基分類器進行線性加權組合,從而實現該投票模型的構建。
在測試階段,輸入測試樣本x,模型輸出預測類別為i的概率p(i)(x)如(1)所示,并根據式(2)所示的投票策略得到其最終的預測類別y。

為了最小化錯誤率,基分類器應該互不相關且錯誤獨立,本文選擇在經典的邏輯回歸模型和在分類問題中性能優良的SVM模型和XGBoost模型作為基分類器。
1)邏輯回歸[12~13]是一種經典的基于統計分析的分類方法,本文采用的是二元邏輯回歸分類模型,其條件概率分布和logit函數,分別如式(3)、式(4)所示,其中權重向量ω=(ω(1),ω(2),…,ω(n),b)T,特征向量x=(x(1),x(2),…,x(n),1)T。

2)SVM[14~15]是一種二元分類模型,其目的是通過求解式(5)和式(6)所示的最優問題,在特征空間中找到一個分離超平面ω·x+b=0來將不同類別的實例分隔開。它的分類決策函數和對應的后驗概率分別如式(7)、式(8)所示。

3)XGBoost[16~17]是一種提升樹模型,是將許多樹模型集成在一起,形成一個強分類器,它所用到的樹模型是回歸樹(CART)模型[18]。其算法思想就是不斷地添加樹,通過特征分裂來生長一棵樹。訓練之后,每個樣本的特征會落在每棵樹的一個葉子節點上,這個葉子節點對應一個分數,將所有得分相加,即可得到樣本的預測值如式(9)所示。

該算法的目標函數如式(10)所示。

投票的整體思想是綜合投票者的選擇,得到一個普遍正確的結果。投票法在分類問題中應用廣泛,它通過線性組合將多個基分類器整合在一起,能夠集成基分類器間的互補信息,減少單個分類器分錯誤[19],所以經投票選出的結果往往比單個分類器的預測結果準確性更高。現用N個基分類器的輸出結果進行線性組合來表示投票法,假設是分類器n預測x的類別為i的輸出,則x為類別i的投票結果可表示為式(11)。

投票方法一般包括多數投票和加權投票,其中,多數投票法遵循少數服從多數的原則,其基分類器只輸出預測類別,超過半數者為最終類別,如式(12)所示。此時,若分類器n預測x為類別i,則,否則,

因為基分類器的性能通常各不相同,所以加權投票在實際應用中比簡單投票更為廣泛。簡單的加權投票法是在訓練數據之前,給每個基分類器手動分配一個合適的初始權重,用ωn表示分類器n的權重,投票結果可表示為式(13)。

對比式(12)和式(13),不難發現簡單加權投票法與多數投票法類似,也只輸出最終類別而無法得到各類別的預測概率,且根據經驗而進行人工分配的權重并不能夠準確地表現各基分類器在實際應用中的優劣差異,從而影響最終的投票結果。基于此,本文提出通過融合基分類器輸出的類概率來對初始權重系數進行自動調整,優化之后的投票結果如式(14)所示,此時表示基分類器n預測x屬于類別i的概率則表示投票分類器最終預測x屬于類別i的概率。再根據如式(15)所示的投票法則,可得到最終的分類類別。

為了驗證模型的有效性,本文采用PeerRead數據集中的ICLR部分和arXiv部分來進行實驗,并與該數據集的單個最優二元分類模型進行比較。PeerRead是首個用于研究目的的基于同行評審的論文公開數據集,包含了來自ICLR、NIPS、ACL等頂級會議的一萬多篇論文文本和評審結果,部分包含具體評語。其中ICLR部分包含2017年的ICLR會議上提交的論文,arXiv部分包含2007~2017年間提交到arXiv平臺上的自然語言處理領域論文,由于論文提交的類別不一樣,所以arXiv部分的數據被分成了cs.cl、cs.lg、cs.ai三個子集,將分別對這三個子集建立不同的模型來進行預測。數據的具體構成如表2所示,其中正樣本為被接收的論文,負樣本為被拒稿的論文。

表2 實驗數據
在實驗中,我們選擇Python作為編程語言。實驗環境的詳細配置如表3所示。

表3 實驗環境
用TP、TN、FP、FN表示的分類結果的混淆矩陣如表4所示,其中TP表示分類正確的正樣本,TN表示分類正確的負樣本,FP表示分類錯誤的正樣本,FN表示分類錯誤的負樣本。

表4 混淆矩陣
本文在實驗中,首先選擇分類問題中最常用的評價標準——準確率作為評價模型性能的指標,準確率是指分類正確的樣本數量與樣本總數量的比值,即。通常情況下,準確率的值越高,分類器的性能越好。另外,從表1可以發現,用于實驗的數據樣本較少且正負樣本不均衡,針對這種情況,我們增加常用于數據集的正例和負例不均衡的AUC值[20]作為評價指標。AUC值是指ROC曲線下的面積,它是一個在0.5~1之間的具體的值,比圖形更加直觀簡潔,值越高,模型的性能越好。ROC曲線以假陽性率(FPR)為橫坐標,真陽性率(TPR)為縱坐標來進行繪制,其中,如圖2所示。

圖2 ROC曲線示例
為了驗證本文方法的性能,從不同角度進行實驗驗證:用本文提出的投票分類模型與單個的分類模型進行對比,用本文提出的改進投票方法與傳統的投票方法進行對比。
實驗1為了評估所提出的融合類概率的多分類器加權投票模型與單個分類模型在預測論文評審結果時的性能差異,針對ICLR、cs.cl、cs.lg、cs.ai四個部分的數據,復現了Kang等人在公布Peer?Read數據集時所提出的單個最優二元分類模型,搭建了本文所提出的模型,采用網格調參法尋找最優的超參數,采用5折交叉驗證法防止過擬合。實驗得到的準確率和AUC值分別如表5、表6所示(SC代表單個分類模型,PWV代表融合類概率的加權投票模型)。

表5 融合類概率的加權投票模型和單個分類模型的準確率對比

表6 融合類概率的加權投票模型和單個分類模型的AUC值對比
觀察表5和表6,可以看出融合類概率的加權投票模型的性能顯著好于單個分類模型。在ICLR、cs.cl、cs.lg三個數據集上,準確率分別提高了5.75%、0.06%、1.63%;AUC值在四個數據集上全部得 到 了 提 高,分 別 提 高 了0.014、0.028、0.027、0.047。這是因為投票法的使用使得單分類器之間的錯誤得到互補,從而使誤差減小。但是,在cs.ai這個數據集上,本文提出的模型準確率反而有所下降。造成這一結果的主要原因是由于該數據集的正負樣本差異過大,此時如果模型預測所有的測試樣本均為負樣本,得到的準確率就會很高,但這樣虛高的準確率并沒有意義,因為模型并沒有正確劃分正樣本和負樣本。
實驗2為了比較融合類概率的加權投票法與傳統投票法的效果差異,分別采用多數投票法、簡單加權投票法和本文改進的加權投票法進行了實驗。由于ROC曲線是根據分類模型的類概率變化來進行繪制的,而多數投票模型和簡單加權投票模型均只輸出最終類別,無法輸出類概率,所以無法繪制ROC曲線,也無法計算AUC值。實驗所得到的準確率如表7所示(MV代表多數投票法,SWV代表簡單加權投票法,PWV代表融合類概率的加權投票法)。

表7 不同投票法的準確率對比
從表7可以看出,在ICLR、cs.cl、cs.lg三個數據集上,融合類概率的加權投票法的準確率高于多數投票法和簡單加權投票法,在cs.ai上的降低與實驗1的分析相同。這說明融合類概率對權重進行優化的方法,的確有助于模型性能的提升。多數投票法和簡單加權投票法都忽略了基分類器分類特征的不同,沒有考慮訓練之后的實際分類性能,只在訓練之前主觀地分配權重,這限制了最終分類模型的性能。
目前,學術論文的評審工作多通過同行評審完成。本文針對同行評審存在的弊端,提出由機器來協助人工評審,并提出融合類概率的加權投票模型用于預測論文的評審結果。通過建立基于集成學習的多分類器投票模型來替代單分類器模型,并融合類概率對基分類器的權重系數進行進一步優化。實驗結果表明,本文所提出的方法有效地提高了模型的性能和預測結果的準確率。接下來的工作將針對正負樣本不均衡的數據做進一步改進。