李 君 高 雨 于海濤 李 菲
(1.哈爾濱工業大學圖書館,黑龍江 哈爾濱 150080;2.哈爾濱華德學院流程IT中心,黑龍江 哈爾濱 150025)
社會科學的繁榮與發展,是人類社會發展進步的標志,社會科學的研究水平和研究成果,是衡量一個國家綜合國力的重要構成部分,對社會系統的發展具有重要的作用。而如何建立科學的哲學社會科學科研評價和激勵機制也是科研評價的重要議題。一方面,它對科研經費的撥轉、科研計劃的設計和制定以及對科研人才的培養有著強有力的導向作用;另一方面,它反映了一個國家、一個單位的科學研究水平和科技實力。近年來,對社會科學成果進行評價是學術界普遍關注的問題,目前采用的評價方法一般可分為定性和定量評價這兩種。定性評價一般是通過同行評議來實現,其能夠充分發揮同行專家的經驗和智慧,減少因信息不全而帶來的局限,因此在國內外應用十分廣泛,但也會因評議專家與被評議內容之間的專業差異影響評價的公正性和客觀性。隨著科學計量學的興起,越來越多的科研機構將文獻計量學、數學和經濟學等學科的評價方法引入對科學成果的評價,并將其作為科研管理和決策的重要依據。定量評價引入社會科學領域后,在科研管理中逐漸得到廣泛應用,但隨著一些高等院校和研究機構將定量評價方法進行簡單化以及過度應用,該方法也遭到了不少的非議和責難。目前社會科學的評價方法一般將定性分析和定量分析相結合,通過同行評議來實現定性評價,同時也兼顧數量的因素,實現質量和數量的統一。
定性評價和定量評價是社會科學評價的兩種基本方法。定性評價一般是通過同行評議來實現,在學術水平相當或略有差距的情況下,評議專家容易向自己熟悉的研究人員的項目、成果等傾斜[1]。定量評價按照數量的分析方法,從客觀量化的角度來評價社會科學成果,在科研管理中得到了廣泛應用。許梅華運用文獻計量學、層次結構分析法、專家評審等方法,對人文社會科學成果評價指標體系進行了深入研究[2]。楊帥等運用引用次數、相對影響力和社會網絡指標來評價社會科學成果。王一華采用基于IF(JCR)、IF(Scopus)、H指數、SJR值、SNIP值的研究方法對期刊評價進行研究[3]。劉春麗則提出了一種基于軟同行評議F1000因子的方法來對科學論文影響力進行評價[4]。結果表明,任何一種評價方法都有適用范圍,一旦脫離這個適用范圍,就很容易出現問題[5-6]。目前許多社會科學成果評價出現問題,主要是沒有選擇合適的評價標準和評價方法造成的。姜春林等人認為構建科學、公正、合理的人文社會科學評價指標體系,一直是研究機構和學術界的共同愿望[7]。
機器學習作為多領域交叉學科,研究的核心是使用算法來解析數據,從已知數據中學習,然后在未知數據上做出決定或者進行預測。它是一種數據分析的技術,使得計算機能夠模擬人的學習方式,直接從數據中學習信息。在分類這個問題上,研究者常用的方法包括向量空間模型[8]、樸素貝葉斯方法(NBM)[9]、支持向量機(SVM)算法[10-12]、決策樹算法[13]、K-近鄰算法(KNN)[14-15]、隨機森林算法[16-17]。文獻中大多是用機器學習來對文本的主題分類,在對社會科學成果評價分類的應用上少之又少。基于此,筆者研究如何利用機器學習的方法來鑒定社會科學成果,研究的科學成果包括著作、調研報告、期刊論文、會議論文、快報等各種類型文獻,根據論文題名、摘要、關鍵詞、期刊、作者、基金等多種信息,構造合適的屬性向量空間,再利用機器學習方法來識別不同獎項的論文類別,以提高社會科學成果評價效率,同時與專家評審、同行評議等相結合,提高社會科學成果評價的客觀性和全面性。
科學文獻是一個多維信息載體,其包含的信息包括科學成果的發表年代、期刊、作者、所屬國家、領域等,根據信息的所屬范圍可將其轉化為文獻具有的特征X:
其中xi(i=0,1,2,…,n)表示社會科學成果的特征描述,分別表示文獻的引文、發表年代、發表期刊、作者、機構等。用n個特征來表示成果,特征值的大小表示影響力的大小。
基于機器學習的研究方法通常可分成如下幾個步驟:
(1)數據采集:根據任務確定需要的數據類型,搜集相應數據并根據質量進行篩選。一般來說,為獲得高質量的數據,需要對數據進行處理,包括缺失值處理、重復值處理、數據類型的轉換等。這里將采集的黑龍江省社會科學成果評選結果作為數據源,并結合數據庫檢索手段補充需要的屬性字段。
(2)特征選擇:根據特定的問題領域的性質,選擇出有明顯區分意義的特征。在選擇或設計特征的過程中,挖掘了若干容易提取、對不相關變形保持不變、對噪聲不敏感以及對區分不同類別的模式很有效的特征集,來構建所需的特征向量空間。
(3)算法選擇:根據之前選擇的特征集來尋找可用于分類的函數。通過在函數空間中找到一組能夠對已知數據進行擬合的函數,來對未知數據的類別進行分類。
(4)訓練:利用訓練數據的特性建立一個簡單的分類器。用已有的數據,通過最優化方法確定函數的參數,參數確定后的函數就是訓練得到的結果。搜集黑龍江省社會科學成果獲獎文獻數據,將其劃分為訓練集和測試集,分別用于對模型的測試和評估。
(5)評價:評價對于系統性能的改進起著重要的作用。評價一個分類器的好壞,不僅要考慮分類器的精度,保證其在已知數據上具有很高的準確率,同時也要考慮分類器的泛化能力,保證其具有識別和分類未知數據的能力。
分別使用樸素貝葉斯(NBM)、隨機森林(RFA)、支持向量機(SVM)以及K-近鄰算法(KNN)來對社會科學研究成果進行分類,識別不同社會科學研究成果所屬的級別,包括一等獎、二等獎和三等獎等,以供社科成果鑒定評價參考。
(1)樸素貝葉斯(NBM):樸素貝葉斯法是基于貝葉斯定理以及特征之間條件獨立性的分類方法,在監督學習領域有著很重要的應用。對于給定的訓練數據,首先基于特征條件獨立假設學習輸入和輸出之間的聯合概率分布,在此基礎上,對于給定的輸入,利用貝葉斯定理求出其所屬的類別。研究結果表明樸素貝葉斯分類器是具有不錯的學習效率,同時也擁有不錯的分類效果的分類器之一[18]。
(2)隨機森林(RFA):隨機森林是一個通過建立多個決策樹,并將所有決策樹融合起來,得到一個更加準確和穩定的結果的分類器。對于一個樣本,經過決策樹處理會得到一個分類結果,選擇所有決策樹的分類結果中最多的類別作為該樣本的最終分類。研究證明隨機森林預測準確率高并且具有很好的噪聲容忍度,不容易產生過度擬合。
(3)支持向量機(SVM):支持向量機是一個用于二分類的機器學習模型,在統計分類以及回歸分析領域應用廣泛。它是一種監督學習,通過在包含正負樣本的訓練數據集找到幾何間隔最大的超平面,來對樣本中的正例和反例進行分割,不僅保證對訓練數據進行分類具有很高的確信度,同時對未知的新實例有很好的分類預測能力。SVM是一種適用于小樣本學習的方法,不涉及概率相關知識,簡化了通常的分類和回歸等問題,同時也具有優秀的泛化能力。
(4)K-近鄰(KNN):KNN分類算法是一種典型的非參數、有效、較流行的惰性學習方法,可用于回歸和分類任務。該方法檢查目標數據點周圍的K個數據點的標簽,選擇出現次數最多的標簽對該目標數據進行歸類。由于其不對數據進行任何假設,因此可以用于各種各樣的問題。
(5)主成分分析(PCA):主成分分析作為一種數學方法和有力的數據分析工具,幾乎在所有學科中都有它的身影。其通過一個正交化線性變化,把原始的n維特征映射到k維上,這種k維全新的正交特征也被稱為主成分。通過將高維數據映射到低維空間,實現對數據的降維。在實際課題中,為了全面分析問題,往往提出很多與此有關的變量(或因素),因為每個變量都在不同程度上反映這個課題的某些信息。
選取陜西省社會科學界聯合會(網址:http://www.shaanxi.gov.cn/)的第11屆和第12屆社會科學期刊論文評選的所有獲獎論文和第10屆評選中獲一等獎的論文作為原始數據,如表1所示。
除去數據庫檢索不到的論文,共獲得198個樣本,其中一等獎15個,二等獎53個,三等獎130個。經文獻調研挖掘確定論文質量評價指標,選取其中便于量化且具有較好表征性的數據,確定論文的特征向量空間,并基于社會科學論文特征列表采集每一篇論文的相應數據,構建原始數據表,如表2所列。其中,發表年限從2016年開始至今,其他數據為實際采集數據。

表2 社會科學論文特征列表
為了消除不同評價指標的量綱差異,使得數據不同指標之間具備可比性,需要對數據進行歸一化和標準化處理。選擇min-max標準化方法,對原始數據進行變換,將其映射到0和1之間。轉換函數X如下:
其中,Xmax為樣本數據中的最大值,Xmin為樣本數據中的最小值。
為了測試不同分類算法的準確性,選擇十折交叉驗證的方法,輔助選擇合適的分類器。十折交叉驗證通常是將數據集分成10份,輪流取出其中的一份數據作為測試數據,其他數據作為訓練數據進行試驗。每一次實驗都會得到一個相應的正確率指標,取10次結果的平均正確率來估計算法精度。
按照機器學習的研究方法對數據作出處理,進行十折交叉驗證,得到不同分類器的指標如下。
根據表3的結果,在使用原始數據時,隨機森林方法對數據進行分類的準確率要明顯高于其他幾個分類器,準確率可以達到69.3%,支持向量機次之,準確率為60%左右。對數據進一步標準化處理之后,不同分類器的準確率會得到進一步提升,其中K-近鄰算法準確率的提升幅度最大,從57.2%提高到了65.7%。在所有的結果中,使用隨機森林對數據進行分類的準確率都要好于其他幾個分類算法。

表3 基于十折交叉驗證的多分類器測試結果
隨機選擇樣本集中150個作為訓練集,并將剩余的48個數據作為測試數據,使用隨機森林進行分類得到的結果。根據結果,隨機森林對第三類三等獎的識別精度最高,準確率為93%,對第一類和第二類的論文識別精度較低(見表4),這是數據量較少,樣本分布不均所致,收集更多的訓練數據可以進一步提高識別的準確率。

表4 隨機森林算法三分類測試結果
為了提高3種獲獎論文的分類精度,對研究方法做了進一步優化:采用主成分分析對論文特征向量進行降維。將社會科學論文特征列表x1~x14作為自變量,分類標簽y作為因變量,輸入SPSS軟件平臺,進行降維因子分析。所得結果見表5。

表5 主成分分析KMO與Bartlett檢驗
KMO檢驗是從比較原始變量之間的簡單相關系數和偏相關系數的相對大小出發及逆行的檢驗,該值越接近1,說明變量越適合進行主成分分析。根據表5,KMO檢驗值該值等于0.678,說明可以進行因子分析。根據表6可以提取6個主成分,最后得到主成分系數矩陣PCA,如表7所示。

表6 主成分分析說明的變異數(擷取方法:主體組件分析)

表7 主成分分析主成分系數矩陣
使用主成分分析對原始數據進行降維之后,使用隨機森林進行分類可以使分類精度提高至77%。若將第一類和第二類的數據合并為一類,再進行二分類,分類精度可以有少許提高,達到79%。
實驗結果表明,將社會科學成果自動分類為一二三等獎等若干級別,用隨機森林算法來分類識別一二三等獎的論文,數據未經標準化時,分類識別的準確率為69.3%,標準化后分類識別的準確率為70.8%。為進一步提高模型的性能,使用主成分分析,可以從14個屬性特征中提取出6個主成分,再與隨機森林算法結合分類識別各獎項論文,識別準確率可以達到79%,從而減少了不相干成分對分類結果的影響,進一步提高了分類精度。
對人文社會科學成果進行評價是科研管理工作中的一項重要內容,常規專家評審、同行評議、引用次數或影響因子單指標評價等評價方法存在一定片面性。筆者選取陜西省社會科學界聯合會網站連續3年的社會科學期刊論文一等獎、二等獎、三等獎論文集,以論文被引次數、發表年限、下載次數、影響因子、參考文獻數量、英文參考文獻數、作者個數、作者單位、合作單位、基金資助情況、是否有數理模型、圖表情況、案例情況和調研情況等14個論文屬性特征構建論文特征屬性空間,并將論文獲獎等級作為輸出分類標簽。數據經最大最小化歸一化后,再用十折交叉驗證法在樸素貝葉斯方法(NBM)、支持向量機(SVM)算法、最近鄰算法(KNN)、隨機森林算法(RFA)中選擇合適的分類器。結果表明,將機器學習的方法應用于人文社會科學成果自動分類評價,可以提高社會科學成果評價效率,同時也保證識別的精度。使用機器學習結合論文多層次屬性建模,分類精度,有助于決策者做出準確、客觀的評價。
首先,使用機器學習的方法來研究對社會科學成果進行評價的可能性。機器學習多用于文本的主題分類,如對短文本話題分類、情感計算等,首次將機器學習方法用于社會科學成果評價分類。按照機器學習的處理流程完成了樣本數據的收集和清洗、分類算法的選擇和設計以及對算法的評估。在數據不充足的情況下,使用機器學習方法來對社會科學成果進行分類可以取得比較高的準確率。結果表明,使用機器學習方法進行社會科學成果評價在提高評價效率的同時,也擁有較好的識別精度,可以對常規評價方法進行補充。
其次,根據論文的屬性構建適用于機器學習的特征空間。科學文獻是一個多維信息載體,其包含的信息反映了科學成果的重要程度。為了更好地對其進行量化,將其映射到特征空間,根據論文具有的自身屬性和外部屬性,構建了適合機器學習分類器的社會科學論文屬性特征空間,并使用標準化方法來消除不同量綱的影響。該課題構造的論文屬性特征空間具有較強的普適性,獲取便捷,可適用于與之相關的其他領域。
最后,科學選擇合適的分類方法。為了選擇出最好的分類器,課題采用了十折交叉驗證法,使用不同分類器進行實驗,選擇其中效果最好的隨機森林作為課題使用的分類器。為了減少不相干成分對分類結果的影響,進一步使用主成分分析方法來對原始數據進行降維,并對降維后的數據再分類,進一步提高了分類精度。
為了進一步驗證基于機器學習分類方法的科學性和優越性,還需要采集更多的數據進行實驗,來降低數據規模小帶來的消極影響,如采集多個省份的數據,以規避單個省份評獎規則可能存在的片面性。此外,還需采集更多的一二等獎的數據,來消除數據分布的不平衡,提高分類器識別一二等獎的精度。