基于Keras神經網絡模型的科技期刊評價指標分析

2022-08-16 10:39:38武曉芳楊黎薇段洪杰

天津科技 2022年8期

武曉芳，段然，楊黎薇，段洪杰*

(1. 《地震研究》編輯部云南昆明 650224；2. 中國電信翼支付上海 200000； 3. 云南地震臺云南昆明 650224)

0 引言

科技期刊是傳承人類文明、薈萃科學發現、引領科技發展的重要載體，其直接體現著國家科技競爭力和文化軟實力，是進軍世界科技強國的重要科技和文化基礎。建立科學的科技期刊綜合評價指標體系將更加完整地統計科技期刊的各項計量指標和高效地進行期刊文獻計量和評價工作，對核心期刊遴選、推進知識服務系統發展具有重要意義。

我國期刊評價系統眾多，評價指標與結果各不相同，但主要是采用文獻計量學、定量與定性分析相結合對科技期刊進行評價[1-2]。邱殿明等[3]研究了科技期刊影響因子與其相關評價指標的關系，從地球科學綜合類期刊中選取13種中文類期刊作為研究對象，根據評價指標體系的選擇原則和影響因子的重要性，并利用灰色關聯分析方法進行了影響因子與其相關的總被引頻次、即年指標、他用率、平均引文數、地區分布數和基金論文比關系分析。徐小瑩等[4]用次聚類算法和主成分分析方法設計了一個指標獨立性指數，并以此對多個指標進行分組合并，從而獲得了少數高獨立性代表指標。馬衛華等[5]采用主成分分析法對文獻計量中常用的9個指標進行降維處理，提出了一個能有效反映科技期刊質量的評價體系，并以廣東省53種科技核心期刊為例進行了評價。毛國敏等[6-8]通過多種途徑研究了期刊指標的各項特征，如探討單刊論文全時域下載次數與被引次數2個變量之間的關系，在考慮原始數據概率密度分布的基礎上對原數據進行變換，并運用線性回歸研究期刊論文下載次數與被引次數2個變量之間的關系；對有權威的指標進行篩選，試圖從中尋找能反映期刊質量的少量指標；運用非線性迭代計算方法模擬，以獲得更接近實際情況的期刊論文被引次數密度分布情況。

上述眾多研究方法主要是通過使用權重分析、線性回歸等傳統數學計算方法來實現的。神經網絡可以通過復雜的網絡計算從眾多原始特征中找出高級特征，從而達到更好的擬合效果，這些高級特征很多都是之前傳統的計算方法無法構造和計算出來的。2010年前后，神經網絡技術取得重大突破，全球有影響力的大規模圖像分類挑戰賽ImageNet在2011年獲勝的神經網絡模型精度只有74.3%(top5)。到了2012年，由Alex Krizhevsky帶領并由Geoffrey Hinton提供建議的小組實現了83.6%(top5)的精度——這是一項重大突破。目前神經網絡的感知能力和對圖像的識別能力已經超過人類。在神經網絡的開發工具中，Keras是為了讓人類易于理解而專門設計的神經網絡開發工具，其得到了較廣泛的運用，如歐洲核子研究中心(CERN)多年來一直使用基于決策樹的方法來分析來自大型強子對撞機(LHC)ATLAS 探測器的粒子數據，但CERN 最終轉向基于Keras 的深度神經網絡，這是因為它的性能更好，而且在大型數據集上更易于訓練。

本文基于2019版《中國科技期刊引證報告》提供的期刊引證數據和基于Keras 的深度神經網絡模型分析各項期刊指標與期刊質量之間的關系。

1 數據來源

建模使用評價數據主要來源于2019 版《中國科技期刊引證報告》中的地球科學期刊，選取了143種期刊的20類引證指標，包括擴展總被引頻次、擴展影響因子、擴展即年指標、擴展他引率、擴展引用刊數、擴展學科影響指標、擴展學科擴散指標、擴展被引半衰期、擴展H指標、來源文獻量、文獻選出率、平均引文數、平均作者數、地區分布數、機構分布數等作為數據源。

2 深度神經網絡模型

2.1 模型設計及原理

筆者設計了期刊指標的深度神經網絡模型結構，該結構由多個權重矩陣神經元運算堆疊構成。使用期刊指標數據集對深度神經網絡進行反復訓練，通過不斷優化神經網絡的內部權重使神經網絡能夠識別出期刊指標的高級特征。期刊指標的深度神經網絡模型主要由權重矩陣、激活函數、損失函數、優化器運算組成。

2.1.1 權重矩陣

期刊指標的深度神經網絡模型由2個神經網絡層堆疊構成，每一層的神經網絡層的權重矩陣的運算公式是：

其中，inputs是輸入矩陣，kernel是由神經網絡層自動創建的權重矩陣，bias是由神經網絡層自動創建的偏差向量矩陣，activation是按逐個元素計算的激活函數，dot是點積運算。第一層神經網絡層的輸入參數(input)為期刊指標數據集，第二層神經網絡層的輸入參數為前一層神經網絡層輸出的數據集(output)。單獨的一個權重計算的神經元結構如圖1所示。

圖1 神經元Fig.1 Neurons

其中，x1、x2…是輸入的維度，即input；W1、W2是權重，即kernel；b是偏差向量矩陣，即bias；A是激活函數activation。

2.1.2 激活函數

在期刊指標的深度神經網絡運算中，如果輸入值和矩陣的運算是線性的，那么多個線性函數的組合仍然是線性函數。因為線性計算模型的表達能力有限，所以需要用非線性函數對每一個神經網絡層進行激活，并將期刊指標的特征由線性特征轉化為非線性特征，期刊指標的激活函數使用了Relu和Sigmoid激活函數。

Relu激活函數的運算公式是：

期刊指標的各項數據都為正數，在運算過程中不存在梯度飽和的問題。無論前向傳播還是反向傳播，計算速度都很快。期刊指標的Relu函數圖像見圖2。

圖2 Relu激活函數Fig.2 Relu activation

Sigmoid激活函數的運算公式為：

期刊指標Sigmoid函數的評估結果輸出映射在(0，1)之間，梯度計算簡單，不易出現訓練速度慢的問題，求導容易。期刊指標的Sigmoid函數圖像如圖3所示。

圖3 Sigmoid激活函數Fig.3 Sigmoid activation

在期刊指標的深度神經網絡模型中增加激活函數的運用可以有效提升神經網絡模型的泛化能力，進而增加對新的期刊指標樣本的適應能力。

2.1.3 損失函數

損失函數用于計算神經網絡每次迭代計算的期刊指標的結果與真實值的差距，從而指導下一步訓練的方向。期刊指標深度神經網絡模型使用binary_ crossentropy 損失函數，數學公式為：

其中，y是期刊指標的評判結果，p(y)是所有N個期刊指標的預測概率。對于每一個期刊指標(y＝1)，它增加了log(p(y))的損失，概率越大，增加的越小。

2.1.4 優化器

優化運算尋求的是期刊指標的函數局部的最優解，求得的是函數在小范圍內的一個最優值，這使得期刊指標的深度神經網絡模型在一定范圍內的識別能力可以逼近一個極限值，即實現梯度下降。在幾種優化器中，Adam優化器對下降梯度的一階矩估計(First Moment Estimation，即梯度的均值)和二階矩估計(Second Moment Estimation，即梯度的未中心化的方差)進行綜合計算，以求出更新的步長。參數的更新不會受到梯度的伸縮變換影響，其能夠自動調整期刊指標深度神經網絡訓練的學習率，并解決期刊指標的目標函數不穩定、梯度稀疏的問題，從而提高準確率、降低損失率(損失率越低，計算結果越接近真實值)。

2.2 神經模型實現

根據2019版《中國科技期刊引證報告》提供的20種期刊指標設計深度神經網絡模型，設計應充分考慮期刊指標的數據特性：①期刊指標的訓練數據量小；②期刊指標的數據維度是二維；③期刊指標的數據表達方式是結構化數據等。期刊指標深度神經網絡模型的第一步工作是將20種期刊指標數據集編碼后通過聯結層輸入到神經網絡中，具體如圖4所示。

圖4 20種期刊指標編碼后輸入到神經網絡層Fig.4 Inputting encoded 20 journal indicators to neural network layer

第二步工作是將標量化后的期刊指標數據集以20個維度輸入給第一層神經網絡。第一層神經網絡經過神經網絡的權重計算后用Rule激活使數據非線性化，再添加dropout 正則化層以避免過擬合，然后將數據輸入給第二層神經網絡。第二層神經網絡經過權重計算后用Sigmoid激活使數據非線性化，使用inary_crossentropy 損失函數和Adam優化運算，通過迭代訓練使神經網絡感知識別能力在局部范圍內逼近一個極限值。期刊指標的深度神經網絡的結構如圖5所示。

圖5 期刊指標的深度神經網絡模型結構Fig.5 Model structure of journal indicators based on deep neural network

2.3 神經網絡訓練和問題處理

為了讓神經網絡學習影響力大的期刊指標的高級特征，本文使用2019版《中國科技期刊引證報告》中的地球科學期刊數據，即地球科學綜合、地理學、地球物理學、地質學共143種期刊的20項期刊指標數據對神經網絡進行訓練。為避免主觀因素，我們將2019 年《科學引文索引》(SCI)和《工程索引》(EI)收錄的期刊視為影響力大的期刊，其他期刊則視為影響力不大的期刊，據此得到19種影響力大的期刊和124種影響力不大的期刊。期刊指標數據集進行了如下處理。

①漢字編碼：由于保存神經網絡權重文件的HDF5文件格式不能處理漢字，故20項期刊指標的漢字名稱用每個漢字拼音的首字母代替。

②梯度爆炸：143種期刊的期刊指標有缺數問題，導致神經網絡在訓練過程中出現梯度爆炸，將缺數的期刊指標空白用0代替后得以解決。

③樣本不平衡：影響力大的期刊和影響力不大的期刊比例是19∶124，樣本嚴重不平衡，在訓練神經網絡時需要調節正負樣本的權重。

隨機從期刊指標的數據集中取20%的數據用來驗證準確率。經過10個迭代的訓練，期刊指標的深度神經網絡模型的校驗準確率快速達到了89.66%，具體如圖6所示。

由圖6可見，隨著訓練迭代次數的增加，訓練準確率(灰色線)和校驗準確率(黑色線)不斷上升。訓練準確率高于校驗準確率，存在一定的過擬合。

圖6 期刊指標的深度神經網絡校驗準確率Fig.6 Verification accuracy of journal indicators based on deep neural network

訓練后得到期刊指標的深度神經網絡模型的校驗損失率為32%，如圖7所示。

圖7 期刊指標的深度神經網絡校驗損失率Fig.7 Verification loss rate of journal indicators based on deep neural network

3 結果與分析

把高維向量進行可視化，將期刊指標深度神經網絡模型的32維向量和18767組數據投影到一個三維坐標系中。同一個類別的向量彼此靠近，形成了界限明顯的簇，證明期刊指標深度神經網絡的識別效果好，具體如圖8所示。

圖8 期刊指標的深度神經網絡高維向量化Fig.8 High-dimensional vectorization of journal indicators based on deep neural network

期刊指標的深度神經網絡模型訓練時處于欠擬合與過擬合之間，證明神經網絡模型的設計(神經網絡的層數、神經網絡的容量大小)達到了理想的狀態。使用期刊指標數據集訓練后的深度神經網絡模型可以快速、準確、高效地評估質量，還能找到提高期刊質量需要關注的重點指標，避免了使用人為經驗和傳統數學運算，且避免了成本高且耗時、挑選標準很難統一、無法量化的問題，顯著提高了簡便程度、工作效率和準確率。深度神經網絡模型可以實現非線性化的數據擬合，并可以從眾多期刊特征中找出過去憑經驗無法找出和憑傳統數學方法無法計算出來的模型，但這不意味著一定需要上千萬級的數據來讓深度神經網絡模型學習和訓練。

本文設計的合理的深度神經網絡模型在小數據量的情況下得到了極高的準確率，訓練后的期刊指標的深度神經網絡模型在識別各項期刊指標時Sigmoid激活函數輸出一個介于0～1之間的概率值，通過其可以快速評估某一個期刊是不是有影響力的期刊的概率。對特定期刊可以虛增某個期刊指標的值，進而觀察評估概率的增加幅度，由此可確定特定的期刊短期內最有效果的指標，為快速提高期刊影響力指明方向。

4 結語

隨著深度神經網絡技術的快速興起，很多傳統方法無法解決的難題都找到了解決的途徑，不依賴人工經驗和傳統數學計算方法的期刊指標的研究解決了以往的難題，具有重要意義。本文提出的期刊指標的深度神經網絡模型經過訓練后不需要依賴人工經驗挑選單一的期刊指標及用傳統數學方法對各種期刊指標進行數學建模和運算，可通過對深度神經網絡的訓練識別出期刊指標的內在高級特征，而這些高經特征是憑以往經驗和傳統方法無法找出來的。深度神經網絡的訓練結果和對結果的進一步分析表明基于Keras的期刊指標的深度神經網絡模型能夠更加高效、更加準確地反映期刊指標的內在高級特征，能為定量分析期刊的質量和期刊的辦刊方向提供有力保證。■