仇國華 趙華



摘 要:作者重名消歧是一個重要又復雜的研究課題,在科技文獻檢索工作中,作者重名問題勢必會降低文獻檢索的效率和準確性,影響工作進度。提出一種改進粒子群算法優化的BP(Back Propagation)神經網絡算法,以解決作者重名消歧問題。首先引入Beta分布的動態慣性權重,提高算法全局搜索能力;其次利用改進粒子群算法優化的權值和閾值,作為BP神經網絡的初始權值和閾值進行模型訓練,以加快模型訓練速度;最后通過特征評價函數過濾式選取排序較優的M維特征子集作為輸入層特征向量訓練模型,得到最終預測結果,從而精確區分重名的作者。實驗研究表明,該模型對重名作者身份的預測準確率可達89.01%,證明了該算法的有效性。
關鍵詞:重名消歧;PSO算法;BP神經網絡;動態慣性權重;特征評價函數
DOI:10. 11907/rjdk. 192641
中圖分類號:TP301 ? 文獻標識碼:A ??????????????? 文章編號:1672-7800(2020)003-0111-05
A Method of Distinguishing Distinguished Names of Authors
QIU Guo-hua, ZHAO Hua
(College of Computer Science and Engineering, Shandong University of Science and Technology,Qingdao 266590,China)
Abstract: The authors name and disambiguation is an important and complicated research topic. In the retrieval of scientific literature, the authors name problem will inevitably reduce the efficiency and accuracy of literature retrieval and affect the progress of the work. In this paper, a back propagation(BP) neural network algorithm with improved particle swarm optimization is proposed to solve the problem of authors name disambiguation. Firstly, the dynamic inertia weight of Beta distribution is introduced to improve the global search ability of the algorithm. Secondly, the weight and threshold of the improved particle swarm optimization algorithm are used as the initial weight and threshold of BP neural network to train the model to speed up the training of the model. The feature evaluation function is used to filter and select the M-dimensional feature subsets with better ranking as the input layer feature vector training model to obtain the final prediction result, so as to accurately distinguish the authors of the duplicate names. The experimental results show that the prediction accuracy of the model can be improved to 89.01%, which proves the effectiveness of the algorithm.
Key Words:duplicate disambiguation; PSO algorithm; BP neural network; dynamic inertia weight; feature evaluation function
0 引言
隨著信息技術的發展以及網絡的普及,人們越來越依賴在線文獻系統搜索查閱文獻,當遇到同名作者時,系統往往并不能對同名作者進行消岐。因此,如何利用自動化分析技術對同名作者進行消岐成為近年的研究熱點。存在重名消歧問題的領域十分廣泛,很多科學家在不同領域對重名消歧問題都進行了較深入的研究,如百科全書、維基百科、參考文獻、網頁電子郵件等。科學家在對重名消歧問題進行研究時,提出了許多有效的方法,但是都面臨準確性不高的問題。機器學習是解決同名消歧問題常用的方法,隨著機器學習算法的不斷發展,傳統的機器學習算法在準確性方面遭遇到前所未有的困難。
郭舒[1]選擇論文中的標題、合作者和出版物名稱作為特征合集,進行文本聚類實現作者身份消歧;劉巍等[2]通過采集作者姓名、所在機構以及任職時間等數據信息,根據論文中提取的作者署名、機構名稱、發表年限等信息進行匹配,但是沒有處理作者重名情況;候海東等[3]將字符串模糊匹配算法與作者間合著關系結合,對論文作者識別方法進行改進;翟曉瑞等[4]將論文的文本信息轉換為稀疏特征矩陣,通過對比待消岐論文之間的稀疏特征分布實現作者的姓名消岐;陽怡林等[5]將論文中的多個特征提取出來并進行特征融合,通過基于均方誤差鄰接矩陣聚類方法得到不同的劃分;寧博等[6]通過加入百科知識庫,豐富論文作者實體信息,最后通過層次聚類進行論文作者消岐。
以上解決方案存在數據稀疏、收斂速度慢、泛化能力弱等缺陷。為了彌補算法的不足,本文提出一種基于改進粒子群算法優化BP神經網絡的方法,對論文作者重名情況進行消岐。
1 基本算法
1.1 粒子群算法原理
PSO算法也稱粒子群算法[7-8],是群體智能領域的一個重要研究方向。相對于其他優化算法,PSO算法可在有限的迭代次數內找到較為可靠的最優解,收斂速度和收斂精度已被多次對比驗證,展現了強大的優化性能,廣泛應用于優化問題。它受群體覓食行為啟發,通過計算模擬群體之間的行為形成一種理論。這種方法通過粒子的個體搜索最優解,每個粒子都受自身“最佳”位置和群體中“最佳”位置的影響,有時會隨機移動。在粒子群優化算法中,每個點都有在某個鄰域中獲得最佳性能和最佳決策向量的位置記憶,通過相關方程使用這些信息更新粒子位置。
粒子根據式(1)和式(2)更新速度和位置:
其中,[c1]、[c2]為學習因子,也稱加速常數,[w]為非負慣性因子,[r1]、[r2]為[0,1]范圍內的均勻隨機數,[w]稱為慣性權重,作用是記憶搜索慣性即搜索速度。在種群搜索的不同時期,[w]值的變化會產生不同效果。在種群搜索早期,較大的[w]值可以加快收斂速度,在種群搜索后期,較小的[w]值可以使搜索結果更精確。慣性權重因子為隨迭代次數變化的一個函數,一般常用的慣性權重因子函數如式(3)所示。
[wstart]為初始慣性權重值,[wend]為最終慣性權重值,[k]為當前迭代次數,[Tmax]為總迭代次數。
1.2 BP神經網絡模型原理
BP(Back Propagation)神經網絡[9-10]模型是應用最為廣泛的神經網絡模型之一,它通過誤差的反向傳播來更新網絡中的權值和閾值。經典的BP神經網絡為三層BP神經網絡結構,分別由輸入層、隱藏層和輸出層組成。通過由輸入層、隱藏層和輸出層建立的拓撲結構和目標函數所組成的誤差函數進行反向傳播學習,更新輸入-輸出模式映射關系,找到最為可靠的權值和閾值。經典三層神經網絡結構如圖1所示。
圖1中,[x1],[x2],…,[xn]作為整個BP神經網絡的輸入,是進入BP神經網絡的原始數據,[y1],[y2],…,[ym]是整個BP神經網絡的輸出,也稱為網絡的預測,[wij]代表BP神經網絡的權值,通過BP神經網絡,將輸入[x1],[x2],…,[xn]映射到輸出[y1],[y2],…,[ym]上,類似于非線性函數中的自變量映射到因變量,較好得出輸入和輸出之間的映射關系。
BP神經網絡中,首先數據輸入到網絡中,通過正向傳導計算到輸出層,輸出層與目標函數進行對比,通過式(4)的損失函數得到誤差值,誤差通過反向傳播實現網絡中的權值更新。
[Etotal]為誤差值,[outki]為輸出層第i個輸出節點,[yi]為目標函數值。通過這兩個過程的交替進行,在權向量空間執行誤差函數梯度下降策略,利用鏈式求導法則動態迭代搜索一組權向量,使網絡誤差函數達到最小值,見式(5)。
[wij]為第i層第j個權重變量,[netki]是權重和輸入節點的線性乘積,[outki]由[netki]經過sigmoid函數轉換得到。
2 算法改進
2.1 基于Beta分布慣性權重的PSO算法
為了更好地平衡算法的全局搜索與局部搜索能力,引入基于公式(3)的beat分布慣性權重,采用隨機策略動態調整慣性權重大小。
Beta分布[11-13]是一個作為伯努利分布和二項式分布的共軛先驗分布密度函數,是一組定義在(0,1)區間的連續概率分布。
Βeta分布的概率密度函數如下:
兩個參數[α,β>0],?隨機變量X服從參數為[α,β]的Βeta分布,通常寫作
為了提高粒子全局搜索能力,避免陷入局部最優解,采用w慣性權重值迭代前期突變概率小、迭代后期突變概率高的策略。因此在迭代過程中beta分布函數改成如式(8)所示分布:
[k]為當前迭代次數,[Tmax]為總迭代次數。一般慣性權重迭代曲線與服從Beta分布的慣性權重迭代曲線如圖2所示。
2.2 基于改進PSO的BP神經網絡模型
BP神經網絡是較為成熟的神經網絡模型,通過對輸入樣本數據的訓練,自主學習出各參數之間的隱藏關系。傳統的BP神經網絡模型本質是學習更新權值和閾值,利用最小二乘法構建損失函數,通過最小化誤差的平方和簡便地求得未知數據,并使這些求得的數據與實際數據之間誤差的平方和最小。最小二乘法采用梯度搜索技術[14-16],難免存在收斂速度慢等問題。因此可以先以損失函數作為PSO適應度函數,利用改進后的PSO算法訓練一組較為接近真值的初始權值和閾值,之后再利用這組權值閾值訓練BP神經網絡模型得到最終結果。
3 過濾式論文特征選取
本文通過萬方數據知識服務平臺的論文原始數據信息作為研究樣本。原始數據信息以論文為單位,包含了論文編號、中文名、英文名、單位等總計71個論文屬性信息。表1展示了萬方數據知識服務平臺所涵蓋的71個論文屬性字段。
自定義特征覆蓋率和單特征置信度作為兩個論文特征屬性。特征覆蓋率為含有此特征的論文數占論文總數的百分比,單特征置信度為僅通過此特征可正確識別作者身份的百分比。選取檢索論文作者姓名為“王偉”論文的216篇,依據公式(9)選取出可用特征:
[Vcoverange]為特征覆蓋率,[Vfitness]為單特征置信度。篩選出[Vvalue]大于0.22的所有可用特征如圖4所示。
根據特征評價函數公式(10),從以上特征中選取最終[Feature]值大于0.75的特征組成可用特征向量:
經過過濾篩選的可用特征向量為
4 實驗
4.1 基于Beta分布的PSO算法實驗
標準PSO算法記為SPSO,基于Beta分布的PSO算法記為BPSO。為了驗證本文提出的BPSO算法的收斂性能,實驗選取表2中的4個標準優化測試函數。SPSO的慣性權重由式(3)迭代產生,BPSO的慣性權重由式(8)迭代產生。慣性因子w取值區間為[0.2,0.8],初值為0.8,式(8)中的[α]為20,[β]為80,[Tmax]為1000,個體學習因子c1和社會學習c2值均為2,初始化粒子數為20,測試函數的維度為20,算法所得結果均為50次運行結果的平均值,最后測試結果如圖5所示。
圖5中有4個分圖,分別對應表2中的4個基準測試函數,其中橫坐標代表迭代次數,最大次數為1000,縱坐標代表適應度值。通過圖5可知,BPSO的收斂性能較SPSO算法有大幅提升,4個測試函數的最后結果BPSO的適應度值均小于SPSO。在F2中,當橫坐標的迭代次數為16和62時,SPSO有一段迭代進化中適應度值低于或等于BPSO,原因是在進化前期BPSO中的慣性權重概率變小,導致粒子進化步數變小,在區間中搜索更為精確但是收斂速度也變慢了。
4.2 基于改進PSO算法優化BP神經網絡實驗
為了驗證本文提出算法的準確性,選擇萬方平臺提供的論文數據集對模型進行訓練,依據表3得出所有屬性的相似性值。
相似性值1/0即相同為1,不同為0。由于地區和郵編具有地區包含遞推特性,所以不能采用1/0規則,需根據公式(11)確定相似性值。同樣的研究方向也具有遞推特性,需根據公式(12)確定相似性值。
[P1]為地區屬性大的值,[P2]為地區屬性小的值,默認地區屬性省>市>區>街道,[P1-P2]的值非1即0,當[P2]值在[P1]管轄范圍內,則[P1-P2]=1,反之,即為0。[P1P2]代表地區屬性數量級比值。同樣,[S1]為研究領域(學科屬性)屬性大的值,[S2]為研究領域(學科屬性)屬性小的值。學科屬性關系由中圖分類號得知。
為了驗證本文提出的改進粒子群算法優化BP神經網絡算法(BPSO-BP)性能,將BPSO-BP算法與文獻[1]中基于特征合集的文本聚類算法(F-CLUSTER)、文獻[3]中字符串模糊匹配算法(ES)、文獻[4]中稀疏特征分布算法(SFD)以及文獻[5]中基于均方誤差鄰接矩陣聚類算法(SEAM)進行比較。
抽取論文姓名為李偉的論文329篇,基于表3和公式(11)、公式(12)組成如下輸入矩陣,對BPSO-BP模型識別準確率進行驗證。
幾種模型的最終識別準確率如圖6所示。
圖6中,橫坐標為5種算法,縱坐標為準確率。由圖6可知,本文提出的基于改進PSO算法優化BP神經網絡的論文作者重名消歧方法,相對于以上4種識別算法,在準確率上有所提升,達到89.01%,驗證了本算法的有效性和可靠性。
5 結語
傳統的論文作者重名消歧算法有一定的局限性,因此本文提出了基于改進PSO算法優化BP神經網絡的論文作者重名消歧方法。通過引入Beta分布的動態慣性權重,提高了粒子空間搜索的隨機性,優化了PSO算法的全局搜索和局部搜索能力,在擁有更大搜索空間基礎上,提高了算法的收斂速度與精度。在傳統BP神經網絡訓練模型基礎上結合PSO算法,為BP神經網絡賦予最優的權值和閾值,減少反向傳播的次數,提高訓練模型的精度。利用BP神經網絡強大的復雜非線性映射能力,對論文作者重名情況進行精準識別判定。
通過實驗數據可以看出,本文提出的改進PSO算法優化BP神經網絡的論文作者重名消歧方法,全局搜索能力強,收斂速度快,精度高,能夠很好地對論文重名作者進行消岐,同時具有一定的自學習能力和泛化能力,識別準確率達到89.01%。但本算法仍有一定的優化空間,后續工作會重點關注其它特征的影響與各特征之間的隱性關系。
參考文獻:
[1]郭舒. 文獻數據庫中作者名消岐算法研究[J]. 現代圖書情報技術,2013,29(7):69-74.
[2]劉巍,祝忠明,張旺強,等. 機構知識庫中作者標識與作品認領機制的研究與實現[J]. 現代圖書情報技術,2014,30(3):8-13.
[3]候海東,洪騰龍,徐建良. SCI論文作者自動識別方法研究[J]. 軟件導刊,2018,17(8):57-60.
[4]翟曉瑞,韓紅旗,張運良,等. 基于稀疏分布式特征的英文著者姓名消岐研究[J]. 計算機應用研究,2018,36(12):1-7.
[5]陽怡林,周杰,李弼程. 基于聚類集成的人名消歧算法[J]. 計算機應用研究,2016,33(9):2716-2720.
[6]寧博,張菲菲. 基于異構知識庫的命名實體消歧[J]. 西安郵電大學學報,2014,19(4):70-76.
[7]劉生建,羅林,楊艷. 一種快速自適應粒子群算法[J]. 軟件導刊,2017,16(9):42-45.
[8]劉秀梅. 動態系統中粒子群優化算法綜述[J]. 軟件導刊,2016,15(10):43-46.
[9]陳智軍,李洋瑩. 神經網絡BP算法改進及其性能分析[J]. 軟件導刊,2017,16(10):39-41.
[10]胡伍生,迪達爾,王昭斌. 神經網絡BP改進算法及其性能分析[J]. 現代測繪,2016,39(6):1-4.
[11]AMPARO GIL,JAVIER SEGURA,NICO M. Temme. On the computation and inversion of the cumulative noncentral beta distribution function[J]. Applied Mathematics and Computation,2019(1):361-369.
[12]魯春林,方東輝,陳望學,等. 基于遺傳算法Beta分布參數的極大似然估計[J]. 吉首大學學報(自然科學版),2016,37(5):13-15.
[13]ELMER JONATHAN,JONES BOBBY L,NAGIN DANIEL S. Using the beta distribution in group-based trajectory models[J]. BMC medical research methodology,2018,18(1):952-961.
[14]韓飛,楊春生,劉清. 一種改進的基于梯度搜索的粒子群優化算法[J]. 南京大學學報(自然科學版),2013,49(2):196-201.
[15]劉杰,張娟娟. 基于共軛梯度搜索的病態問題處理方法[J]. 大地測量與地球動力學,2019,39(8):863-868.
[16]曹牧寒,李長紅,曹凱,等. 基于梯度自適應極值搜索算法的趨光控制研究[J]. 計算機測量與控制,2019,27(6):95-99,103.
(責任編輯:杜能鋼)
收稿日期:2019-11-21
基金項目:教育部人文社會科學研究青年基金項目(16YJCZH154)
作者簡介:趙華(1980-),女,山東科技大學計算機科學與技術學院副教授、碩士生導師,研究方向為話題檢測與跟蹤、網絡輿情挖掘科技文獻服務、情感分析;仇國華(1994-),女,山東科技大學計算機科學與工程學院碩士研究生,研究方向為云計算與大數據處理。本文通訊作者:趙華。