吳柯燁,閔 超,孫建軍,權昭瑄
(1.南京大學信息管理學院,南京 210023;2.南京大學人文社會科學大數據研究院,南京 210023)
近年來,科研人員數量不斷增加,論文數量呈現指數級增長,隨之而來的論文著者重名的問題頻頻出現。尤其是某些特定的研究任務,雖然不以著者姓名消歧為主要研究工作,但是著者姓名消歧是其基礎性的重要環節。譬如,科學家流動、技術人才遷移、學術評價等人文社科類研究課題[1-4]。這類研究大多數從論文數據入手,依賴于準確的科學家-出版物對應關系,然而,姓名歧義問題始終在兩個方面掣肘著相關研究的開展:第一,由于特定研究的最終目的不是為了解決姓名歧義問題,因此,在研究數據中,關于人本身的信息可能十分稀疏,甚至在論文數據中存在缺失著者機構等關鍵消歧依據的現象;第二,特定研究中的姓名消歧相較于一般消歧技術難度不高,但效果要求較高。如果歧義問題不能較好地解決,那么對于這些研究任務存在毀滅性地打擊。譬如,姓名歧義可能導致科學家流動識別不準確,學術評價不客觀等問題。因此,本文提出了一個簡單易行且效果良好的面向特定任務、特定數據集的姓名消歧方法,為人才評價、人才流動等研究與實踐任務提供相對可靠的方法支持。
姓名消歧作為實體消歧的子任務之一,其復雜性較為突出。普遍意義上的姓名歧義包含兩方面:一是同名異人,即不同的人擁有相同的姓名;二是同人異名,即同一個人的姓名有不同的書寫形式或是存在別名。然而,同人異名問題往往不需要借助其他信息。消歧直接從姓名本身入手,如尋找別名中的最長公共子序列的方式,來判定不同的姓名是否指代同一個人[5-6]。但是,同名異人問題則涉及相同研究領域、相同姓名,甚至是相同供職機構中不同的人,這就需要根據現有信息深度挖掘出更細粒的、更多源的、更權威的信息作為消歧依據,有時還需要進行語義挖掘才能達到精準消歧[7-8]。因此,如何充分利用有限的本地數據進行關系發現,并結合外源數據進行消歧依據補充就成了姓名消歧的研究重點。
本文充分結合本地關聯數據和外部權威數據,提出二階段著者姓名消歧框架,為學者層面的研究奠定了堅實的數據基礎。其中,一階段:本地關系發現,組織論文間關系網絡;二階段:外部數據爬取,補充權威消歧依據。兩階段相輔相成,互相補充,達到全面客觀消歧。為了體現該框架的實際效用,本文聚焦人工智能領域頂尖學者,抽取微軟學術知識圖譜(Microsoft Academic Graph,MAG)中人工智能領域的論文數據進行驗證。經過抽樣統計證明,一階段解決數據中大部分同名異人問題。二階段在一階段的基礎上,不僅在準確率和F1 score等聚類評價指標上有進一步提升,而且解決了部分同人異名的問題。此外,為了證明該方法的普適性,本文還選取了Aminer姓名消歧數據集進行有效性驗證,同樣在準確率和F1 score上取得了良好的效果。
姓名消歧本質上是關系發現的過程,將關聯性強的文章聚集為一類。由此出發,大多數研究均將姓名消歧具體為出版物聚類問題[9-17]。其中,同名異人的消歧流程大致分為三個步驟:特征抽取、相似度計算和聚類[18];而同人異名消歧則在特征抽取之前,增加了一步模塊映射操作,即將可能是同一個人的別名下的出版物均映射到一個模塊上[12,19-20],再進行消歧。針對每一個步驟,不同的研究有其自己的創新點。從本文的二階段劃分角度出發,本章節分別從本地關系發現和外部數據關聯兩個層面對現有研究進行歸納總結。
從姓名消歧一般流程來看,每個階段都在盡可能揭示出版物之間關系。
在特征抽取方面,大多數研究選取了關聯性較強的特征。譬如,尚玉玲等[21]選取了合作者和隸屬機構信息進行同名排歧;Saha等[13]和Zhang等[22]為保護作者隱私,選取了論文題目和合作者等特征進行消歧任務。有些研究則加入對消歧有顯著效果的其他特征作為消歧項。例如,Louppe等[19]利用種族特征作為消歧依據;周杰等[23]通過一些關鍵的關聯證據為增量數據生成消歧候選集。此外,有些研究為更好地體現出版物之間的語義關聯,采用諸如摘要等能體現文章語義的特征作為消歧項。譬如,翟曉瑞等[24]用稀疏矩陣組織摘要文本特征;Han等[7]和Jia等[8]根據上下文的語義信息來對命名實體進行消歧。因此,在進行消歧任務時,能夠揭示出版物之間關聯性的消歧特征受大多數研究的青睞。
在相似度計算方面,最直接的是將特征映射到向量空間上,進行向量間距離計算。但是僅依據文章本身的特征可能無法做到精準的關系發現。因此,圖模型和網絡表示[25]等框架常常被應用于組織關聯出版物特征上。被稱為“GHOST(GrapHical framewOrk for name diSambiguaTion)”的方 法[26],利用合作者信息構建無向圖,并利用關聯傳播算法進行聚類。此外,圖模型還可以靈活地加入概率,Tang等[27]提出將隱馬爾可夫模型應用在組織各個出版物的特征上。也有學者利用多圖嵌入的方式學習出版物的嵌入向量。譬如,Zhang等[22]基于表征構建paper-paper、author-paper、author-author三個子圖,再用網絡嵌入的方式學習,得到每個出版物包含這三層關聯信息的語義向量。
最后的聚類效果是建立在前兩個階段基礎之上。由傳統的特征向量出發,大多數學者采用無監督學習中的聚類算法進行聚類操作[9-11,16,28]。譬如,鄧可君等[28]發現,相較于其他機器學習算法,K近鄰和Softmax分類器更適應于其數據集。又如,為解決無法確定聚類數目這一問題,章順瑞等[9]和陽怡林等[10]基于自適應閾值的凝聚層次聚類算法進行消歧。另外,為進一步揭示關聯信息,有些學者在圖模型的基礎上進行了聚類操作。譬如,On等[16]在聚類階段提出多級圖劃分和合并算法,通過不斷合并和拆分子圖的方式,得到給定聚類數目k下的最優解;Shin等[5]利用合著者和標題信息,提出GFAD(Graph Framework for Author Disambiguation)圖模型框架,對已知圖進行結點拆分和循環探測,將每個非重疊子環對應到每一個人。
總而言之,消歧研究的每個階段都在盡可能地挖掘出版物之間的關系,具體體現為利用圖模型和網絡表示組織出版物特征,使出自同一位學者的不同論文具有較高的相似性。雖然這種方式能夠有效直觀地體現了出版物之間的關聯信息,但是復雜的圖模型對于自然語言處理技術以及計算機算力提出較高的要求。如果數據量大,那么對應的出版物關聯圖也會隨之增大,圖模型推理計算的復雜度同樣會呈現指數級的增長。然而,綜合過往研究發現,姓名消歧中圖模型和網絡構建也都依賴以下假設:①每個學者都擁有較為穩定的合作學術圈;②每個學者的研究領域相對穩定。本文基于這兩條原則,簡化了圖模型復雜的計算過程,做到高效率的組織文獻關系。
由于現有的姓名消歧研究大多都面向機構知識庫,為學術資源庫提供更高質量的數據[10,29-31]。這就帶來本地數據覆蓋面有限的問題,因此,需要加入外部來源的數據進行補充。譬如,Han等[7]為解決數據缺失的問題,利用多源網絡知識信息來挖掘出版物之間的語義層面的關聯信息。Zhu等[32]提出基于的姓名消歧框架,不僅包含了本地數據中的隱含信息,也包含了網頁類型信息。另外,有學者采取其他方式補充元數據缺失,譬如,孫笑明等[33]搜集專家意見為消歧提供依據;柯昊等[34]利用BP(Back Propagation)神經網絡為元數據中的字段進行貢獻度打分,從而選取最有價值的字段進行消歧。
但是,外部數據源對于姓名消歧任務在帶來更多依據的同時也帶來一些問題:一是外部數據源,大多是網頁數據或是非結構化數據,處理起來很難做到精準;二是網絡信息的可利用率較低,與需要消歧的姓名相關的信息可能很少,即使有,可能也是不完整的或是無法考證真實性的。
為了解決圖模型計算復雜和外部數據利用率不高的問題,本文將面向人文社科領域的特定研究任務,提出一個簡便易行的學術論文作者姓名消歧方法。第一階段,本文將結合圖模型背后的原則,對于本地論文數據的表征關聯特征項選擇抽取,并進行預處理,為姓名實體所對應的論文集建立同作者合并機制;第二階段,為解決本地數據覆蓋率有限,且外部數據利用率不高的問題,本文將利用專注于區分不同學者的平臺——ORCID(Open Re‐searcher and Contributor Identifier),更權威、更客觀地進行逐個姓名的消歧。
3.1.1 消歧特征項選擇
與過往研究一樣,在面向科研任務的姓名消歧任務中,需要篩選合適的消歧依據。這些依據應該盡可能凸顯學術論文的本質屬性,又能與相關論文產生較強的聯系。
根據過往研究中對于消歧特征項的選擇[21-22,31],本文將所有與論文相關的字段分為兩類。第一類是有助于直接揭示出版物之間關系的強關聯特征項,如合著者、隸屬機構、發表年份等信息[21]。這些信息不需要深入挖掘其內涵,只需要通過表征就可以組織關系。例如,同名的兩位學者如果合作圈有較多重合,那么這兩位學者大概率是同一個人,無需深究其每個合作者更細粒度的信息。因此,這些字段在本地數據中就可以加以利用,達到消歧的效果,適用于本研究的一階段關系發現。
第二類則是間接揭示出版物之間關系的弱關聯特征項。例如,關鍵詞、題目、摘要等。這些特征項往往隱藏著論文所屬的研究領域,而每位科研工作者一般又會專注于固定的研究領域。因此,如果能夠充分挖掘弱關聯特征項的內涵,揭示論文所屬的研究領域,那么將會給消歧任務帶來巨大的便利。在本文提出的消歧框架第二階段中,在原本的消歧依據上,增加弱關聯特征項,通過與外源數據關聯的方式進行深入挖掘。
3.1.2 二階段消歧框架
根據上述兩類消歧特征項,本文提出了二階段消歧框架①代碼網址:https://github.com/wukeye/Two-stage-author-name-disambiguation,分別對應本地關系發現與外源權威數據關聯,操作簡便,且提高了姓名消歧的準確率。二階段消歧的整體思路和框架如圖1所示。

圖1 二階段姓名消歧框架
第一階段首先為所有消歧特征項做數據清洗工作,其次基于高質量的強關聯特征項組織論文間的關系網絡。在此過程中,為彌補原數據中某些強關聯項的缺失,通過原始數據中的其他信息進行深入挖掘補充。例如,本文通過經緯度信息定位著者所在地,彌補著者所屬機構的缺失。
接下來,利用第一階段的消歧結果以及經過處理的消歧特征項,進行第二階段消歧,將無法在本地發現的相關文檔,通過與外部數據連接的方式聚為一類。首先制定ORCID半模糊檢索策略,對消歧特征項進行優先級抽取,最大限度保證檢索精度。其次,利用半模糊檢索式在ORCID官網提供的API(Application Programming Interface)接口實施數據爬取。最后,將外源數據與本地數據關聯,把具有相同ORCID號的作者合并為同一個人。至此,得到了同姓名下屬于不同學者的論文集。接下來的第3.2節和第3.3節將分別介紹兩個階段的詳細步驟與算法。
3.2.1 消歧特征項預處理
在大多數學術領域的姓名消歧任務中[14,19,22-23,25,28,30],原始數據都以論文為單位,然而,對姓名歧義的研究,則需要將數據重組成以姓名為單位的形式,便于發現同一姓名下所著的兩篇文章是否屬于同一個人。在某些原始數據中難免存在一些錯誤,為保證數據一致性,對消歧所需的特征項進行數據清洗和正則化工作。本文就以姓名A.Ad‐am為例,展示部分包含這一著者姓名的論文數據重組與特征項預處理過程,如圖2所示。
如圖2所示,原始數據中的一條論文數據被分解為多條數據②這里每一篇論文應該分為多條數據,每條數據表示一位作者的有關信息,為方便敘述,這里只展示了拆分后關于A.Adam的部分數據。,這里展示了論文著者姓名包含A.Adam的三篇論文拆分情況。其中,Aff Nor是對于原數據中Aff的正則化結果,Key_in_title則是抽取論文題目中關鍵詞組織而成,其中可能包含名詞和形容詞,在第二階段還將進一步處理利用。最終,得到關于A.Adam所有的論文集publication_set,下一步需要將這些論文聚為幾類,分別對應幾位同名的不同學者。

圖2 某篇論文的數據重組與特征項預處理
3.2.2 構建關系網絡
經過初步的數據重組與預處理之后,將過往研究中圖模型的假設經過改編應用到本研究場景中,將同名作者的論文關系組織起來,總結為以下兩個規則。
(1)由于學術圈每個人有自己的合作網絡或是學術圈子,合作者信息可以用來協助判斷同名的兩個人是否是同一個學者。
(2)從論文數據來看,同一位作者幾乎不可能短時間內在不同的機構下以第一作者發表文章。作者論文的所屬機構信息和發表年份信息,也可以協助判斷兩個同名的人是否為同一作者。
由于學者在職業生涯中可能會輾轉多個工作單位,在第二條規則中,本文特意添加了年份信息進行聯合篩選。也正是充分考慮到學者流動的情況,本文認為第一條規則較第二條而言更加客觀。因此,在算法實現時優先考慮第一條原則,當第一條原則無法判斷時,再采取第二條原則。算法偽代碼如下。
算法1Constrcut Relationship Network
輸入:數據重組與特征項預處理后的結果。其中每一行代表當前需要消歧姓名下的每一篇論文信息。
輸出:出自同一位學者的論文索引號集合。
Step1.對每個姓名下的publication_set中每一篇論文進行遍歷for p in publication_set:尋找可能與當前論文p_index為同一人所著的論文行號集合p_set。Step1.1.遍歷除p以外的所有論文,逐一對照合著者Coauthor字段,如果有重復就將其行號加入集合p_set中。如果沒有重復就跳入Step1.2,否則進入下一跳。Step1.2.比較當前論文與沒有合著者重復論文的年份Year字段和正則化機構AffNor字段,若正則化機構信息相同且年份在前后兩年內,則加入集合p_set。
Step2.對publication_set中每一篇論文的相關論文集p_set進行重復元素探尋,最終由局部關系網絡組織成全局關系網絡。
算法中,Step1實現了根據強關聯特征項構建出需要消歧姓名下所有論文的關系網絡,具體操作是為每一篇論文找到一個相關論文集合p_set。以A.Adam的論文集為例,由于p_index為9766與32931兩篇論文中合著者有重復,因此,p_index為9766的相關文檔集就包含索引號32931以及其自身索引號9766。Step2則是將論文級別上的相關文檔集組織成姓名級別上的關系網絡,最終9766與32931兩篇論文被認為是出自同一個人,而p_index為56272的作者暫時被認為是另一位學者,需要外部數據進行第二階段的消歧。整體來看,一階段消歧在原數據上進行了預處理、構建關系網絡等操作,實現了將有相同學術合作圈的學者或是隸屬于同一機構較長時間的學者合并為同一作者。
一階段消歧在本地數據的基礎上充分挖掘了關聯信息,但是只依賴本地數據存在一些弊端,具體體現為以下三點:①本地數據來源學術資源數據庫,其中難免存在數據缺失問題。如果缺失情況嚴重,那么就無法利用本地數據進行關系發現。②同人異名問題沒有得到解決。同一學者在發表不同論文時的署名會有不同程度的縮寫,僅僅依靠本地數據無法準確合并同人異名的學者。③除本地數據中合著者、機構、年份等強關聯字段,本地數據中還有許多揭示學者研究方向的弱關聯項沒有得到充分利用,如摘要和關鍵詞信息。需要進一步加工和處理才能挖掘出不同論文之間的關系。
針對上述問題,第二階段的消歧任務主要圍繞外源數據展開。在補充本地缺失數據的同時,利用關鍵詞等弱關聯項揭示學者的研究領域,將同一研究領域的學者指向同一個外源標識符——ORCID。因此,為了更好地利用外援權威數據為本論文中的姓名消歧服務,本文制定了ORCID數據的檢索策略。根據爬取到的ORCID數據,將具有相同OR‐CID號的作者合并為同一個作者。
3.3.1 ORCID半模糊檢索
ORCID是國際上公認的研究人員唯一數字標識符,并建立了學者及其研究貢獻之間的直接聯系,解決了部分學者的姓名歧義問題。許多學者在OR‐CID網站上公開其個人信息,對于姓名消歧來說,這些是非常寶貴的消歧依據。因此,本文利用開放研究者與貢獻者身份官網提供的API,根據已知有關作者的信息,爬取相應作者的ORCID號。
為解決數據缺失以及利用率不高等問題,本文通過半模糊檢索的方式得到作者的ORCID號。之所以稱之為“半模糊檢索”,是因為在檢索時加入了Keywords字段進行模糊檢索。但是與模糊檢索不同的是,半模糊檢索首先在原始數據上抽取強關聯特征項,做到精確字段限定,如明確作者的Familyname、Given-names以及Affiliations等。如果精確字段有缺省的話,再抽取其他字段信息作為Keywords進行限定條件下的全局檢索,保證半模糊檢索的精度。圖3為構建半模糊檢索式的流程。

圖3 半模糊檢索式構建
在爬取過程中,明確了不可空缺的為姓名字段。除此之外,利用位置信息進行了原數據的擴充,并且依據豐富后的原數據和一次消歧結果充分挖掘論文作者的所在地和揭示論文研究領域的關鍵詞。依舊以A.Adam為例,在該階段,A.Adam會與ORCID進行兩次關聯,一是檢索在第一階段已經聚為一類的學者的相關信息,該學者著有p_in‐dex為9766與32931兩篇論文,并且隸屬于Israel In‐stitute of Technology,因此Affiliates字段限定為Isra‐el Institute of Technology。第二次檢索則是尋找有關p_index為56272的著者的相關信息,通過地理位置信息找到其所在地也為Israel,因此,限定Key‐words為Israel,而機構信息為空值。最終,比較兩次檢索所獲得的ORCID號。
3.3.2 二次消歧
由于在論文數據中,同一姓名下論文的所屬機構信息或者關鍵詞信息有所不同,但可能均是出自同一作者在不同時期的工作、學習場所,或是由于每篇發表論文中所填寫信息并不完全一致。因此,本文發現在同一姓名下,原本被認為是不同學者的數據被賦予了相同的ORCID號。
二次消歧的主要工作就是將具有相同ORCID號的作者信息做合并處理,將同一作者的機構信息和發表論文信息做時間線的梳理工作,更有利于后續分析該作者與其他同名作者的關系,評估消歧質量真實性。
著者姓名消歧是許多科學研究的基礎性任務,不同的科學研究對于姓名消歧的要求不相同,因此,結合具體的研究任務才能體現姓名消歧的價值。假定有一個研究任務,主要研究某領域高端科學家的流動模式與影響因素,如劉瑋辰等[4]的研究。為了完成該研究任務,需要從學術出版物中采集該領域論文,從中析出科學家的任職與流動信息。其中,一個關鍵的前提工作就是對論文中的作者進行姓名消歧。對于這個任務,可以采用本文提出的二階段姓名消歧方法。為驗證該方法的實際效用,本文以人工智能領域高端人才流動為研究任務,采集微軟學術知識圖譜中的頂級會議與期刊論文數據集,對數據集中的所有著者進行姓名消歧,為后續流動研究提供高質量數據支持。
4.1.1 數據范圍限定
由于研究任務中限定了人工智能領域“高端人才”,因此,限定數據范圍在頂級期刊與頂級會議內的論文數據,為人工智能領域學者進行姓名消歧工作。根據2019年中國計算機學會推薦國際學術會議和期刊目錄,具體落實到人工智能(Artificial In‐telligence,AI)領域的4本A類期刊和7個A類會議。詳細信息如表1與表2所示。

表1 中國計算機學會推薦國際學術期刊(人工智能A類)

表2 中國計算機學會推薦國際學術會議(人工智能A類)
4.1.2 微軟數據介紹
在數據源方面,本文選擇了微軟學術圖譜數據。目前,微軟學術知識圖譜是全球最大的學術論文公開數據集,經過長期發展,數據質量,尤其是作者字段數據,得到了較大的提高。其對此類研究任務有十分明顯的優勢:①數據完全公開,可以免費獲取;②提供API接口,方便采集;③微軟公司利用先進的AI技術,如自然語言理解(Natural Language Understanding,NLU)、知識推理、強化學習等方法,進行一定程度的數據清洗工作,數據質量較高;④數據字段豐富,如包含作者機構經緯度信息。
根據上述限定的范圍,本文在微軟學術知識圖譜中檢索到了91557條論文數據,其中每條數據包含作者ID、作者姓名、作者隸屬機構等20個的字段。在所有字段中,與姓名消歧任務直接相關的是AuthorId字段。首先,將所有論文中出現的作者都分配一個AuthorId,再根據其他信息對同名作者進行一定程度的合并,最終被分配相同ID號的同名作者大概率是同一個人。這一過程類似于層次凝聚算法[9]的自下而上的聚類過程。然而,由于該數據普遍存在過擬合現象,因此,姓名消歧框架是在該數據基礎上進行二階段消歧,提高了姓名消歧的準確率。
根據微軟知識圖譜數據,對學術論文的著者進行初步的ID分配工作,總體來看,作者姓名有91683個,分配了103022個AuthorId,即有11339個學者被初步認為是同名異人的情況。為探究原數據的ID分配情況和二階段消歧框架的效果,針對部分有歧義的姓名數據進行人工標注。本文的標注策略是根據上述第4.1節所介紹的MAG數據中可利用的字段信息,進行開放網絡信息資源的考證,主要在IEEE、Web of Science和Springer等數字學術資源平臺上對論文著者進行深度挖掘。
經過評估發現,初步被認為是同名異人的11339個學者中,少部分存在同名異人的情況,大部分是同名同人被誤分配不同ID的情況。這表明該分配工作沒有經過太多的消歧工作,存在過擬合的情況,即實際上為同一人所著的兩篇文章,卻被認為是不同的兩個人。因此,本文的消歧主要針對這11339個著者所對應的7254個姓名中誤分配ID情況,進行同名同人著者的ID“聚類”操作。
由于第二階段消歧是建立在ORCID數據的基礎上,因此,在對消歧框架效果評估之前,對ORCID數據進行了簡單評估。在91683個姓名中,從OR‐CID官網抽取到了9821條數據。在數據的召回率上只有12%,這是因為并非所有學者都注冊了ORCID號,導致檢索不到關于作者的相關信息。另外,有些作者的ORCID只展示了該作者所發表過的論文,并沒有添加相關的機構等背景信息。同時,也驗證了檢索結果的準確性,通過抽樣比較爬取到的OR‐CID數據與原始數據,發現爬取到的著者與原數據中的著者確為同一個人。這證明了本文的檢索策略是精準的。
在準確的外部數據的支持下,對經過消歧后的ID抽樣評估發現,本文所提出的框架在三個方面對姓名歧義問題起到積極的作用,分別是聚類數目、聚類準確率以及同人異名問題解決。
4.2.1 聚類數目效果評估
在所有數據中,本文抽取了30個發文量較多的姓名評估。在表3中,列舉了10個姓名下現實社會中對應的人數,以及原始數據、一階段、二階段分別對應的類別數,可發現每個姓名對應的真實人數都比原始數據中分配的ID個數(聚類的類別數目)少,這種過擬合現象可能是由于限定了數據集的范圍,在小范圍下的姓名歧義并不普遍。經過一二階段消歧之后,聚類數目減少,并且與真實人數更加接近。

表3 聚類數目分析
4.2.2 聚類準確率分析
經過一階段消歧之后,本文對7254個姓名改動了6779條數據的AuthorId。二階段在ORCID數據的支持下,消除了203個AuthorId,并將其合并到已知的作者類別中。同樣地,在所有姓名中隨機抽取15個姓名進行準確率(precision,P)、召回率(re‐call,R)、F1 score計算。這一過程借鑒了Zhang等[22]的驗證方法。效果如表4所示。
由表4可知,消歧框架在原始數據的基礎上,在經歷了第一、二階段消歧后,各項聚類指標大致呈現遞增的趨勢。尤其是第二階段,在經過字段補充,并與外部數據進行關聯后,消歧結果的F1 score達到最高點。這表明了本文的消歧框架在MAG數據集上取得了顯著的效果。

表4 聚類準確率分析
4.2.3 同人異名問題解決
在評估過程中,本文發現同名異人問題也在一定程度上被解決了。在不同論文中,同一位學者的姓名寫法可能不盡相同,會出現諸如簡寫Middle name甚至省略的情況,故在MAG數據中存在同一人姓名的不同寫法被賦予不同AuthorId的現象。然而,恰好ORCID檢索策略是根據著者的Familyname和Given-names,再結合關聯特征項進行爬取,可發現不同寫法的姓名其實指代的是同一名作者。譬如,在MAG數據中,署名為Jin H.Kim和Jin Hyung Kim分別發表了一些論文,且兩者在中某些論文中標注的隸屬機構都為KAIST(Korea Ad‐vanced Institute of Science and Technology,韓國科學技術院)。經過ORCID的檢索發現,兩者的ORCID相同,經過驗證發現兩篇論文也的確為同一人所著。表5列舉了同一作者、不同姓名寫法經過本文的消歧方法處理之后合并的幾個案例。

表5 同人異名合并
4.2.4 Aminer數據驗證
除了在固定的研究任務中,本文還驗證了該消歧框架在Aminer數據集上的效果,以驗證該框架的普適性。Aminer是科技情報分析與挖掘平臺,其姓名消歧數據集①Aminer姓名消歧數據集:https://www.aminer.cn/disambiguation提供了110個經過實際標注的學者姓名以及其出版物集合。這些出版物可能來自不同學科的同名學者,根據本文的消歧原則,利用強弱關聯項為每篇論文找到相應的著者,最終取得了良好的結果,部分結果如表6所示。

表6 Aminer消歧結果
由表6可知,一階段利用強關聯項取得了較高的準確率,但是召回率普遍較低,拉低了F1的表現。其可能的原因是學術圈的同名著者發文量存在分布極其不均勻的情況,譬如,幾位同名的作者只有一篇發表的論文,而有個別學者擁有上百篇論文。因此,在第二階段,本文通過強弱關聯項互相補充的方式與ORCID數據進行關聯,最終在犧牲一些準確率的情況下,提高了召回率,在整體F1 score的表現上也有所提升。
經過多輪的相互補充,二階段姓名消歧策略采取內外部數據相結合的方式,進行了本地關系發現、外部數據關聯等任務,為學者層面的研究任務提供姓名消歧的簡易方法。該消歧框架具有以下優勢:首先,本文的消歧算法不需要深入挖掘過多的作者信息,在簡化了復雜的圖模型基礎上,只需要利用公開的作者信息和論文間的關聯信息就可以做到相對準確消歧;其次,本文在挖掘消歧特征項方面,將外部作者信息源鏈接到本地數據中,充分補充本地數據缺失值,擴展消歧依據;最后,本文為相關科研人員集成了簡便易行的二階段消歧框架和代碼,為人才流動、人才評價等研究提供高質量的方法支持。
未來,該框架對于科研圈的其他研究任務同樣可以發揮實際效用。譬如,學術推薦、科研能力評估和學者社會網絡構建等研究對于科學家姓名的準確性要求較高。本文提出的一階段消歧可以適應于任何形式數據做到關系發現,二階段則提供了借助異源數據豐富消歧依據的思路。
由于采用了簡易化的原則,本方法在特征抽取以及數據的語義信息抽取方面還有提升空間。在未來研究中,對于更頑固的姓名歧義問題,可以嘗試使用語義信息與關聯語義信息相結合的方式,更準確地表達數據特征。