劉翔 黃晨
(1.浙江理工大學(xué)信息化辦公室,杭州 310018;2.浙江大學(xué)圖書館,杭州 310027)
學(xué)術(shù)研究的主體是科研機構(gòu)與科研專家,對科研機構(gòu)和科研專家的信息進(jìn)行全面、準(zhǔn)確地收集、描述和關(guān)聯(lián),進(jìn)而形成豐富、鮮活的機構(gòu)專家知識庫,是知識時代重要的信息基礎(chǔ)設(shè)施,也是一項煩雜而艱巨的工作。國內(nèi)外各類機構(gòu)對機構(gòu)專家?guī)鞆睦碚摵蛯嵺`方面開展了諸多研究,成績斐然。谷歌學(xué)術(shù)、微軟學(xué)術(shù)以及百度學(xué)術(shù)等互聯(lián)網(wǎng)公司憑借其強大的信息收集和處理能力,建設(shè)了一批大而全的機構(gòu)、學(xué)者數(shù)據(jù)庫[1-2],而由康奈爾大學(xué)啟動的VIVO項目,是一個包含人員、機構(gòu)信息的本體庫,能夠?qū)崿F(xiàn)機構(gòu)、人員、學(xué)術(shù)成果的互聯(lián)[3]。這些知識庫的構(gòu)建過程中,名稱消歧是最基礎(chǔ)和核心的工作,為此以美國國會圖書館等機構(gòu)建設(shè)的虛擬國際規(guī)范文檔(VIAF)項目[4]為代表,基于知識積累的名稱規(guī)范工具受到業(yè)界關(guān)注,并廣泛應(yīng)用。各種基于規(guī)則、機器學(xué)習(xí)等算法的消歧、名稱歸一化研究也廣泛開展,這些都可以歸結(jié)為名稱唯一性問題。盡管有了以上研究和成果,但僅通過名稱字符串規(guī)范和字符串糾偏等方式的解決途徑,要實現(xiàn)對名稱唯一性問題的較好解決,仍然任重道遠(yuǎn)。為此,相關(guān)機構(gòu)從源頭著手,采取對命名實體(人、機構(gòu)、成果等)賦予唯一值的方式(ID模式),以期從根本上解決問題。出版社和數(shù)據(jù)庫商發(fā)起的Orcid[5]、Clarivate Analytics的ResearcherID[6]、國際數(shù)字對象識別號基金會的DOI[7]就是這種解決方案的實踐代表,并已經(jīng)取得成功?!?br>