[摘要] 科學論文作者姓名存在同名同姓、姓名書寫方式缺乏統一、姓名隨時間及環境發生改變等情況,從而對信息檢索、引文分析、學術評價等工作造成影響。本文認為應為科學論文作者編制永久性的身份唯一標識符,作為在各種不同環境下判定作者身份的依據和解決以上問題的方法,并提出一種編制規則以供參考。
[關鍵詞] 作者;姓名;唯一標識符
[中圖分類號]G25[文獻標志碼]A[文章編號]1005-6041(2014)04-0001-01
1引言
科學論文作者是科學研究活動中最活躍的因素,無論是文獻檢索或是使用發文量、被引量、H指數等方法在微觀層面上對作者進行測評,還是利用各種方法在宏觀層面上進行大范圍學術評價、探討學科結構和科學發展趨勢等研究,都離不開使用作者姓名為檢索點獲得相關數據以及對這些數據加以深度分析。早在1998年,Cleveland就曾指出,在數字圖書館環境中,姓名是能夠唯一標識數字對象的字符串,是文件元數據的組成部分,姓名對于數字圖書館的重要程度相當于ISBN號對于傳統圖書館的重要程度。[1]理想狀態下,作者姓名既能識別其具體身份,又能唯一標識其所發表的所有成果,但事實上,由于人名的一些客觀特點,使得不能僅利用姓名作為檢索點而得到精確結果,從而使得它的這種作用被極大削弱,影響到各種相關工作的順利進行。
本文重點探討由于作者姓名因素影響檢全率與檢準率,從而導致統計數據不精確,影響統計分析結果的形成,最終使得研究結論對現實工作的指導效果大打折扣這一現實。特別是例如使用文獻計量學方法在宏觀層面上對大范圍內的作者進行橫向比較分析時,這一問題的嚴重性更為可觀,所以對文獻資料從不同角度進行全方位標識就顯得尤為重要,有效的標識能增加用戶檢索入口,提高檢全率和檢準率以及檢索速度,同時對于數據分析人員來說,能幫助他們獲得優質來源數據,從而為管理決策提供堅實的數據基礎。
]2 需要使用作者姓名的科學研究活動
]2.1 信息檢索
當需要閱讀某位作者的文獻時,使用其姓名為檢索點,便可在選定數據庫或搜索引擎中獲得該作者的全部作品。例如,一位新入學的研究生可以通過在數據庫中輸入備選導師的姓名,對檢出的各導師論文主題、研究方向進行研究,從而選擇適合的導師。同樣,導師在招收研究生時,也可通過報考學生的姓名為檢索點獲得的文獻資料,對該生情況進行了解,作為是否接收的參考。
]2.2 引文分析
引文分析法是文獻計量學領域一種重要研究方法,在引文數據庫中輸入作者姓名,便可查得其引文數據,作為進一步分析的數據基礎。作者論文被引頻次在一定程度上能夠反映論文質量高低和作者科學影響力大小;作者論文平均引文篇數的分布,能夠反映該作者引用文獻的廣度和深度,還能說明引文與被引文學科內容之間的聯系強度;通過對作者引文與被引情況的長期跟蹤觀察,能夠進行科學創造最佳年齡結構的研究、科學家出重大科技成果時的年齡頻度分布規律的歸納;通過對引文語種分布的考察和分析,發現某些語種的文獻被引用量較大,則說明該語種比較常用和重要,對于人們有計劃地引進外文文獻、譯文選題、外語教育等,頗有參考價值;研究作者群在年齡、地域、學科領域等方面的分布情況、從而能夠發現和追蹤不同學科的科學前沿、辯明和研究不同領域的熱點課題、分析和模仿不同的資金模型。
]2.3 學術評價
由于資源的稀缺性,當需要進行資源分配時,通常借助一些評價指標來輔助決策,評價指標由一系列待評個人或團體的文獻數據計算。以作者姓名為檢索點,查得某一作者的發文量、被引量等客觀指標,或者以這些數據為基礎,進一步計算出該作者H指數、G指數等分值,從而對該作者科研能力和科學影響力做一量化測評;使用某一機構科研人員姓名為檢索點,查得該機構科研人員相關數據,能夠對一定范圍內各科研機構的科研水平做成客觀公正的評價,從而促進良性競爭,推動科學發展;通過文獻計量學方法遴選各學科專業的核心期刊,有助于科學工作者更高效地找到研究工作中所需要的相關參考資料,并為他們的研究成果更廣泛地傳播提供平臺;通過某科技期刊作者姓名的檢索獲得相關數據,能夠遴選該刊核心作者群,從而有助于提高辦刊質量;根據使用不同機構、不同地區、不同學科領域、不同專業內作者姓名檢索獲得的統計結果,能夠幫助考察不同主體群之間科學研究生產率差異、從而幫助科研管理機構確定資助重點,使科研資金投入實現最優化,還能夠綜合評價個人、機構、地區、國家的情報能力,分辨學科特征和背景,估計科學勞動規模,調查科學勞動形態,作為科學管理的工具。
3來自于科學論文作者姓名方面的問題
3.1 著者姓名方面存在的客觀問題主要有:
(1) 不同作者姓名相同或相似 當兩名或更多名作者同名同姓,或是在以西文發表的論文中,采用較通行的“姓+名的首字母”的署名方式,使得“Jaymie Meliker”與“Jakie Meliker”看似是同一位作者,這時以姓名為檢索途徑的檢索結果便會將實際不同作者的發文量、被引量等數據集中在一起,從而提高該作者分值,并進一步增加其H指數、G指數等數值,使檢索結果與實際出現嚴重偏差。這一現象已經在諸如arXiv (高能物理、大氣海洋物理、數學及計算科學領域的開放獲取數據庫)這類大型數據庫測試中得到驗證。當倉儲容量達到一定級別后,其返回大量相同或相似作者的檢索結果將使無耐心的用戶望而卻步。[2]即便用戶能耐心地通過文章的標題或寫作風格,甚至是手工打開文章鏈接來辨別出不同作者,當記錄過于龐大時,限于時間、精力、人力等方面的成本也會使工作無法順利進行。
(2) 同一作者不同拼寫方式 這種情況主要出現在以西文書寫的論文中,一些作者在不同作品中署名缺乏一致性,最常見的是有全稱與縮寫的不同書寫方式,如某作者在發表論文時可能會采用“Jaymie R. Meliker”,“Jaymie Meliker”或“J. R. Meliker”等各種形式。盡管許多出版機構要求作者采用“姓+名的首字母”作為發表論文時的姓名書寫方式,但仍不能完全解決這一問題,而且有時還會加強上述第一種問題的嚴重性。此外,外國作者姓名翻譯成另一國語言時,姓與名的前后順序、翻譯的方式不同都可能造成同一位作者具有不同拼寫方式的姓名,從而使相關數據被分散在多個不同位置,結果是檢索出來的數值比實際偏小甚至嚴重降低。
(3)同一作者具有多個不同工作單位或研究領域 對以上兩種情況造成的誤差,有時可以通過用作者所在工作單位進行組配檢索來降低,但現實情況是一位作者很可能由于調動等原因在不同時間屬于不同工作單位;或是由于項目合作等原因以不同單位名稱來發表論文;即使是僅有一個單位,作者發表論文時有時使用單位全稱,有時會加上下一級單位名稱(如“清華大學”,“清華大學信息學院”等等);還有一些單位隨著時間的發展,在名稱上有所變動,這些情況都使得在使用工作單位作為二次檢索入口時,不能精確判斷作者身份,從而導致記錄分散,所以仍不能完全消除錯誤數據。
(4)同一作者具有不同姓名 在一些國家和地區,婚姻狀況或其它狀況的變化會導致姓氏的改變,當使用姓名檢索其發文量和被引量時,同樣會引起數據分散,減小真實分值。只有當一位作者非常著名,檢索者了解其姓名變化過程,才可能得到全面數據,但也需要經過逐一查證,而對于大多數普通作者,便幾乎無法檢索到其實際數據。
上述各種情況的客觀存在,不但影響數據庫用戶信息檢索的查全率和查準率,從而影響相關工作的開展,甚至對于數據庫公司的工作人員來說,也會造成他們錄入數據過程中出現錯誤,使得數據庫本身的數據就不精確。
3.2 對作者姓名問題影響檢索結果的隨機性檢驗
當對某一名作者、某一單位或少數科學家進行定量分析時,可以對檢索出來的數據進行逐條檢查,根據工作單位、年齡、性別、研究領域等特征對錯誤數據予以刪除。但當進行的是宏觀層面上的分析時,面對海量數據,如何確保來源數據的正確性?為了驗證這一情況,我們在SCI數據庫中選擇檢索詞字段為作者,在其它條件不做限定的情況下,輸入50位認識或是由于關注而熟悉的科學家姓名,通過對檢索結果逐一辨認,發現錯誤率竟然達到81.46[WTB2]%[WTBZ],盡管這種小范圍的試驗不足以作為統計學意義上的證據,但這種結果仍令我們不由要問:檢索條件涉及到作者的大樣本定量分析的工作中,數據的正確率有多少?由此得出的分析結果,對實際工作的指導意義又有多大?
為解決這一問題,目前使用的方法主要包括:
(1)多加限定條件 如將作者姓名與學科領域、工作單位等檢索詞進行組配檢索。有些數據庫允許同時輸入某位作者曾經工作過的多個單位名稱,如CNKI中國引文數據庫的“作者統計”功能最多允許同時輸入作者的三個工作單位進行組配,但由于其檢索方式為精確匹配,即使是多一個字或少一個字也無法檢索出結果,例如:以“清華大學”為檢索詞進行檢索時,便無法查出單位為“清華大學圖書館”所發的論文。
(2)建立模型 如使用模塊化方法和聚類方法建立一種一體化框架來解決姓名不統一和同名同姓作者問題[3],利用概率知識計算出兩種出版物之間距離從而區分同名同姓作者的方法[4],針對引文匹配的K階頻譜聚類方法[5],單一貝葉斯與向量支持混合機器方法[6]等等,這些方法在一定程度上都能緩解這一問題對工作所造成的嚴重影響,然而每種方法都有其局限性,不能從根本上完全消除錯誤信息。
4編制科學作者的永久性唯一標識符
面對這些問題,我們自然而然地想到:對于書籍,人們為其編制了ISBN號; 對于期刊,人們為其編制了ISSN號;對于數字資源,為其編制數字對象標識符(DOI),作為數字資源的唯一永久性標識,可以幫助讀者容易的獲取。借鑒這種思想,我們認為有必要對科學論文作者也分配一個代表其身份的唯一編號,作為其在科學世界中唯一的、永久性的身份識別符。
4.1 作者身份唯一標識符的編制過程
(1)要確定一個國際化的專門機構來負責這種標識符的編制、分配以及管理。由于一部分作者會在國外發表論文,所以這種標識符必須在國際范圍內統一使用。
(2)要開發一個用于作者標識符申請和個人信息修改的平臺。對于已經發表過論文且身份能被清晰辨認的作者,由相關機構按一定標準為其分配一個身份標識代碼;對身份模糊的作者,和其取得聯系辯明身份后,分配代碼;暫時無法聯系的可通過網站通知的方式在將來適當的時機分配代碼。對于從未發表過論文的新作者,在首次發表論文之前,應通過該平臺為自己申請一個永久性的唯一身份標識符。所有作者需要將相關個人信息提供給專門機構,包括身份證號、出生年月、研究領域、發表過的論文、工作過的單位等等,供機構管理標識符時作為辨別不同作者的基礎,當然一些涉及隱私的信息要為作者予以保密。今后任何作者投稿時,都需要向所投刊物提供自己的身份標識符代碼。
(3)元數據框架中增加作者唯一身份標識符 所有正式出版的科學期刊、專著、以及各種全文數據庫和引文數據庫在其元數據體系中添加作者唯一身份標識符。由于標識符具有唯一性,當使用作者姓名途徑進行檢索時,只要將該標識符作為檢索條件,便可輕易檢索到精確的數據。當遇到對作者身份不太清楚的情況時,只要對照其唯一身份標識符,在相關機構網站中進行查詢,便可知道該位著者的具體個人基本信息。
4.2 作者身份唯一標識符的編制規則
這里提供一種作者身份唯一標識符編制規則作為參考:號碼由23個數字組成,前3位是作者申請號碼時的國籍代碼,第4-11位是作者的出生年月日,第12-19位為作者申請標識符的日期,最后4位為流水號。由于這種代碼具有唯一性,可保證對同名同姓或姓名相似作者之間的精確區分;由于其具有永久性,可保證即使某位作者先后供職于不同單位,或曾經使用過多個不同姓名,仍能完整地聚集其相關發表和引用數據。由此消除各種因姓名客觀特點而造成的不同作者數據集中或同一作者數據分散的現象,使各種科學計量研究工作能獲得更優質更精確的來源數據,從而提高研究結果的精確度。
4.3 可行性分析
科學論文與科學工作者數量均迅速增長的現狀說明編制科學論文作者身份唯一標識符的必要性,而數據庫技術與信息技術的高速發展為實現這一目標提供了技術保證。為降低技術開發與推廣應用的成本,目前較好的一種解決辦法是依托于現有的國際大型學術數據庫,如WOS、SCOUPUS等等,按上述規則為每一名作者編制一個唯一的身份標識符,并將該標識符納入檢索字段,供用戶試用并反復調試,取得一定成效后,再分國家、地區進一步推廣,直至該標識符如文獻標題、作者姓名、關鍵詞一樣,成為一篇文獻必不可少的組成部分。
5小結
科學技術是第一生產力,人是人產力中最活躍、最革命的因素,作為科學活動中最活躍因素的科學論文作者,由于各種客觀原因,其身份無法在宏觀范圍內得到確認,這種情況已經嚴重影響到信息檢索的檢全率與檢準率,同時束縛著包括科學計量學、文獻計量學相關研究的開展以及這些研究結果對實際工作的指導效果,由此得知,為科學論文作者編制唯一的身份標識符已成為現實的迫切需要,本文為這種標識符的編制方法提供一種參考,當然一定還存在許多考慮不盡完善之處,但從長遠來說,作者唯一標識符的應用能夠大大提高信息檢索效率和以作者為基準的宏觀層面上各種實證研究的精確度,從而提為科研管理機構的政策制定和調整提供有力支持,最終推動科學研究更快更好地發展。
[參考文獻]
[1] Gary Cleveland. DIGITAL LIBRARIES: DEFINITIONS, ISSUES AND CHALLENGES[EB/OL]. [2010-1-11]. http://ifla.queenslibrary.org/VI/5/op/udtop8/udt-op8.pdf.
[2] Jingfeng Xia. Personal Name Identification in the Practice of Digital Repositories[J]. Program: Electronic : Library & Information Systems,2006 (3) : 256—267.
[3] Jian Huang, Seyda Ertekin, C.Lee Giles. Efficient Name Disambiguation for Large-Scale Databases[EB/OL].[2010-1-11]. http://ifla.queenslibrary.org/VI/5/op/udtop8/udt-op8.pdf
[4] Jose M. Soler. Separating the Articles of Authors with the Same Name[J]. Scientometrics,2007, 72,( 2):281—290.
[5] Han, H., Zha, H., Giles, C.L. Name disambiguation in author citations using a K-way spectral clustering method[C].// Proceedings of JCDL,2005: 334—343.
[6] Han, H., Giles, C.L., Zha, H., Li, C., Tsioutsiouliklis, K. Two supervised learning approaches for name disambiguation in author citations[C].// Proceedings of Joint Conference on Digital Libraries,2004: 296—305.
[收稿日期][HT5”K]2014-05-09
[作者簡介][HT5”K]張學梅(1978—),女,館員,碩士,蘇州市職業大學圖書館工作,研究方向為學術評價。
[說明][HT5”K]蘇州市圖書館學會課題項目成果;蘇州市職業大學校級課題“基于科學計量學理論與方法的定題服務模型研究”( 編號: 2013SZDCC16)階段成果。