孫海霞 李軍蓮
(1 南京大學信息管理學院 南京 210046 (中國醫學科學院醫學信息研究所 北京 100020) 2 中國醫學科學院醫學信息研究所 北京 100020)
?
?醫學信息研究?
學術論文作者機構規范文檔構建*
孫海霞 李軍蓮
(1 南京大學信息管理學院 南京 210046 (中國醫學科學院醫學信息研究所 北京 100020) 2 中國醫學科學院醫學信息研究所 北京 100020)
以中國生物醫學文獻數據庫為基礎,面向基于學術論文開展機構檢索、分析與評價相關知識服務需要,對學術論文作者機構名稱規范目標與內容、體系結構與組織方式以及構建過程與實現策略進行研究、實踐總結。
中國生物醫學文獻數據庫; 機構名稱規范;規范文檔結構;社會化協作;計算機輔助環境
隨著國家在科研領域資源投入的持續增加,各類學術成果的產出量逐年上升,以科研機構為中心的各種知識服務理論研究與實踐工作越來越受到圖書情報領域的重視。學術論文作為核心知識載體之一,已成為開展知識組織、知識檢索、科學計量分析、關聯挖掘、學科發展、最新科研動向、科研評價等知識服務研究和實踐活動的主要依據[1-3]。“作者機構”作為學術論文的重要標目項,是開展相關知識服務活動時科研機構與論文銜接的紐帶。但由于機構自身因為更名、合并、拆分等帶來的同一實體機構名稱的多樣性和復雜性,不同作者發文時常常對同一機構名使用不同的表達形式,甚至同一作者在不同時間也會如此等客觀現實的存在,使得目前各類數據庫很難保證作者機構檢索點的查準率和查全率[4-5],尤其在當前學術論文快速增長的背景下,在很大程度上影響和制約著各項知識服務研究和實踐活動的開展。對此,開展論文作者機構規范控制研究,構建作者機構規范文檔,實現統一機構不同著錄形式的匯聚,揭示不同機構名稱之間的變更、隸屬等語義關系,用于學術論文的組織,是提高數據庫作者機構檢索點的文獻查準率和查全率、最大程度解除基于學術論文開展以科研機構為中心的各種知識服務理論研究與實踐制約因素的重要手段之一[1]。
規范文檔(Authority File)的概念在文獻編目領域中由來已久,是指由規范記錄組成的計算機文檔。長久以來,規范文檔建設相關理論研究與實踐主要圍繞知識內部特征(知識內容)進行,如各種主題詞表、一體化語言系統等[6-8];作者、機構等知識外部特征項的規范研究與實踐則主要集中在書目規范控制方面,致力于圖書編目與檢索的一致性以及不同書目系統之間的互操作。如國際圖書館協會和機構聯合會(International Federation of Library Associations and Institutions,IFLA)從服務角度對規范項提出了要求[9],德國國家圖書館、美國國會圖書館和OCLC啟動了虛擬國際規范文檔(Virtual International Anthority File,VIAF) 項目[10-11],國家圖書館和CALIS制定了作者、團隊作者等著錄規則,構建了系列名稱規范庫[12-13],并進行語義表達與關聯研究等[14-15]。面向學術論文的機構名稱規范控制研究還比較少,唐金玲從檢索角度對當前3大數據庫中論文作者機構名稱問題進行了分析與總結[4],曾建勛等從知識評價角度提出了學術論文機構著錄要求[1],董琳從學科評價角度提出了機構名稱清洗需求與策略[3],吳英杰等進行了學術論文數據庫作者機構名稱非規范著錄形式自動檢測研究[5],高星等人進行了論文機構規范名和別名對應關系自動發現技術研究[16],楊奕紅等進行了多層級機構表編制與應用實踐[17],總體看還處于起步與探索階段。
本文以中國生物醫學文獻數據庫(China Biomedical Literature Database, CBM)為基礎,在借鑒現有書目規范控制、各類知識組織系統構建與整合理論和實踐基礎上,面向基于學術論文開展機構檢索、分析與評價及相關知識服務需要,對學術論文作者機構名稱規范目標與內容、體系結構與組織方式以及構建過程與實現策略進行研究、實踐與總結。
2.1 作者機構規范文檔知識服務目標
CBM是國內生物醫學領域最早、最權威的期刊論文數據庫之一,是一個集題錄檢索、引文檢索和學術分析于一體的知識服務型數據庫。學術分析包括引文分析、作者分析、機構分析、基金分析等。CBM作者機構規范文檔知識服務目標包括兩個方面:一是提升CBM自身的知識組織、機構檢索、分析與評價等服務能力;二是為實現與其他服務系統之間資源和服務整合提供支撐。具體通過3個階段來逐步實現,見表1。

表1 CBM作者機構規范文檔知識服務目標
2.2 作者機構名稱規范內容
CBM作者機構規范包括3個方面:形式規范、一般性描述屬性規范和關系屬性規范。形式規范的目標是實現一個機構的不同著錄形式能夠匯聚在一起,用同一個表達形式(下稱規范機構名稱)進行表達。一般性描述屬性規范是對機構基本信息的揭示與控制,主要指機構類型、所屬領域、等級、所在地區、地址等一般描述信息的規范。關系屬性規范可分為系統內部作者機構間關系規范和系統與外部機構規范文檔之間的關系規范兩個層面。系統內部作者機構關系規范包括機構變更、隸屬、掛靠、附屬、相關等關系的規范;與外部機構規范文檔之間的關系規范主要指與外部機構規范文檔的互操作,直接表現為各種映射關系。形式規范是構建作者機構規范文檔和實現各類機構知識服務活動的基礎,一般屬性和系統內部作者機構關系屬性規范是實現深度知識檢索與評價的基礎,外部關系規范是實現不同系統之間資源和服務整合的基礎。
3.1 概述
CBM作者機構規范文檔體系的設計不限于最終規范內容本身,還考慮了規范控制過程和邊建設邊服務需要。CBM作者機構規范文檔體系由7大類文檔組成,分別為作者機構名稱來源文檔、預規范作者機構名稱文檔、輔助規范文檔、作者機構規范文檔、作者機構名稱索引文檔、映射文檔和管理文檔,見圖1。內部規范文檔主要通過規范作者機構名稱ID、預規范作者機構名稱ID、原始作者機構稱ID進行關聯;與外部規范文檔的映射主要基于規范作者機構名ID進行;與CBM文獻庫和論文其他知識要素的語義關聯主要基于上述3類唯一標識符與CBM文獻ID的映射關系進行。

圖1 CBM機構規范文檔整體體系結構
3.2 作者機構名稱來源文檔
作者機構名稱來源文檔存放的是從CBM中采集過來的原始作者機構名稱及相關描述信息,內容包括CBM文獻ID、原始作者機構名稱ID、原始作者機構名稱、郵編、作者、所在地等。
3.3 預規范作者機構名稱文檔
預規范作者機構名稱文檔存放的是對作者機構名稱來源文檔中相關信息清洗和初步規范后的結果,內容包括預規范作者機構名稱ID、原始作者機構名稱ID、預規范作者機構名稱、語種、所在國家、所在地區、機構類型等。
3.4 作者機構規范文檔
CBM作者機構規范文檔由基本屬性文檔、一般屬性描述文檔、關系屬性描述文檔和注釋文檔組成。基本屬性文檔里用于存儲CBM作者機構規范名稱的基本信息,核心內容包括規范作者機構名稱ID、預規范作者機構名稱ID、原始作者機構名稱ID、CBM文獻ID、規范作者機構名稱、優選規范作者機構名稱標識。一般屬性描述文檔用于存儲CBM作者機構規范名稱的類型、機構分類、所屬學科與領域、所在地區、分級、語種、性質等一般描述信息。關系屬性描述文檔用于存儲CBM作者機構之間關系信息。CBM關系屬性描述文檔中關系可以是規范作者機構名稱之間的關系、預規范作者機構名稱之間的關系,也可以是規范作者機構名稱與預規范作者機構名稱之間的關系。關系類型分為變更關系(拆分、合并、更名等)、層級關系(隸屬、掛靠、附屬等)、相關關系(作者相關、文獻相關、基金相關、領域相關、分級相關等)和其他關系5大類。注釋文檔是對CBM作者機構規范名稱各個規范項的說明和其他信息的補充說明,既是建設成果,也反用于輔助CBM作者機構規范名稱文檔的構建。
3.5 作者機構名稱索引文檔
作者機構名稱索引文檔分為CBM作者機構名稱索引文檔、作者機構規范名稱索引文檔和作者機構預規范名稱索引文檔,前者是對后二者的綜合。索引方式上包括字索引、詞索引和綜合索引。作者機構規范名稱索引文檔主要服務于外部系統,CBM作者機構名稱索引文檔和和作者機構預規范名稱索引文檔主要服務于CBM。
3.6 映射文檔
映射文檔主要用于存儲和揭示CBM作者機構規范名稱與其他機構規范文檔中規范機構名稱之間的映射關系,實現CBM作者機構規范與外部系統和服務的互操作。核心元數據項有CBM規范作者機構名稱ID、外部機構規范名稱唯一標準符、外部機構規范文檔名稱編碼、映射關系類型。CBM作者機構規范名稱與其他機構規范文檔中規范機構名稱之間的映射關系類型主要分為等同映射、向上映射、向下映射、相關映射和其他映射5大類,其中相關映射又分為行政相關、地區相關、學科相關、類別相關等。
3.7 輔助規范文檔
CBM作者機構輔助規范文檔主要用以輔助機構一般描述項內容的規范,有些是面向所有類型機構,有些則是面向特定類型機構。表2是主要輔助規范文檔及用途說明。所有輔助規范文檔均可動態更新與維護。

表2 CBM機構規范主要輔助規范文檔及用途
3.8 管理文檔
管理文檔用于各類數據的管理與說明,包括元數據描述文檔、文檔描述文檔、用戶管理文檔、反饋文檔和版本管理文檔。元數據描述文檔用于解釋各類CBM機構規范文檔涉及的元數據內涵和外延;文檔描述文檔是對各類CBM機構規范文檔內容的說明;用戶管理文檔是對CBM機構規范文檔的構建、維護和應用等各類型用戶的統一管理;反饋文檔用于記錄CBM機構規范文檔的使用反饋信息和反饋信息處理情況;版本管理文檔用于記錄CBM機構規范文檔更新變化情況。
4.1 作者機構名稱規范過程
CBM作者機構名稱規范過程整體分為原始作者機構名稱采集、清洗、形式規范控制、一般性描述屬性規范控制和關系規范控制5個主要階段。(1)原始作者機構名稱采集階段主要是從CBM數據庫中獲取完整的原始作者機構著錄信息。(2)清洗階段主要是對采集過來的原始作者機構名稱進行拆分,生成原始作者機構名稱唯一標識符;對拆分后的作者機構名稱進行形式檢查、提取有效片段、去重,生成預規范作者機構唯一標識符;完成機構類型、所在地區、語種等部分非關系屬性的初步規范等。(3)形式規范控制階段主要是將同一機構的不同作者機構著錄形式的匯聚在一起,并從中推薦出CBM規范機構名,生成規范作者機構名稱唯一標識符。(4)一般性描述屬性規范控制階段主要是完成機構類型、所屬領域、所在地區、分級等所有非關系屬性的規范。(5)關系規范控制階段主要是進行機構變更、隸屬、掛靠、相關、映射等關系的規范,生成各類關系唯一標識符。
4.2 作者機構規范文檔主要實現策略
CBM作者機構規范文檔構建原則之一就是邊建設邊服務,因此重點強調構建過程的階梯式循環,保證中間規范成果可用和可復用,注重計算機輔助和社會化協作。
4.2.1 階梯式循環建設 如圖2所示,CBM機構規范文檔整體構建路線不是線性的,而是循階梯式循環進行的。首先啟動核心類型機構規范,且只考慮形式規范;隨后在上述基礎上進行一般性描述屬性規范,并引入非核心類型機構規范控制;接著啟動CBM作者機構名稱內部關系規范,同樣是核心類型機構優先;最后著手構建CBM作者機構名稱與外部機構規范文檔映射關系。具體實施時還考慮年代范圍和機構類別因素。

圖2 CBM機構規范文檔整體構建路線
4.2.2 計算機輔助 圖3是CBM作者機構規范文檔構建與維護的計算機輔助環境,整體分為應用層、軟件層和技術層3個層次,貫穿CBM論文作者機構名稱采集、清洗(預規范)、形式規范、關系規范、互操作和服務各個階段。

圖3 作者機構規范文檔構建計算輔助環境
采集和清洗主要基于各類離線工具進行,涉及的核心技術主要為不同類型機構特征詞的總結與規則庫的構建。形式規范、關系規范和互操作則以在線協同加工工具為主,這3個階段也是最需自動化處理技術和語義資源支持的階段。其中,形式規范主要基于相似度技術、規則庫構建、自動聚類和分類技術、同名消歧技術進行;關系規范主要基于自動關系發現技術進行,包括作者共現、文獻共現、語義相似度技術、規則庫構建和各類輔助規范文檔的支持。互操作階段是離線與在線相結合,主要基于語義相似度計算和規則庫進行計算機推薦。服務模式主要有3種:通過發布工具提供檢索和瀏覽服務;通過定制工具提供定制服務,通過規范接口提供數據調用服務。
4.2.3 社會化協作 學術論文機構規范文檔的構建與維護是一個復雜、耗時的工程,需要開放與社會協作,建立社會化協作機制和工作模式。圖4是CBM從工具、技術、標準與內容4個層面對需要參與的社會角色及分工進行了思考與總結。需要參與的社會角色應該包括7個社會角色,即作者、信息服務人員、用戶、期刊編輯部、期刊采編系統、專家和其他機構規范編制機構,不同角色在不同層次需要發揮的作用各有側重:CBM主要負責提供技術和協同軟件支持;作者、信息服務人員、用戶重點參與內容規范與修正;期刊編輯部、期刊采編系統、專家和其他機構規范編制機構主要負責相關標準規范的制定與實施。

圖4 作者機構規范文檔構建與維護社會化協作模式
對主題、學科、作者、作者機構、期刊、基金等知識要素進行規范控制和語義關聯,構建學術論文規范文檔,用于學術論文的組織,是最大程度解除基于學術論文開展知識服務制約因素的重要手段之一[1]。本文重點對中國生物醫學文獻數據庫CBM作者機構規范內容、規范文檔組織方式、規范文檔的構建過程與策略進行了介紹。目前CBM已完成近190萬原始作者機構名稱的形式規范,形成9萬余條優選作者機構規范名、近34萬優選作者機構規范名對應的其他形式,開始進入機構間關系規范和構建階段,其中高等院校均已規范至學院級和系級,醫院已規范至科室級。所有規范成果已在CBM數據庫的機構檢索、機構鏈接、作者消歧檢索、引文分析、作者(第一作者)分析、機構分析、基金分析和期刊分析等服務中進行了應用。
誠然,目前各種關系發現與不同機構規范文檔間機器互操作技術的研究還不夠成熟,有些剛處于設計和試驗階段,其工程化應用還需要在CBM作者機構關系規范實踐中不斷優化。此外,還需進一步加強語義存儲與描述技術研究,提高規范文檔的語義化程度,積極參與到作者機構著錄規范的制定、數字化表達等相關標準規范的制定中,更大范圍內進行社會化協作實踐,促進社會化協作環境的搭建,提高作者結構規范文檔更新的動態性和實時性,接受更廣范圍的應用檢驗。
1 曾建勛,王立學.面向知識評價的規范文檔建設方法[J].圖書情報工作,2012,56(10):101-106.
2 蘇新寧. 圖書館、情報與文獻學學術影響力研究報告(2000—2004)[J].情報學報,2006,25(2):131-153.
3 董琳.學科評價之文獻計量數據準備[J].情報理論與實踐,2010,33(6):49-52.
4 唐金玲.國際三大檢索系統論文作者機構名稱問題研究——以高校機構名稱為例[J].情報探索,2014,(9):80-84.
5 吳英杰.孫海霞.CBM數據庫作者機構非規范著錄數據自動檢測研究[J].醫學信息學雜志,2011,32(5):38-40.
6 W3C.SKOS Simple Knowledge Organization System Reference: W3C Proposed Recommendation 15 June 2009 [EB/OL]. [2015-01-25]. http://www.w3.org/TR/2009/PR-skos-reference-20090615/.
7 賈君枝.簡單知識組織系統與漢語主題詞表[J].中國圖書館學報,2008,34(173):75-78,84.
8 李丹亞,胡鐵軍,李軍蓮,等.中文一體化醫學語言系統的構建與應用[J].情報雜志,2011,30(2):1-2,9.
9 國際圖書館協會和機構聯合會(IFLA).規范數據的功能需求[EB/OL].[2014-12-15].http://www.ifla.org/files/cataloguing/frad/frad_2009-zh.pdg.
10 崔春,畢強.虛擬國際規范文檔( VIAF) 項目進展[J].圖書情報工作,2014,58(6):129-134.
11 賈君枝,石燕青.中文名稱規范文檔與虛擬國際規范文檔的共享問題研究[J].中國圖書館學報,2014,41(214):83-92.
12 卜書慶,郝嘉樹.國家圖書館中文書目規范控制現狀及研究[J].圖書館論壇,2010, 30(6):209-213.
13 謝琴芳.CALIS中文名稱規范數據庫建設方案及其實施進展[J].新世紀圖書館,2005,(1):3-5.
14 郝嘉樹,王廣平.中文人名規范的語義描述與關聯探討[J].圖書情報工作,2012,56(14) : 47-51.
15 陳金星,祝忠明.責任者名稱規范控制研究及進展[J].現代圖書情報技術,2009,(12):12-17.
16 高星,戴瑋,黃利輝,等.中文生物醫學文獻機構名稱規范化研究[J].醫學信息學雜志,2010,31(12):56-60.
17 楊奕紅,李亞萍,張立麗.機構多層級詞表的編制及在文獻計量評價與科研績效管理中的應用[J].數字圖書館論壇,2013,(6):57-63.
Construction of Authority Files of Affiliations of Academic Paper Authors
SUNHai-xia,
1SchoolofInformationManagement,NanjingUniversity,Nanjing210093,China, 2InstituteofMedicalInformation,ChineseAcademyofMedicalSciences,Beijing100020,China;LIJun-lian,InstituteofMedicalInformation,ChineseAcademyofMedicalSciences,Beijing100020,China
Based on Chinese Biomedical Literature Database (CMB), as required by providing relevant knowledge services of affiliations retrieving, analyzing and evaluating based on the academic papers, the paper studies and makes a practical summary on the goal and content, the system architecture and organization form, the construction process and implementation strategy of name standardization of affiliations of academic paper authors.
China Biomedical Literature Database(CBM); Affiliations name authority, Authority file structure; Social collaboration; Computer aided environment
孫海霞,助理研究員,發表論文20余篇;通訊作者:李軍蓮,副研究館員。
中國醫學科學院醫學信息研究所基本科研業務專項“中國生物醫學文獻服務系統發展關鍵問題研究”(項目編號:13R0103)。
R-056
A 〔DOI〕10.3969/j.issn.1673-6036.2015.11.010
〔投稿日期〕 2015-06-30