楊嘯林,楊 晟,潘虹潔,王 哲,王志剛,何勇群
(1 中國醫學科學院基礎醫學研究所,北京 100005,yangxl@pumc.edu.cn;2 密歇根大學醫學院, 密歇根州 48109)
近二十年來,數據的積累已經成為科學研究領域一個重要特征。數據驅動的科學發現廣泛——被稱為科學研究的第四范式[1],在從天文、地理、生物醫學等諸多學科領域的廣泛使用。從基因組學、蛋白質組學等單一組學的研究,到現今的多組學研究;從單一病種癌癥的研究到泛癌癥的研究。多種高通量實驗方法產生了大量數據,使得從不同尺度研究生命的奧秘成為可能。
與此同時,數據所承載的責任也越來越大。一方面,數據是科學研究重要的產出之一,監管機構和社會需要用公開透明的數據來證明科學研究的可再現性和可重復性。隨著AI和計算機計算能力的增強,對于數據的全自動化應用以及與高速計算無縫對接的需求也越來越高。國家、社會和科研人員也要求,對高成本投入產生的各類科學數據能從不同角度重復利用,以達到價值最大化。所以,提升科學數據的可再利用性是數據管理的核心目標。
科學研究數據在近些年迅速發展,在諸多學科成為發展的重要推動力。例如,TCGA數據庫,存儲了33類癌癥患者的測序數據、病史資料和病理圖像數據等。為癌癥發生機制、分子分型、預后影響因素研究,以及人工智能病理讀片技術等多個領域的發展提供了重要支持[2]。然而,截至目前仍存在多種障礙阻礙用戶對于大量現存的科學數據的再利用。這些困難包括:無法獲知數據集信息;無法獲取數據說明信息;沒有合理合法渠道得到數據實體資源;獲取實體數據后,不知道用戶的基本權利和義務;獲取實體數據后,無法得知數據的真實含義導致錯誤應用等。同時,由于數據質量和異質性所導致大規模計算的瓶頸效應也越來越明顯。
造成這類問題的原因復雜。既有社會心理文化層面的原因,也有技術層面的原因。雖然我國已經頒布了《科學數據管理辦法》,但是由于相應的責任權利不明,科研人員參與科學數據匯交和共享工作的動力不足。此外,對于數據安全及其危害缺乏明確定義,也給數據公開共享帶來了顧慮。另一方面,我國對于生產實踐領域的數據標準比較重視,在科學數據領域,由于數據分散度高、數據類型復雜且變化快,在數據標準化建設和實施方面與國際上差別較大。特別在《科學數據管理辦法》頒布后,迫切需求建立一個科學數據管理的跨領域指導原則,并在此基礎上建立各個學科通用數據類型的標準體系并據此為數據管理流程和評價標準建設提供可實施的依據。
2016年FORCE11組織正式提出了在科學數據管理領域引入FAIR準則[3]。FAIR準則,明確了科學數據管理的目標,在研究政策和科研數據管理計劃需求方面具有里程碑意義的政策和需求。該準則被提出以來,受到科學數據管理領域的廣泛認可,對于如何實施該準則以及如何將其與各個專業領域進行結合進行了廣泛的研究和討論。
FAIR是指導如何通過數據管理,將科學數據建設成為可查詢(Findable)、可獲取(Accessible)、可互操作(Interoperable)并且可重利用(Reusable)的基本指導原則。
數字資源應該很容易被人或者機器查詢到,這有賴于相關的數據集或者數據服務應該以清晰明確的方式被標識、描述、注冊并被索引。這意味著,數字資源應該被分配給一個唯一永久標識符;數字資源應該有充分的元數據注釋;數字資源的主要特征應該以標準格式被記錄;應該在公開的數據庫存儲和索引。
應該對數字資源獲取方式進行清晰定義,包括如何獲得受保護數據的使用授權。在理想情況下應該是一種自動化的方式進行獲取數據的驗證,判斷是否符合授權條件。元數據(metadata)也應當是可獲取的,即使其原始數據已經不再提供服務。
可互操作是指關于同一個主題或者客觀實體的兩個或者更多的數據資源,可以被機器自動整合?;蛘撸诰€的網絡服務可以自動判斷它與目標數據之間是否兼容,并且他們直接按可以進行自動交互。這要求數據資源或者網絡服務的描述具有語義上足夠的清晰度。
為了實現數據可重利用的目標,應該依據研究領域的標準對數據來源出處進行詳細記錄。這些來源出處信息包括準確的數據描述、取方式和應用許可等。據此,無論人還是機器可以判斷目標數據資源是否可以重用,應該如何爭取重利用。
從操作層面來講,FAIR準則涉及所有的數字資源,既包括數據,也包括軟件、代碼和工作流。表1總結了FAIR準則的主要內容[3],概括來講這些內容包括:①對各種形式的數字內容和知識分配唯一的標識符,以確保這些數字資源可以被檢索;②數字資源應該具有高質量的(元)數據;③使用通用術語和本體,以確保語義兼容性和查詢的可靠性;④建立具有研究領域內可以共識的內容標準促進知識的利用;⑤對于數據有關于其來源的詳細描述,保證數據研究成果的可再現性(reproducibility);⑥在公開的數據庫進行高質量元數據的注冊,為未來可能的內容檢索提供支持;⑦建立可靠的數據訪問的技術和政策保證。

表1 FAIR數據準則內容

續表
FAIR標準一個重要的核心目標是實現數據的機器可操作(machine-actionable)[4]。為了最終實現這一目標,提供充分的機器可以理解并自動操作的元數據是實現這一目標的第一步。這些信息不僅應該包括傳統的對數字對象基本背景的介紹,對于科學研究數據而言還應該涵蓋數據采集過程中實驗環境信息、數據處理分析信息以及讓第三方用戶能夠理解數據的其他必要信息。對于元數據信息,將其簡單公開是遠遠不夠的,還應當以人和機器可以理解的方式進行表示。這需要構建元數據的表示模型,并利用本體實現語義支持。元數據應該在可共享的平臺注冊,分配唯一的ID。元數據應該比其說明的實體數據有更長的生命周期,以保證可能的檢索和應用。
FAIR并不代表著數據的無條件公開。我國2018年正式頒布的《科學數據管理辦法》明確規定“政府預算資金資助形成的科學數據應當按照開放為常態、不開放為例外的原則”。在生物醫學領域,積累了大量的受試者個人健康信息,以及患者的醫療信息。這類數據無疑有很大的科學價值,因此在這類科學數據管理中應特別關注到可能涉及隱私、安全和保密的情況。此外,對也要保護數據可能的商業利益以及承認尊重數據采集和加工人員的付出。因此,FAIR準則在實施過程中,應該本著實現“盡可能開放,盡需求封閉”(As Open as Possible, as Closed as Necessary)為原則[5]。即使不能公開的數據,也應利用符合FAIR準則的元數據描述數據產生、知識產權狀況、用戶使用規則、權利與義務,并據此建立用戶的查詢、訪問和數據使用的規范和保護措施,從而實現《科學數據管理辦法》中“分級管理、安全可控、充分利用的原則,明確責任主體”的要求。
自從FAIR準則被公布以來,得到了國際上與科學數據關聯的利益相關方的廣泛認可,認為這是科學數據發展過程中一個里程碑意義的準則。其認為,通過FAIR準則的實施,將極大方便科學數據的再利用,提升數據的整合應用,并為人工智能等新的數據處理分析方法提供便捷,是提升利用科學數據利用程度的必要手段。同時也為監督科學研究結果的可重復性和再現性提供支撐,最終也是提高科學數據信譽的有效途徑。
FAIR準則的實施,既需要科學社群共同努力建立相應的文化基礎,也需要建立該準則能夠實施的技術支持環境。這樣的系統環境應該涵蓋以下要素:獲得研究者認可且可以跨領域實施的數據標準,指導FAIR實現的一個過程性框架以及依據FAIR準則建立的數據評價標準。
FAIR準則中涉及的數據和元數據標準主要包括最小信息標準、數據語義層面的術語標準和數據的格式標準三個層次[3]。這些數據標準本身也是FAIR所定義的數據對象之一,也應該以符合FAIR準則的形式存在。
第一,最小信息標準[5](Minimum Information Guidelines)通常也稱為數據內容標準或報告指南,是指要理解一個數據對象及其背景所必需的說明信息?,F在生物醫學研究中,以組學數據為代表的實驗數據均是由復雜的實驗系統產生,整個流程可能包括實驗設計、樣本采集狀態、實驗方法、實驗儀器和分析方法等信息的數據。通過元數據充分記錄這些信息的數據能否被廣泛認可、使用、整合以及再利用的關鍵因素。對于數據的再利用者來說,元數據需要盡可能豐富,然而過于冗長的元數據不僅會對實驗人員造成較大負擔,也會對數據的存儲造成困難。因此針對性的制定特定領域的關于元數據的最小信息標準,使其被各利益相關方接受,是這類高通量數據被重利用的關鍵因素。如今許多相關機構開始從事最小信息標準的制定——即理解或者重利用復雜體系產生的數據所需的最小元數據項。微陣列實驗最小信息標準[5](Minimum Information About a Microarray Experiment,MIAME)是最早出現的元數據標準,并獲得較廣泛的應用。隨后最小信息標準逐漸出現在其他領域,如蛋白質組學實驗最小信息標準[6](Minimum Information About a Proteomics Experi-ment,MIAPE)和基因組的序列最小信息標準[7](Minimum Information about any Sequence,MIxS)等。值得注意的是,許多最小信息標準,目前還是以文本的形式存在,可實施性較差。如何將其轉化成FAIR所要求的形式,并為用戶提供便利支持是FAIR具體實施的重要工作之一。
第二,術語標準規范了客觀物件或者概念的名稱、定義以及并提供明確的標識,從而為實現機器間“語義”交流建立基礎。術語標準的存在形式有多種,從可控詞表、術語表、分類詞表、敘詞表到本體,其形式化程度逐漸增強,功能逐步豐富,復雜度也大幅度提升[6]。本體(ontology)是當代計算機科學與信息科學催生的一種新的知識組織方式,它不僅規范特定領域中實體的概念、屬性和定義,還通過描述邏輯規范了實體間相互關系,提供對領域知識的共同理解。在過去二十年中,生物醫學領域本體建設日漸規范,資源和工具日益豐富,逐漸成為生物醫學數據建設的強有力工具[7]。
利用本體中的術語,可以實現數據和元數據的語義標準化。在實現數據質量提升的同時,也為大規模數據整合提供基礎。同時,本體可以促進自然語言文本和數據的自動化標注,進而借助于本體提供的語義關系,引入更多的數據分析方法。
雖然本體的重要性逐步得到認可,但是對于大多數本體而言,其利用度仍需進一步提升。造成這種現象的原因是多方面的。首先,本體使用的技術難度較高。特別是一些大本體,如何利用其復雜結構和龐大的術語對有限的數據進行注釋,對于從事數據采集和管理一線工作的科研人員門檻較高,需要更多用戶友好工具的開發。其次,生物醫學本體本身有較大的異質性。在國際上最著名的生物醫學本體平臺NCBO BioPortal[8]中,截至撰稿時為止(2019年12月10日),存儲了八百多個本體。這些本體間的異質性,進一步如何進行本體間術語的映射關系,為用戶使用這是標準術語帶來了新的困難。第三,目前國際上多數本體僅提供英文版本,但是需要使用本體的語言環境是多樣化的。因此,在建設高質量本體資源的同時,應該進行各類使用工具的開發,促進科研人員和數據管理人員在日常工作使用本體進行數據標準化。
第三,格式標準是不同機構之間共享數據或軟件程序之間交換數據的統一格式,既包括文件的格式,也包括數據模型。這類數據標準在過去幾十年中,得到了高度重視和認可。例如在基因組測序領域,記錄原始測序的FASTQ格式的文件到記錄基因序列突變信息的VCF格式文件,均是被學界和產業界廣為接受的數據標準格式。
上述三類標準互相組合、互相支撐,構成了一個領域進行計算機互兼容、互操作的內容標準系統。例如,為了建立符合FAIR準則的某一科學研究領域實驗數據集,元數據內容項應該符合該領域公認的最小信息標準,對于某一具體的元數據的表示應該在使用通用的數據元素的表示模型基礎上,利用本體進行數據元素的概念定義;并利用本體對具體數值進行注釋。要完成此類標準化工作,仍需要多領域合作進行大量的支撐性資源建設與工具開發。
通過數據管理使數據達到FAIR準則設定目標的過程應該是一個分步驟的、不斷提升的過程。Annika Jacobsen 總結了通用的建設FAIR數據的步驟,作為數據建設的框架性指導[9]。在這個過程中,強調分別對數據和元數據進行語義模型的建設,并利用此模型實現兩者關聯數據(linked data)的建設。最終將數據與元數據以機器可以理解和操作的方式表示出來。
無論在數據建設過程和數據管理過程中,需要不斷了解數據符合FAIR的程度,以及需要進一步改進的問題。因此,需要建立明確的、有識別力的、可測量的并且通用性強的指標。目前,國際上促進FAIR實施的機構GO FAIR近期提出進行數據質量評價的指標體系[10],該評價體系圍繞FAIR準則中技術細節定義了各類別評估指標,后續將開發相應的自動化測試方法和評估工具促進這套指標的客觀使用[11]。這些指標體系的可用性仍需要實踐檢驗。
有效的FAIR數據建設應該從數據采集方案的設計開始,將數據標準化與數據采集的標準化結合,保證后續數據完整性和質量保證,真正實現“全數據鏈”的數據管理。在整個鏈條中,有多方人員參與,需要大量的信息化資源和軟件的支持,才能完成。
本體在數據標準化和構建語義模型過程中扮演重要角色,是FAIR準則實施過程中重要的支撐資源。為了構建高質量、互兼容、一致性好且非冗余的生物醫學本體,開放性生物與生物醫學本體鑄造工廠(OBO Foundry)國際生物醫學本體組織基于開放(Open)、合作(Commitment To Collaboration)和通用格式(Common Format),開發了一系列生物醫學本體[12]。OBO本體均以基本形式化本體(Basic Formal Ontology,BFO)為頂層,建設了100多個領域參考本體例如Chemical Entities of Biological Interest (ChEBI)[13],Disease Ontology(DO,疾病本體)[14], Human Phenotype Ontology(HPO,人類表型本體)[15]和Ontology for Biomedical Investigations(OBI,生物醫學研究本體)[16]等,為國際上眾多的生物醫學數據庫和知識庫提供支持。
NCBO BioPortal是國際上收錄生物醫學本體最多的資源平臺,在提供本體的一站式檢索的同時,還提供本體的應用和可視化的工具。目前,NCBO BioPortal在線提供服務的本體數量達826個,術語總量超過一千萬。NCBO BioPortal還提供的基于圖數據庫的開源本體管理軟件框架,為多專業領域多語言本體資源應用提供支持,并由此建立了OntoPortal Alliance[17]。國家人口與健康科學數據中心(基礎醫學)建設的MedPortal本體資源平臺(http://medportal.bmicc.cn)[18]也是OntoPortal Alliance成員之一。MedPortal中存儲了中心翻譯和建設的中文OBO本體、整合了醫學領域常用術語集的中文版,例如ICD-9-CM, ICD-10和ICD-11等(詳見表2)。該平臺還提供數據的本體數據注釋,不同本體間術語映射以及API編程接口服務。美國密西根大學何勇群教授課題組開發的OntoFox[19]和OntoRat等本體工具,支持生物醫學本體的開發和本體術語的復用。

表2 MedPortal提供中文服務的本體
在FAIR準則中,明確要求高質量的數據應該具有明確、具備語義模型的元數據。在生物醫學領域,已經有大量工作致力于整理或收集不同領域的元數據,利用數據元素框架,并結合本體或標準術語集,建立通用數據元素(Common Data Element,CDE)庫,以期為數據整合、分析和互操作提供支撐。具有代表性的是CEDAR[20], 用戶可以利用CEDAR模板,構建本體支持的、符合ISO/IEC 11179標準的元數據。美國國立癌癥研究所(National Cancer Institute, NCI) 開發的通用數據元素數據庫caDSR,是在兼容并擴展ISO/IEC 11179標準基礎上,利用生物醫學領域里具有廣泛術語覆蓋度的本體NCI Thesaurus (NCIT) 作為語義支撐[21]。像TCGA,dbGap和 eMERGE等具有廣泛影響力的聯合研究項目,也將其項目中的元數據與caDSR數據庫中的數據元素建立了映射[22-24]。這些數據元素不僅是理解這些公開數據的重要資源之一,用戶也可重利用,用于自己的數據項目。目前,已有成功案例表明,通過使用caDSR等通用數據元素庫,增強了數據的互操作性[24]。
我國在過去二十年中,生物醫學數據積累迅速增加,卻造成了數據量大但是具有國際生物的數據產品少的局面,科研人員對于國際數據的依賴有增無減。建設符合我國科研人員和數據管理人員數據管理流程和數據建設環境,是提升生物醫學領域數據質量的重要前提和支撐條件。FAIR準則所倡導的基本原則,對于規范數據管理流程具有重要意義。一方面要引進和自建相結合,建設完備的生物醫學科學數據內容標準,同時為用戶提供便捷的標準使用信息平臺和服務;另一方面,針對圍繞科學數據的產生、管理和發布的各個環節,明確各方的責任與義務,建立符合FAIR準則規范、流程、評價標準,并不斷建設支撐這些管理措施實施的技術環境。通過FAIR準則的實施,建設可重利用的科學數據,實現科學數據價值的最大化。
(致謝:感謝中國醫學科學院關健教授對本論文起草、撰寫、發表等過程中的指導和幫助。)