刁羽 暢佩 王德平
摘 要 文章以構建“生物醫學工程知識庫聯盟”為例,通過數據解析、整體構架、服務功能的設想與思考,探討專業學科領域知識庫聯盟的構建模式,并提出構建知識庫聯盟的建議,目的在于推動國內專業學科知識庫聯盟的建設與發展,以期促進各相關行業服務功能智能化、便利化的發展。
關鍵詞 大數據 專業學科 知識庫 生物醫學 聯盟
分類號 G251
DOI 10.16810/j.cnki.1672-514X.2019.05.006
Abstract Taking the construction of the “Biomedical Science Repository Alliance” as an example, this paper probes into the construction mode of knowledge base alliance of professional subject domain through data analysis, overall framework, and thoughts on constructing the service function, and puts forward the suggestion of constructing repository alliance. The aim is to promote the construction and development of the professional discipline repository alliance in China, and promote the development of the intelligent and convenient service function of the related industries.
Keywords Big data. Professional discipline. Repository. Biomedical science. Alliance.
0 引言
在當今如火如荼的信息技術飛速發展時代,大數據已經成為與信息資源、人力資源并列的生產要素,并且越來越被廣泛和深入地整合到各專業學科領域知識庫中。歐美國家已經陸續成立了許多數據科學研究機構。Nature和Science也分別于2008年和2011年推出了大數據專刊,對大數據帶來的挑戰進行討論[1]。大數據環境造就了新的科研范式,在此背景下,鑒于近年來機構知識庫聯盟這一概念的興起,同時考慮到不同專業學科領域機構知識庫數據資源的多樣性與敏感性,我們提出構建大數據背景下的專業學科領域知識庫聯盟,希望通過該聯盟重構不同行業的生態數據環境,發掘各行業跨機構學術研究、資源開放與共享、數據存儲與備份、系統故障查詢與修復等功能,目的在于推動國內專業學科知識庫聯盟的建設與發展,以期促進各相關行業服務功能智能化、便利化的發展。本文以構建“生物醫學知識庫聯盟”為例,在高校醫學院、醫療科研機構、醫院、疾控中心等機構知識庫的基礎上提出與區域生物醫學大數據中心建立共享關系,最終實現生物醫學知識庫聯盟的服務功能的設想。
1 專業學科領域知識庫聯盟
在當今大數據背景下,建立專業學科領域知識庫聯盟是基于科學研究數據集,以“專業學科領域的數據痛點”為導向,旨在通過預測性數據推送、數據規劃、數據重構、專題數據關聯性管理等處理過程,為科研人員及被服務群體提供信息移動推薦服務,解決其個性化的、動態性的、知識性的行業信息需求。
大數據背景下的專業學科領域知識庫聯盟以專業學科領域下多個機構、組織為起點,收集密集的專業學科領域及相關行業實踐大數據集,并各自建立可用于數據共享的機構知識庫,圍繞新建或指定的專業學科領域大數據研究中心,多個機構知識庫通過合作的方式建立資源共享關系,形成專業學科領域知識庫聯盟。該聯盟采用最新的大數據技術進行數據整合和挖據,以達到追蹤、信息預測等目的,并將其數據分析成果最終應用于相關專業領域機構的各種服務,旨在為相關專業學科領域的科學研究、行業智能發展、行業監控與決策提供大數據驅動的決策支持。在專業學科領域知識庫聯盟整個構建和服務的過程中,數據流貫穿其中。
2 專業學科領域知識庫聯盟數據構成
各專業學科領域的大數據性質是不同的,作為最活躍的科學研究領域之一,生物醫學領域的大數據也備受關注[1]。可以說全球范圍內的科研人員、醫院以及手機移動設備等都在不斷地產生多種多樣的、復雜的、混亂無序、大規模的生物醫學領域的大數據,主要包括以下幾類來源。
(1)數據提供者和使用者。生物醫學數據的重要產生地有高校醫學院、醫學科研機構、區域疾控中心等機構,機構中專門從事醫學研究工作的科研人員是醫學數據的主要來源之一;另一個重要的來源地就是醫院,醫院是醫生和病人(普通民眾)的活動場所。醫生在為病人治療的過程中,會產生大量的醫學數據。醫院在醫學大數據的應用中有著舉足輕重的作用,因為它可以直接獲取到病人的信息。
(2)基金機構和數據分析專家。對生物醫學研究提供資金支持的基金機構也掌握大量的生物醫學數據,這些機構尤其是國有機構在大數據背景下應該承擔起自己的那份責任。而對大量生物醫學數據的整理、分析和應用都依賴于數據分析專家的技術支持。
(3)出版商和圖書館。醫學科研工作者的研究成果主要收藏在出版商和圖書館,如何獲取和利用這些海量生物醫學數據是我們需要關注的焦點所在。
(4)其他。生物醫學的影響范圍涉及方方面面,除以上的機構人員外,還有其他的相關者,如制藥廠、藥房等,他們所擁有的信息也是重要的生物醫學數據。
3 專業學科領域知識庫聯盟整體框架
生物醫學知識庫聯盟以高校醫學院、醫療科研機構、醫院、疾控中心等機構為起點,收集密集的生物醫學領域及醫療實踐大數據集,并各自建立可用于數據共享的機構知識庫;圍繞區域生物醫學大數據研究中心,高校醫學院、醫療科研機構、醫院、疾控中心等機構知識庫形成生物醫學知識庫聯盟,該聯盟整合海量復雜的生物醫學大數據,并結合大數據、人工智能、醫療儀器設備檢測等技術,進行數據加工、智能處理、信息挖掘等,為醫療行業的科學研究、醫療戰略、醫學實踐和全人群健康管理提供大數據驅動的決策支持[3]。
生物醫學知識庫聯盟構架主要劃分成四個層次,即數據來源、數據采集、數據整合、數據管理,如圖1。每個層次都有相應的機構參與溝通協作,在保證數據流貫穿整個知識聯盟架構的同時,充分發揮醫療實踐的多種創新職能,進而逐漸形成一個保存傳播學術知識、收集醫療實踐信息、開發智能醫療的重要端口。
圖1 生物醫學知識庫聯盟框架
(1)數據來源。聯盟將集成來自高校醫學院、醫療科研機構、醫院、區域疾控中心等機構的生物醫學大數據,采用國際前沿的數據處理和分析技術,為區域健康醫療戰略、醫學實踐和全人群健康管理提供大數據驅動的決策支持。
(2)數據采集。通過建立生物醫學知識庫聯盟實現生物醫學大數據的最初采集。收集各個重點數據來源的機構庫共享資源以及一些外購數據庫資源,如生物醫學特色型數據庫、醫療行業系統數據庫等。
(3)數據整合。專業學科領域的實驗數據、分析數據、管理數據在量方面可能有所欠缺,因此在數據分析與評價過程中可能要涉及相關聯的其他數據,如網絡數據、文獻數據、平臺數據等[4]。這些關聯數據將有助于構造整個醫療行業的生態數據環境,推動醫療行業智能化、便利化的發展。如利用 ASN.1格式為生物醫學數據提供相應的編碼、解碼、數據傳輸標準,利用標準化的XML格式有效地整合和存儲高緯度、格式復雜的生物醫學數據。
(4)數據管理。數據管理的核心是對醫療科研過程中及診斷過程中所產生的科學數據的處理能力,生物醫學知識庫聯盟的組織形式是以各機構庫為核心、生物醫學大數據中心為支撐的數據服務架構。大數據中心的后臺即數據管理系統在數據日常維護、管理、信息反饋等方面發揮主導作用,具體包括數據的著錄、審核、發布、導出等,從而實現信息資源的分類管理、代碼管理、指標管理等。
4 專業學科領域知識庫聯盟服務功能
生物醫學數據在生物醫學大數據研究中心內部經歷過錘煉和醫療實踐驗證后,可以幫助各機構知識庫迅速搭建具有自身特色的大數據應用系統,如數據評價與分析系統、醫療信息管理系統等,系統中逐漸積累的數據流經過生物醫學大數據分析專家科學地加工與發現,形成集知識性、學術性及功能性為一體的醫療分析報告,這些報告將為人工智能決策、政府決策、智能醫療行業監控、醫療APP的發展等提供指導和支持。
(1)人工智能決策。在生物醫學大數據管理系統中,不同的人群在不同場景下有不同的響應,結合這些數據深度挖掘后形成數據模型,進行人工智能決策,如定制化推薦、個性化搜索等。
(2)開發醫療APP。醫療類APP軟件開發借助生物醫學知識庫聯盟產生的數據分析結果,擬在為患者提供更好更優質的醫療服務,通過知識庫聯盟的醫療信息管理系統打造醫療機構和患者之間的信息交互平臺[5]。
(3)智能醫療行業監控。我們需要依托生物醫學知識庫聯盟的共享數據資源和醫療科研團隊的監測調研資料數據對該行業的運營成本、安全性、隱私問題及未來發展趨勢進行全面監控,從而促進智能醫療行業的規模化、集群化和可持續性發展。
(4)政府決策。通過對生物醫學知識庫聯盟內的數據進行整合與分析,圍繞醫療改革發展中重大發展專題、重大政策文件,開展研究和咨詢活動,可形成不同區域的醫療市場現狀調研與發展趨勢報告及具有影響力的對策報告和決策參考。
5 專業學科領域知識庫聯盟的構建模式
目前機構知識庫聯盟模式主要分為集中式、分布式及組合式。集中式知識庫聯盟指多個機構單位構建單一、集中的數據管理系統,聯盟機構成員直接將元數據和內容提交到某個共享的服務器中,實現數字資產的統一保存、 利用、傳播;分布式知識庫聯盟指聯盟成員機構分別建立各自的數據管理系統,通過元數據收割的方式實現聯盟機構資源的集中呈現和揭示;組合式知識庫聯盟是集中式和分布式的結合,既通過集中提交方式聚合資源,又分別收割元數據[6]。總的來說,集中式有利于控制聯盟的建設成本,但各聯盟成員會在一定程度上受約束;分布式有利于保證聯盟成員的自主權益,但會出現資源重復建設的情況;組合式可兼顧兩者的優點,但需抓住知識庫聯盟建設的適宜時機進行切換。
專業學科領域知識庫聯盟在建設過程中應根據自身的實際情況選擇不同的構建模式。在建設初期宜采用集中構建模式,該模式可以通過建立區域專業學科大數據處理中心,整合多個機構單位的數據資源,形成一個具有專業學科資源、相關行業信息資源的知識庫聯盟。在知識庫聯盟的發展過程中,考慮到各區域專業學科大數據處理中心的運載能力,知識庫聯盟可分批進行,具有典型性行業實力的機構或單位可第一批加入聯盟,其他相關專業學科領域的中小組織、機構可視情況陸續申請加盟。在知識庫聯盟穩定發展的中后期,可考慮采用集中與分布有機結合的模式,在該模式下,聯盟中實力較弱的成員機構知識庫仍采用集中構建模式,聚集共享資源,實力較強的成員機構知識庫可獨立形成相關專業學科領域的大數據處理中心,實現元數據的集中收割。隨著專業科學領域大數據集在大數據處理中心并逐漸沉淀累積,專業科學領域知識庫聯盟可攝取到更多有價值的數據,圍繞這些數據,各相關專業機構就可以開發出更多便利化、智能化的服務功能,從而為不同領域的用戶提供更精準的服務。
6 構建專業學科領域知識庫聯盟的建議
由于構建專業學科領域知識庫聯盟還沒有成熟的體系以供參考,筆者在深入了解其他領域機構知識庫建設過程中出現的各種不足后,總結出大數據背景下構建專業學科領域知識庫聯盟應從數據的標準化和規范化、數據的開放性和互動性、非文本信息資源的存取、知識庫聯盟資源版權管理及復合型人才的培養等方面進行努力。
6.1 數據的標準化和規范化
專業學科領域數據龐雜,產生和更新速度更快,統一的著錄特征是數據共享的前提,只有實現數據標準化和規范化的有效融合和整合,才能充分發揮生物醫學大數據的利用價值。基于此,可以考慮搭建一種可拔插的開放式數據倉庫架構,主要用于規范和統一各種數據結構的標準,以便數據能實時地介入與快速地發布。
6.2 數據的開放性和互動性
由于各種不同類型的數據都廣泛存儲在各種機構庫服務器中,各種服務器之間的數據交換、各機構庫之間的數據集成與共享、數據結果的及時發布都成為知識庫聯盟中數據處理的當務之急。為此,構建專業學科領域知識庫聯盟不僅需要強化各相關專業機構知識庫與大數據中心之間的信息數據集成與共享功能,更重要的是開放、強化各種不同類型數據接口,最大程度地滿足數據提供者和數據受益者的個性化及人性化需求。
6.3 非文本信息資源的存取
要保證專業學科領域知識庫聯盟優異的服務功能和貢獻力,就必須支持非文本信息資源(NTM)的存取。非文本資源是由不同字符組成的文檔,并且有各自特有的格式和屬性,可考慮利用Fedora與 DSpace知識庫軟件平臺靈活性和可重構性強的特點支持生物醫學知識庫聯盟創建與處理不同類型的數據,如文檔、圖像、多媒體對象、數據集、元數據等[7],進而滿足不同層次用戶的信息需求。
6.4 知識庫聯盟資源的版權管理
專業學科領域知識庫聯盟數據來源的多樣性決定了不同類型資源受到不同的版權限制,各種機構庫資源在大數據中心過濾的過程中應標注有無版權的著錄,有版權文獻可以設置為對生物醫學知識庫聯盟用戶開放,其他機構用戶可以進行DOI跳轉后瀏覽[8]。同時,相關職能部門要考慮構建以專業學科領域知識庫聯盟為基礎的版權管理制度以及與之相關的法律法規,從而最大程度地保護知識庫聯盟資源的版權。
6.5 復合型學科人才的培養
面對海量且無序的各專業學科領域的信息,我們缺少復合型學科人才對知識庫聯盟的有序管理以及有效使用、分析數據的工具和技術,這在一定程度上影響了大數據對知識庫聯盟建設事業的推動。為此,我們需要在對相關人員進行數據處理、分析培訓的同時,積極推進交叉學科教育與長遠發展,以便在數據分析、挖掘的開發應用技術上能更好地應對大量數據帶來的復雜性,在專業學科及相關行業方面提供優質服務。
參考文獻:
王波,呂筠,李立明.生物醫學大數據:現狀與展望[J].中華流行病學雜志,2014(6):617-620.
溫華影,高嶺,姚延芳,等.中國生物醫學知識庫(全文版)檢索與應用[J].中國現代醫生,2008(8):147-148.
陳惠芳,徐衛國.大數據視角下醫療行業發展的新思維[J].現代管理科學,2015(4):70-72.
刁羽.大數據環境下高校圖書館嵌入式創客群體信息服務的策略探索[J].圖書館學研究,2016(16):70-75.
醫療類app開發功能需求分析[EB/OL].[2016-03-20].http://www.mdkg.net/iosnews_3227.html.
陳雨杏.我國區域機構知識庫聯盟的構建模式選擇與實施策略[J].圖書館學研究,2011(7):59-63.
潘璇.機構知識庫的非文本信息處理功能探討[J].圖書館理論與實踐,2017(2):44-48.
邵波,陳慧香,劉嘯.基于聯盟的高校機構知識庫的構建研究[J].圖書館學研究,2016(24):33-38.