楊 京 王效岳 白如江(山東理工大學(xué)科技信息研究所 山東淄博 255049)
大數(shù)據(jù)背景下科學(xué)數(shù)據(jù)互操作實(shí)踐進(jìn)展研究
楊京王效岳白如江
(山東理工大學(xué)科技信息研究所山東淄博255049)
摘要:
文章在梳理科學(xué)數(shù)據(jù)互操作的基本概念和最新研究進(jìn)展的基礎(chǔ)上,重點(diǎn)介紹了歐盟科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)項(xiàng)目GRDI2020、美國(guó)安全數(shù)據(jù)研究組織IJIS以及醫(yī)學(xué)數(shù)據(jù)研究所West Health三個(gè)不同性質(zhì)的國(guó)際機(jī)構(gòu)對(duì)科學(xué)數(shù)據(jù)互操作的實(shí)踐研究狀況,進(jìn)而指出目前科學(xué)數(shù)據(jù)互操作實(shí)踐研究中面臨的政策落實(shí)困難、難以制定共同的標(biāo)準(zhǔn)協(xié)議、缺乏定義互操作的共同框架、數(shù)據(jù)質(zhì)量低等問題。關(guān)鍵詞:
大數(shù)據(jù);科學(xué)數(shù)據(jù);互操作;GRDI2020;IJIS;West Health大數(shù)據(jù)時(shí)代的計(jì)算機(jī)和數(shù)字設(shè)備產(chǎn)生并積累了海量的科學(xué)數(shù)據(jù),科學(xué)研究從獨(dú)立、小型的學(xué)術(shù)行會(huì)形態(tài)轉(zhuǎn)移到大規(guī)模、更加互聯(lián)和開明的科學(xué)家群體中。科學(xué)研究范式相應(yīng)發(fā)生了根本性轉(zhuǎn)變,進(jìn)入到基于數(shù)據(jù)密集型計(jì)算的“第四范式”。這一范式的特點(diǎn)是科學(xué)研究建立在掌握盡可能多的科學(xué)數(shù)據(jù)基礎(chǔ)之上。因此,迫切需要將科學(xué)數(shù)據(jù)納入正式的學(xué)術(shù)交流過程,使之成為一種跟文獻(xiàn)一樣可以公開獲取的資源。正如吉姆格雷描述的科學(xué)研究第四范式愿景:“能夠?qū)崿F(xiàn)所有的科學(xué)數(shù)據(jù)和文獻(xiàn)的統(tǒng)一,創(chuàng)建數(shù)據(jù)文獻(xiàn)交互操作的世界,更好的實(shí)現(xiàn)學(xué)術(shù)交流。”
科學(xué)數(shù)據(jù)的互操作正是實(shí)現(xiàn)上述愿景的一個(gè)先決性條件,它幫助實(shí)現(xiàn)跨學(xué)科、跨社區(qū)的學(xué)術(shù)信息交流。CODATA中國(guó)委員會(huì)將科學(xué)數(shù)據(jù)的互操作列為大數(shù)據(jù)時(shí)代支撐科學(xué)研究的共性技術(shù)之一。因此,實(shí)現(xiàn)科學(xué)數(shù)據(jù)的互操作,構(gòu)建基于科學(xué)數(shù)據(jù)的第四范式對(duì)學(xué)術(shù)信息交流和創(chuàng)新具有深遠(yuǎn)的意義。
2.1科學(xué)數(shù)據(jù)互操作概念
大數(shù)據(jù)時(shí)代越來(lái)越需要跨學(xué)科進(jìn)行科學(xué)研究,比如地理觀測(cè)領(lǐng)域依賴于多學(xué)科的科學(xué)數(shù)據(jù)分析,包括水文學(xué)、地質(zhì)學(xué)、農(nóng)學(xué)、地理學(xué)、生物學(xué)、GIS等。但是由于不同學(xué)科的系統(tǒng)和軟件平臺(tái)不同,產(chǎn)生的科學(xué)數(shù)據(jù)在格式、結(jié)構(gòu)、語(yǔ)義關(guān)聯(lián)、準(zhǔn)確度等方面都存在差異。比如水文學(xué)計(jì)量長(zhǎng)度的單位是米,數(shù)據(jù)格式是MIF,而地質(zhì)學(xué)用的是千米,數(shù)據(jù)格式是GML。因此需要對(duì)科學(xué)數(shù)據(jù)實(shí)行必要的轉(zhuǎn)換,實(shí)現(xiàn)就這一過程是科學(xué)數(shù)據(jù)互操作。
科學(xué)數(shù)據(jù)互操作作為整個(gè)互操作問題的一方面,目前還沒有一個(gè)統(tǒng)一的定義,許多學(xué)者立足各自的視角對(duì)其提出了不同的觀點(diǎn)。例如Scott A.Renner教授將科學(xué)數(shù)據(jù)互操作定義為跨越不同組織機(jī)構(gòu)和系統(tǒng)的界限以一種統(tǒng)一、有效的方式正確闡釋和理解科學(xué)數(shù)據(jù)的能力;Maurice教授認(rèn)為科學(xué)數(shù)據(jù)互操作是為有效的信息交流而進(jìn)行的數(shù)據(jù)管理活動(dòng),包括科學(xué)數(shù)據(jù)的清洗、耦合、融合、遷移以及信息提取等;Marijn Janssen教授認(rèn)為科學(xué)數(shù)據(jù)互操作是兩個(gè)或更多的數(shù)據(jù)集相互連接、結(jié)合、處理的能力;Nancy Ide教授等人把科學(xué)數(shù)據(jù)互操作分為語(yǔ)法互操作和語(yǔ)義互操作兩方面。其中,語(yǔ)法互操作是指系統(tǒng)依賴于特定的協(xié)議進(jìn)行相同格式的結(jié)構(gòu)化數(shù)據(jù)交換,通常是通過XML格式和Web服務(wù)技術(shù);語(yǔ)義互操作確保信息以相同的方式進(jìn)行解釋,這要求對(duì)不同本體的共同理解。
根據(jù)以上學(xué)者對(duì)科學(xué)數(shù)據(jù)互操作的不同定義,本文認(rèn)為科學(xué)數(shù)據(jù)互操作強(qiáng)調(diào)把不同格式和結(jié)構(gòu)的數(shù)據(jù)集成在一起操作,可以理解為兩個(gè)或更多的學(xué)科系統(tǒng)之間交換彼此的數(shù)據(jù)集信息并且使用所交換信息的能力。
2.2科學(xué)數(shù)據(jù)互操作最新研究進(jìn)展
大數(shù)據(jù)時(shí)代科學(xué)研究范式的變革要求科學(xué)數(shù)據(jù)是開放和互操作的,它的實(shí)現(xiàn)會(huì)極大推動(dòng)科學(xué)研究的步伐。因此,學(xué)者們對(duì)其研究表現(xiàn)出極大的熱情。會(huì)議方面,“種質(zhì)資源數(shù)據(jù)互操作國(guó)際電子商務(wù)大會(huì)”(2013年12月)與“第八屆加拿大公共安全科學(xué)數(shù)據(jù)互操作研討會(huì)”(2014年11日)相繼召開,科學(xué)家們共同探討了各自領(lǐng)域不同數(shù)據(jù)源和資源的當(dāng)前互操作狀態(tài)以及面對(duì)的問題;2014年4月“語(yǔ)義互操作大會(huì)”在雅典召開,旨在促進(jìn)語(yǔ)義互操作技術(shù)的發(fā)展。
理論研究方面,美國(guó)SAFECOM國(guó)土安全項(xiàng)目以及R.Rezaei教授分別提出了用來(lái)定義和衡量科學(xué)數(shù)據(jù)互操作體系成熟的五個(gè)階段。實(shí)踐探索方面,張曉林教授、JF Ethier教授以及MA Dhuieb教授等針對(duì)不同的應(yīng)用場(chǎng)景構(gòu)建了相應(yīng)的科學(xué)數(shù)據(jù)互操作規(guī)范框架;何克清教授、王芳教授等對(duì)科學(xué)數(shù)據(jù)互操作標(biāo)準(zhǔn)協(xié)議的應(yīng)用進(jìn)行了深入研究。社會(huì)應(yīng)用層面,愛爾蘭Edward Curry教授以美國(guó)Marijn Janssen教授等試圖通過關(guān)聯(lián)數(shù)據(jù)和數(shù)據(jù)組合的方法促進(jìn)科學(xué)數(shù)據(jù)的互操作;日本Majkic Z教授、SB Datta教授等通過構(gòu)建新型的內(nèi)涵數(shù)據(jù)庫(kù)(Intensional RDB)來(lái)實(shí)現(xiàn)大數(shù)據(jù)的互操作。
大量國(guó)際組織、科研機(jī)構(gòu)和政府部門等同樣對(duì)科學(xué)數(shù)據(jù)互操作的研究表現(xiàn)出極大的熱情。因此像歐盟GRDI2020科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)項(xiàng)目、全球空間數(shù)據(jù)基礎(chǔ)建設(shè)GSDI協(xié)會(huì)、美國(guó)安全數(shù)據(jù)研究組織IJIS、科學(xué)和教育組織OGCII、醫(yī)學(xué)數(shù)據(jù)研究機(jī)構(gòu)West Health、Kahua公司等各行各業(yè)均投入巨額經(jīng)費(fèi)致力于科學(xué)數(shù)據(jù)互操作的實(shí)踐研究。歐盟GRDI2020項(xiàng)目、美國(guó)IJIS組織和醫(yī)學(xué)研究所West Health是國(guó)際上三個(gè)比較知名的科學(xué)數(shù)據(jù)設(shè)施建設(shè)機(jī)構(gòu),面對(duì)海量且格式多樣的科學(xué)數(shù)據(jù),其投入大量資金與人力致力于實(shí)現(xiàn)日益增長(zhǎng)的科學(xué)數(shù)據(jù)洪流之間的互操作,并提出了許多卓有成效的科學(xué)數(shù)據(jù)互操作實(shí)踐方案,對(duì)于國(guó)際機(jī)構(gòu)科學(xué)數(shù)據(jù)互操作的實(shí)踐研究具有較高的代表性。
3.1歐盟GRDI2020項(xiàng)目
3.1.1項(xiàng)目簡(jiǎn)介
歐盟GRDI2020(Global Research Data Infrastructures)項(xiàng)目是由歐盟第七框架資助的構(gòu)建科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施項(xiàng)目,該項(xiàng)目旨在2020年實(shí)現(xiàn)全球科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的戰(zhàn)略愿景。2011年1月,GRDI2020項(xiàng)目發(fā)布了《全球科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施:重大數(shù)據(jù)挑戰(zhàn)》報(bào)告。該報(bào)告提出了構(gòu)建全球科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施面臨的主要挑戰(zhàn)和必須解決的問題,并指出為了探索利用海量數(shù)據(jù),必須開發(fā)新型信息化基礎(chǔ)設(shè)施,構(gòu)建管理數(shù)字化、聯(lián)網(wǎng)的科學(xué)數(shù)據(jù)環(huán)境。
3.1.2研究進(jìn)展和戰(zhàn)略目標(biāo)
針對(duì)科學(xué)數(shù)據(jù)互操作,歐盟GRDI2020項(xiàng)目指出科學(xué)數(shù)據(jù)互操作是影響科研合作和科學(xué)數(shù)據(jù)共享的根本性問題,也是科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)中面臨的主要挑戰(zhàn)之一。該項(xiàng)目旨在通過 “共享和共同參與”的戰(zhàn)略來(lái)實(shí)現(xiàn)科學(xué)數(shù)據(jù)的互操作,主要包含:
(1)構(gòu)建共享和綜合的科學(xué)數(shù)據(jù)互操作框架。此框架是一個(gè)綜合的模型,它對(duì)科學(xué)數(shù)據(jù)互操作的所有方面給出統(tǒng)一的定義,涵蓋從技術(shù)層面到組織層面,以及現(xiàn)存的和即將產(chǎn)生的科學(xué)數(shù)據(jù)互操作方法。這樣科研機(jī)構(gòu)就能通過這個(gè)共享的模型形象具體地對(duì)數(shù)據(jù)互操作問題和解決方案進(jìn)行比較,找到最適合自己的方法技術(shù)。該框架應(yīng)該由現(xiàn)存的方案擴(kuò)展而來(lái),比如EIF(European Interoperability Framework)。
(2)制定科學(xué)數(shù)據(jù)互操作的共同標(biāo)準(zhǔn)。歐盟GRDI2020項(xiàng)目指出為機(jī)構(gòu)制定互操作共同標(biāo)準(zhǔn)是實(shí)現(xiàn)科學(xué)數(shù)據(jù)互操作最有效和最理想的方案。針對(duì)不同機(jī)構(gòu)的利益、文化及設(shè)備等方面的差異性,科研機(jī)構(gòu)可以自發(fā)地構(gòu)建小規(guī)模的“事實(shí)上的標(biāo)準(zhǔn)”(De facto standards)。小規(guī)模群體發(fā)展成熟的技術(shù)方案是針對(duì)特定問題的、及時(shí)、合理的,并且是在群體的共同實(shí)踐中達(dá)成一致的。這比在大規(guī)模群體中尋找適合自己的技術(shù)方案要更加高效。
(3)科學(xué)數(shù)據(jù)附有詳細(xì)的溯源信息。這些信息包括科學(xué)數(shù)據(jù)開放的標(biāo)準(zhǔn)、數(shù)據(jù)格式、語(yǔ)義、數(shù)據(jù)進(jìn)行互操作方式等。它為科研人員提供關(guān)于科學(xué)數(shù)據(jù)不同的見解和意見,方便科研人員發(fā)現(xiàn)和再利用科學(xué)數(shù)據(jù)。但溯源信息不是一成不變的,隨著科學(xué)數(shù)據(jù)應(yīng)用學(xué)科和機(jī)構(gòu)的增加,要始終保證科學(xué)數(shù)據(jù)的來(lái)源、隱私、質(zhì)量等隨需要而不斷改變。
(4)創(chuàng)建關(guān)于科學(xué)數(shù)據(jù)互操作的基礎(chǔ)設(shè)施。此基礎(chǔ)設(shè)施作為全球科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的一部分為各機(jī)構(gòu)提供數(shù)據(jù)互操作服務(wù)。此基礎(chǔ)設(shè)施包含數(shù)據(jù)互操作的各種技術(shù)工具和其對(duì)應(yīng)的優(yōu)缺點(diǎn)。基礎(chǔ)設(shè)施包含的數(shù)據(jù)互操作工具和技術(shù)越多,對(duì)數(shù)據(jù)共享和再利用的促進(jìn)作用就越大。但是預(yù)想的基礎(chǔ)設(shè)施只包含綜合的工具和技術(shù),要針對(duì)特定場(chǎng)景的互操作及特定數(shù)據(jù)源的需求創(chuàng)建起來(lái)非常困難。
3.2美國(guó)IJIS組織
3.2.1組織簡(jiǎn)介
IJIS組織是于2001年成立的一個(gè)聯(lián)合政府部門和各私營(yíng)企業(yè)的非盈利性組織,它致力于加強(qiáng)國(guó)家信息安全,提升各級(jí)司法、公共安全和國(guó)土安全部門的信息共享和保護(hù)機(jī)制。IJIS指出,公共安全數(shù)據(jù)的共享和互操作至關(guān)重要,只有及時(shí)、準(zhǔn)確地理解海量和實(shí)時(shí)的安全數(shù)據(jù)才能有效預(yù)防犯罪的發(fā)生。因此,IJIS組織將公共安全科學(xué)數(shù)據(jù)互操作作為其重點(diǎn)項(xiàng)目之一,并專門設(shè)立PSDI(Public Safety Data Interoperability)委員會(huì)負(fù)責(zé)公共安全科學(xué)數(shù)據(jù)互操作的研究工作。
3.2.2研究進(jìn)展和戰(zhàn)略目標(biāo)
PSDI各安全部門已經(jīng)充分認(rèn)識(shí)到科學(xué)數(shù)據(jù)互操作的重要性,認(rèn)為未來(lái)幾年科學(xué)數(shù)據(jù)互操作將徹底改變公共安全通信中心的作用。PSDI指出公共安全科學(xué)數(shù)據(jù)互操作是指安全部門能夠使用定義明確的并且被高度重復(fù)使用的操作流程來(lái)交換不同格式的數(shù)字信息。實(shí)現(xiàn)科學(xué)數(shù)據(jù)互操作的關(guān)鍵在于為各安全部門制定一個(gè)共同的標(biāo)準(zhǔn)協(xié)議,具體如下:
(1)PSDI將公共安全科學(xué)數(shù)據(jù)互操作形式分為結(jié)構(gòu)化科學(xué)數(shù)據(jù)互操作和非結(jié)構(gòu)化科學(xué)數(shù)據(jù)互操作兩種。結(jié)構(gòu)化科學(xué)數(shù)據(jù)互操作是指通信中心與其它相關(guān)部門如警察、消防、醫(yī)院等之間的數(shù)據(jù)交換;非結(jié)構(gòu)化的科學(xué)數(shù)據(jù)互操作是指通信中心與廣大市民、私營(yíng)部門、政治領(lǐng)導(dǎo)等之間的數(shù)據(jù)交換,它涉及各種普遍的數(shù)據(jù)格式如圖像、視頻、音頻、文字等之間的交換。
(2)PSDI要求科學(xué)數(shù)據(jù)互操作必須為原生數(shù)據(jù)生產(chǎn)方制定一個(gè)共同的標(biāo)準(zhǔn)協(xié)議,協(xié)議規(guī)定以下幾點(diǎn)關(guān)鍵問題:對(duì)于結(jié)構(gòu)化科學(xué)數(shù)據(jù)的互操作,應(yīng)該有一本“數(shù)據(jù)字典”來(lái)制定統(tǒng)一的詞匯和語(yǔ)法,這樣就能統(tǒng)一規(guī)定進(jìn)行互操作的數(shù)據(jù)格式;對(duì)于非結(jié)構(gòu)化科學(xué)數(shù)據(jù)互操作,生產(chǎn)方應(yīng)該為圖片、音頻、視頻等格式的數(shù)據(jù)設(shè)定一個(gè)常用的文件格式;對(duì)于所有類型的科學(xué)數(shù)據(jù)互操作,必須規(guī)定明確的操作流程,使其按照同樣的操作流程完成。
(3)IJIS組織使用了NIME作為政府和企業(yè)的科學(xué)數(shù)據(jù)互操作標(biāo)準(zhǔn)協(xié)議。NIME目前已發(fā)展到3.0版本,它為所有安全部門提供共享數(shù)據(jù)的互操作標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)在這些部門的具體實(shí)踐中發(fā)展而來(lái),貫穿科學(xué)數(shù)據(jù)互操作的整個(gè)生命周期。首先,它作為“數(shù)據(jù)字典”,里面規(guī)定了關(guān)于科學(xué)數(shù)據(jù)已經(jīng)在各部門間達(dá)成一致的術(shù)語(yǔ)、定義、關(guān)系、格式等,比如在數(shù)據(jù)格式上全部使用XSD和EXCEL格式。其次,NIME提供關(guān)于科學(xué)數(shù)據(jù)互操作結(jié)構(gòu)化的方法、技術(shù)工具以及操作流程等。NIME保證了安全部門人員能夠準(zhǔn)確、及時(shí)、完全的獲取關(guān)鍵信息,加速了信息決策。
3.3West Health醫(yī)學(xué)研究所
3.3.1研究所簡(jiǎn)介
West Health是位于美國(guó)華盛頓的一個(gè)獨(dú)立的非盈利性醫(yī)學(xué)研究機(jī)構(gòu)。West Health與其它研究機(jī)構(gòu)共同合作,探討和研究如何讓獨(dú)立系統(tǒng)的重要醫(yī)學(xué)科學(xué)數(shù)據(jù)實(shí)現(xiàn)互操作,以開拓更前沿、精湛的醫(yī)療技術(shù)、政策和設(shè)施,使人們能夠以低廉的價(jià)格享受到高品質(zhì)的醫(yī)療服務(wù)。
3.3.2研究進(jìn)展和戰(zhàn)略目標(biāo)
2013年3月,West Health經(jīng)過調(diào)查指出實(shí)現(xiàn)醫(yī)療科學(xué)數(shù)據(jù)的互操作能夠在醫(yī)療系統(tǒng)方面每年至少節(jié)省300億美元。但是現(xiàn)在由于缺乏科學(xué)數(shù)據(jù)互操作,科學(xué)數(shù)據(jù)存在于獨(dú)立的系統(tǒng)中無(wú)法互通,醫(yī)療設(shè)備不能共同操作,醫(yī)療人員在技術(shù)上花費(fèi)的精力比在病人身上多,嚴(yán)重束縛了治療決策。為了解決上述問題,West Health專門成立了 “醫(yī)療互操作中心”加大對(duì)醫(yī)學(xué)科學(xué)數(shù)據(jù)互操作的研究。
West Health指出實(shí)現(xiàn)科學(xué)數(shù)據(jù)互操作需要所有相關(guān)利益者參與進(jìn)來(lái)、共同合作。所有醫(yī)療機(jī)構(gòu)以及協(xié)議的制定機(jī)構(gòu)應(yīng)該遵循以下六個(gè)關(guān)鍵步驟來(lái)實(shí)現(xiàn):
(1)認(rèn)識(shí)到缺乏科學(xué)數(shù)據(jù)互操作是一個(gè)危機(jī),盡快做出改變。所有相關(guān)利益者必須充分認(rèn)識(shí)到科學(xué)數(shù)據(jù)互操作在醫(yī)療安全、效率和資金花費(fèi)等方面的重要性,集體參與進(jìn)來(lái)并迅速做出以下改變:協(xié)議制定機(jī)構(gòu)召集所有相關(guān)利益者為科學(xué)數(shù)據(jù)互操作制定共同標(biāo)準(zhǔn)協(xié)議。所有醫(yī)療機(jī)構(gòu)停止繼續(xù)使用專有系統(tǒng);不再購(gòu)買不能連接的系統(tǒng)和一次性訪問接口;開始基于開放標(biāo)準(zhǔn)的互操作協(xié)議進(jìn)行采購(gòu)。
(2)正確認(rèn)識(shí)科學(xué)數(shù)據(jù)互操作問題。醫(yī)療設(shè)備每天都在產(chǎn)生可以用來(lái)提高醫(yī)療服務(wù)的海量科學(xué)數(shù)據(jù),但是設(shè)備之間相互獨(dú)立,不能連接和共享數(shù)據(jù)。我們需要一種可靠的方式實(shí)現(xiàn)跨設(shè)備、跨醫(yī)療系統(tǒng)、跨地區(qū)的科學(xué)數(shù)據(jù)共享和互操作。因此,要為設(shè)備供應(yīng)商設(shè)置一個(gè)可預(yù)見的技術(shù)路線圖,強(qiáng)調(diào)科學(xué)數(shù)據(jù)共享和互操作的中心作用;各機(jī)構(gòu)開始共享科學(xué)數(shù)據(jù)來(lái)確保科學(xué)數(shù)據(jù)互操作協(xié)議的有效執(zhí)行。
(3)加快對(duì)明確的可持續(xù)數(shù)據(jù)互操作標(biāo)準(zhǔn)協(xié)議的采用。協(xié)議制定機(jī)構(gòu)要發(fā)展明確的、能夠解決互操作問題的標(biāo)準(zhǔn),同時(shí)保持標(biāo)準(zhǔn)和技術(shù)方法的現(xiàn)代化,不要停留在舊技術(shù)階段以免阻礙了標(biāo)準(zhǔn)的創(chuàng)新。各相關(guān)利益者參與到標(biāo)準(zhǔn)的制定中去,確保標(biāo)準(zhǔn)能夠滿足自己的需求。
(4)確保科學(xué)數(shù)據(jù)的有效性、隱私性和安全性。各醫(yī)療機(jī)構(gòu)用一種系統(tǒng)工程方法來(lái)保證自身醫(yī)療系統(tǒng)數(shù)據(jù)的有效性、隱私性和安全性。協(xié)議制定機(jī)構(gòu)在制定標(biāo)準(zhǔn)協(xié)議時(shí)同樣要充分保證機(jī)構(gòu)數(shù)據(jù)的有效性、隱私性和安全性。
(5)為醫(yī)院、衛(wèi)生系統(tǒng)和醫(yī)務(wù)人員減少技術(shù)復(fù)雜性。目前醫(yī)院在設(shè)備集成上面對(duì)太多的障礙和復(fù)雜性,導(dǎo)致醫(yī)療人員不得不在技術(shù)上花費(fèi)比病人身上更多的時(shí)間和精力。因此,醫(yī)療機(jī)構(gòu)要杜絕使用為醫(yī)護(hù)人員增加負(fù)擔(dān)或復(fù)雜流程的技術(shù)。協(xié)議制定機(jī)構(gòu)創(chuàng)建的標(biāo)準(zhǔn)要保證機(jī)構(gòu)以統(tǒng)一的方式來(lái)鏈接和訪問數(shù)據(jù)。開發(fā)更簡(jiǎn)單、更容易實(shí)現(xiàn)、更方便使用和更現(xiàn)代化的標(biāo)準(zhǔn)。
(6)根據(jù)互操作標(biāo)準(zhǔn)協(xié)議開發(fā)新的技術(shù)方法使用數(shù)據(jù)流。醫(yī)療設(shè)備時(shí)刻在產(chǎn)生大量數(shù)據(jù)流,需要把原始科學(xué)數(shù)據(jù)轉(zhuǎn)化為有用的信息。先進(jìn)的數(shù)據(jù)分析工具能對(duì)數(shù)據(jù)流進(jìn)行更好的挖掘。
通過以上三大國(guó)際機(jī)構(gòu)針對(duì)各自狀況給出了具體的科學(xué)數(shù)據(jù)互操作實(shí)踐方案(見表1)。
可以看出,科學(xué)數(shù)據(jù)互操作包含多方面的任務(wù),需要多方的共同努力。
首先,各相關(guān)利益方應(yīng)該采取更加開放的心態(tài)與政策,其系統(tǒng)要足夠開放以實(shí)現(xiàn)與不同利益方的不同系統(tǒng)在不同層次上的互聯(lián);各方對(duì)于其產(chǎn)生的科學(xué)數(shù)據(jù)應(yīng)該附有詳細(xì)的溯源信息,以幫助數(shù)據(jù)利用者對(duì)科學(xué)數(shù)據(jù)質(zhì)量和語(yǔ)義的評(píng)估。
其次,制定標(biāo)準(zhǔn)協(xié)議仍是大數(shù)據(jù)時(shí)代解決科學(xué)數(shù)據(jù)互操作問題的重點(diǎn)和關(guān)鍵。對(duì)于標(biāo)準(zhǔn)協(xié)議的制定機(jī)構(gòu)而言,應(yīng)充分調(diào)查和比較相關(guān)利益方選用的元數(shù)據(jù)方案、技術(shù)平臺(tái)、協(xié)議規(guī)范等異同點(diǎn),并根據(jù)多方主體對(duì)科學(xué)數(shù)據(jù)互操作的需求設(shè)計(jì)針對(duì)不同應(yīng)用場(chǎng)景的、簡(jiǎn)單易實(shí)現(xiàn)的互操作方案,避免反復(fù)定義標(biāo)準(zhǔn)協(xié)議導(dǎo)致互操作更加復(fù)雜和混亂。

表1 國(guó)際機(jī)構(gòu)科學(xué)數(shù)據(jù)互操作實(shí)踐方案
再次,開發(fā)與使用先進(jìn)的數(shù)據(jù)處理技術(shù)與工具將有效促進(jìn)科學(xué)數(shù)據(jù)互操作的實(shí)現(xiàn)。大數(shù)據(jù)時(shí)代,僅靠過去單一的技術(shù)與工具已不能勝任海量數(shù)據(jù)的處理,我們需要更加善于開發(fā)相關(guān)的技術(shù)和工具,以支持從數(shù)據(jù)采集、清洗、管理、分析等整個(gè)數(shù)據(jù)處理周期。而這些工具與技術(shù)的使用,必定為科學(xué)數(shù)據(jù)互操作的實(shí)現(xiàn)提供強(qiáng)大的幫助和支持。
4.1科學(xué)數(shù)據(jù)開放政策落實(shí)困難
科學(xué)數(shù)據(jù)的開放與互操作是相輔相成的,科學(xué)數(shù)據(jù)開放是數(shù)據(jù)進(jìn)行互操作的前提,數(shù)據(jù)互操作對(duì)科學(xué)研究的巨大促進(jìn)作用促使各機(jī)構(gòu)將科學(xué)數(shù)據(jù)開放。盡管有很多關(guān)于數(shù)據(jù)開放和數(shù)據(jù)共享的政策,但落實(shí)情況并不盡如人意。據(jù)調(diào)查,目前僅有25%的科學(xué)數(shù)據(jù)實(shí)現(xiàn)了共享,并且科研機(jī)構(gòu)對(duì)待科學(xué)數(shù)據(jù)跨學(xué)科開放的態(tài)度一直在變化。
中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心侯艷飛工程師指出,科研激勵(lì)機(jī)制,知識(shí)產(chǎn)權(quán)問題,國(guó)家安全、機(jī)密和隱私保護(hù)問題,成本問題,個(gè)體心理和組織文化問題以及有關(guān)技術(shù)和基礎(chǔ)設(shè)施問題是數(shù)據(jù)科學(xué)時(shí)代制約科學(xué)數(shù)據(jù)開放政策落實(shí)的主要因素。
4.2難以制定科學(xué)數(shù)據(jù)互操作共同標(biāo)準(zhǔn)協(xié)議
科學(xué)實(shí)驗(yàn)過程中,對(duì)科學(xué)數(shù)據(jù)的收集、處理、管理和歸檔等往往由不同的人按照各自的目的使用多種系統(tǒng)完成。系統(tǒng)和方法的多樣性使得科學(xué)數(shù)據(jù)的格式、結(jié)構(gòu)、語(yǔ)義關(guān)聯(lián)、規(guī)模等方面千差萬(wàn)別。因此,必須制定標(biāo)準(zhǔn)協(xié)議對(duì)數(shù)據(jù)格式、通信協(xié)議、軟件接口以及互操作的方法和技術(shù)工具等一系列要素進(jìn)行結(jié)構(gòu)化的統(tǒng)一。
但是由于不同機(jī)構(gòu)的利益、文化、設(shè)備等眾多方面的差異以及資金等問題,共同標(biāo)準(zhǔn)協(xié)議很難達(dá)成一致,并且其服務(wù)的范圍越廣,制定起來(lái)就越復(fù)雜和困難。各研究機(jī)構(gòu)一致認(rèn)為缺乏基于開放標(biāo)準(zhǔn)的共同協(xié)議是制約科學(xué)數(shù)據(jù)互操作實(shí)現(xiàn)的最大障礙。
4.3缺乏定義科學(xué)數(shù)據(jù)互操作的共同框架
目前各學(xué)科和機(jī)構(gòu)之間沒有對(duì)科學(xué)數(shù)據(jù)互操作的各方面形成明確的定義和統(tǒng)一的結(jié)構(gòu)體系。歐盟GRDI項(xiàng)目指出,缺乏定義科學(xué)數(shù)據(jù)互操作的共同框架看似微不足道,其實(shí)是阻礙科學(xué)數(shù)據(jù)互操作發(fā)展的一個(gè)根本問題,它導(dǎo)致了科學(xué)數(shù)據(jù)互操作體系不能協(xié)同地朝著共同的戰(zhàn)略和方法發(fā)展。
科學(xué)研究中會(huì)不可避免地進(jìn)行科學(xué)數(shù)據(jù)互操作,如果有定義科學(xué)數(shù)據(jù)互操作方法和技術(shù)的框架,科研機(jī)構(gòu)就能尋找到其它機(jī)構(gòu)已經(jīng)發(fā)展成熟的技術(shù)方法來(lái)解決自己的問題,避免了這些發(fā)展成熟的技術(shù)方法只局限在某一學(xué)科或機(jī)構(gòu)。
4.4科學(xué)數(shù)據(jù)質(zhì)量低影響互操作的有效性
大數(shù)據(jù)時(shí)代的科學(xué)數(shù)據(jù)產(chǎn)生速度、規(guī)模和復(fù)雜度的增加更容易產(chǎn)生各種類型的誤差和錯(cuò)誤。科學(xué)數(shù)據(jù)質(zhì)量的多樣性,包括不正確、不完整、不精確、不相關(guān)、不及時(shí)等對(duì)數(shù)據(jù)的有效性和實(shí)驗(yàn)結(jié)果會(huì)產(chǎn)生很大的影響。當(dāng)數(shù)據(jù)質(zhì)量低時(shí),即使是相同結(jié)構(gòu)的數(shù)據(jù)庫(kù)進(jìn)行科學(xué)數(shù)據(jù)互操作時(shí)也會(huì)出現(xiàn)問題。
中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心黎建輝主任指出,目前數(shù)據(jù)質(zhì)量理論和技術(shù)的研究在識(shí)別數(shù)據(jù)錯(cuò)誤的理論和模型、定位和自動(dòng)發(fā)現(xiàn)數(shù)據(jù)錯(cuò)誤的技術(shù)和方法以及高修復(fù)錯(cuò)誤數(shù)據(jù)的技術(shù)等各方面都面臨著挑戰(zhàn)。半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量、統(tǒng)一的數(shù)據(jù)質(zhì)量邏輯框架、分布式數(shù)據(jù)清洗等更是其中突出的挑戰(zhàn)性問題。
大數(shù)據(jù)時(shí)代的科學(xué)研究范式發(fā)生根本性變革,實(shí)現(xiàn)科學(xué)數(shù)據(jù)的共享和互操作,構(gòu)建基于科學(xué)數(shù)據(jù)的、開放協(xié)同的科學(xué)研究新范式能夠極大推動(dòng)學(xué)術(shù)信息交流,加速科學(xué)研究發(fā)現(xiàn)與創(chuàng)新的步伐。
本文詳細(xì)介紹了歐盟科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)項(xiàng)目GRDI2020、美國(guó)安全數(shù)據(jù)研究組織IJIS以及醫(yī)學(xué)數(shù)據(jù)研究所West Health三個(gè)具有代表性的國(guó)際機(jī)構(gòu)對(duì)科學(xué)數(shù)據(jù)互操作的實(shí)踐研究狀況,發(fā)現(xiàn)科學(xué)數(shù)據(jù)互操作的實(shí)現(xiàn)需要多方的共同努力,制定基于開放標(biāo)準(zhǔn)的共同協(xié)議仍是大數(shù)據(jù)時(shí)代實(shí)現(xiàn)科學(xué)數(shù)據(jù)互操作的關(guān)鍵,開發(fā)與使用先進(jìn)的數(shù)據(jù)處理技術(shù)與工具將有效促進(jìn)科學(xué)數(shù)據(jù)互操作的實(shí)現(xiàn)。最后指出了目前科學(xué)數(shù)據(jù)互操作實(shí)踐研究面臨的主要問題,包括科學(xué)數(shù)據(jù)開放政策落實(shí)困難、難以制定科學(xué)數(shù)據(jù)互操作的共同標(biāo)準(zhǔn)協(xié)議、缺乏定義科學(xué)數(shù)據(jù)互操作的共同框架、科學(xué)數(shù)據(jù)質(zhì)量低影響互操作的有效性等。
參考文獻(xiàn):
[1]GRAY J.Jim Gray on e-Science:a transformed scientific method[R].Microsoft Research,2007:1-16.
[2]CODATA中國(guó)全國(guó)委員會(huì).大數(shù)據(jù)時(shí)代的科研活動(dòng)[M].北京:科學(xué)出版社,2014:149,207.
[3]Renner S.A community of interest approach to data interoperability[J].Federal Database Colloquium,2001:1-2.
[4]van Keulen M.Managing uncertainty:The road towards better data interoperability[J].it-Information Technology Methoden und innovative Anwendungen der Informatik und Informationstechnik,2012,54(3):138-146.
[5]Janssen M,Estevez E,Janowski T.Interoperability in Big,Open,and Linked Data--Organizational Maturity,Capabilities,and Data Portfolios[J].Computer,2014,47(10):44-49.
[6]Ide N,Pustejovsky J.What does interoperability mean,anyway?Toward an operational definition of interoperability for language technology[C].Proceedings of the Second International Conference on Global Interoperability for Language Re sources.Hong Kong,China.2010.
[7]種質(zhì)資源數(shù)據(jù)互操作國(guó)際電子商務(wù)大會(huì) [EB/OL].[2014-11-20].https://rd-alliance.org/group/agriculture-data-interest-group-igad/post/international-e-conference-germplasm-data.
[8]第八屆加拿大公共安全數(shù)據(jù)互操作研討會(huì)[EB/OL].[2014-12-01].http://www.citig.ca/the-eighth-canadian-public-safe ty-interoperability-workshop-2014-11-30.aspx.
[9]語(yǔ)義互操作大會(huì)[EB/OL].[2014-12-01].https://rd-alliance.org/semic-2014-semantic-interoperability-conference.html.
[10]Interoperability Continuum[EB/OL].[2014-11-15].http://www.safecomprogram.gov/oec/interoperability_continuum_broch ure_2.pdf.
[11]R.Rezaei et al.Interoperability Evaluation Models:A Systematic Review[J].Computers in Industry,2014,65(1):1-23.
[12]梁娜,張曉林.機(jī)構(gòu)知識(shí)庫(kù)的互操作需求和互操作規(guī)范框架[J].現(xiàn)代圖書情報(bào)技術(shù),2013(9):1-7.
[13]Ethier J F,Dameron O,Curcin V,et al.A unified structural/terminological interoperability framework based on LexEVS: application to TRANSFoRm[J].Journal of the American Medical Informatics Association,2013:amiajnl-2012-001312.
[14]Dhuieb M A,Belkadi F,Laroche F,et al.Interoperability framework for supporting information-based assistance in the factory[C].The IFIP Working Group WG 5.1 11th International Conference on Product Lifecycle Managment,2014.
[15]何克清,王翀.大數(shù)據(jù)表示與服務(wù)的語(yǔ)義互操作方法及其標(biāo)準(zhǔn)[J].信息技術(shù)與標(biāo)準(zhǔn)化,2013(10):10-13.
[16]王芳,王小麗.基于OAI協(xié)議的數(shù)字檔案館元數(shù)據(jù)互操作問題研究[J].現(xiàn)代圖書情報(bào)技術(shù),2007(3):18-24.
[17]Curry E.System of systems information interoperability using a linked dataspace[C].SoSE,2012:101-106.
[18]Majkic Z.Intensional RDB for Big Data Interoperability[J].arXiv preprint arXiv:1403.6089,2014.
[19]Datta S B,Gupta V K.Performance Interoperability between RDBs and OODBs[J].Research Journal of Recent Sciences,2012(1):2502.
[20]歐盟-GRDI2020[DB/OL].[2014-11-20].http://www.grdi2020.eu/.
[21]Pasquale Pagano,Leonardo Candela,Donatella Castelli.Data Interoperability[J].Data Science Journal,2013(6/7):22-22.
[22]De facto standards-Wikipedia[EB/OL].[2014-11-20].https://en.wikipedia.org/wiki/De_facto_standard.
[23]美國(guó)IJIS組織[DB/OL].[2014-11-20].http://www.ijis.org/.
[24]Scott Parker,Steve Wisely.Guide to information sharing and data interoperability[R].PSDI,2009:2-3.
[25]NIME[DB/OL].[2014-10-20].http://www.niem.gov.
[26]West Health醫(yī)學(xué)研究所[DB/OL].[2014-11-25].http://www.westhealth.org/institute/who-we-are.
[27]Dr.Joseph Smith,Dr.Doug Fridsma.Igniting an interoperable healthcare system[R].West Health,2014:6-7.
[28]Data Policy-歐盟[EB/OL].[2014-11-25].https://www.jstage.jst.go.jp/article/dsj/12/0/12_GRDI-008/_pdf.
中圖分類號(hào):
G203文獻(xiàn)標(biāo)識(shí)碼:
ADOI:
10.11968/tsygb.1003-6938.2015069作者簡(jiǎn)介:
楊京(1990-),男,山東理工大學(xué)科技信息研究所碩士研究生;王效岳(1961-),男,山東理工大學(xué)科技信息研究所教授;白如江(1979-),男,山東理工大學(xué)科技信息研究所副研究館員。收稿日期:
2015-03-26;責(zé)任編輯:劉全根A Review on Data Interoperability in Big Data Time
Abstract
Based on the basic concepts and latest research progress of scientific data interoperability,three different international organizations of scientific data interoperability's practice conditions are introduced,that is the research data infrastructure project GRDI2020、American safety data research organization IJIS and the medical research institution West Health.The main problems of scientific data interoperability are pointed out.Key words
big data;scientific;data interoperability;GRDI2020;IJIS;West Health