999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

開放科學背景下科學數據開放共享安全挑戰及我國對策思考

2024-12-01 00:00:00廖方宇李婧龍春楊帆袁梓萌
農業大數據學報 2024年2期

摘要:科學數據是戰略性、基礎性科技資源,深刻影響著各國的國家安全、經濟發展和科技進步綜合競爭力。在開放科學背景下,科學數據作為數據密集型科學研究范式的成果及重要支撐的同時,也面臨著安全合規、可信可靠共享方面嚴峻的安全挑戰。筆者從我國科學數據共享面臨的安全挑戰出發,以促進科學數據開放共享為目標,以構建動態、細粒度、領域適用的數據分類分級制度為核心,從政策、管理、技術、評估和監管等方面,提出科學數據安全戰略,促進科學數據安全開發利用,實現科技強國的目標。

關鍵詞:開放科學;科學數據;開放共享;安全挑戰及對策

1 "引言

開放科學是全球各國的共同承諾,以公平、共享、創新的理念成為構建人類命運共同體的重要路徑。傳統科學是相對封閉的科研活動,研究數據、過程和成果僅在有限范圍內共享。開放科學實現科研全過程、科研資源的開放共享,消除信息不對稱,使得研究成果更易產生廣泛的影響和協同創新,促進科研活動、科研成果評價與激勵機制向公平、透明方向穩步邁進、開放數據、開放研究、開放創新、開放基礎設施、開放教育、開放同行評議、開放合作、公眾科學、開放源代碼和軟件等諸多環節。全球范圍內,聯合國教科文組織(UNESCO)致力于踐行開放科學理念,推動科學活動更加開放、透明和包容。2021 年,UNESCO發布《開放科學建議書》,成為全球開放科學的指導性框架,幫助開展開放科學行動,促進形成可交付成果[1]。經過兩年多的跟蹤調研,UNESCO于2023年12月發布報告《開放科學展望(Open Science Outlook)[1]》顯示,開放科學在學術出版、數據共享、開源軟件、開放獲取和開放合作等領域取得重要進展。“開放科學”這一術語于1998年由史蒂夫·曼正式提出,經過20多年的發展,從數據、資源、基礎設施的開放獲取到社會公眾參與科學研究,開放科學內涵不斷擴展,包括開放獲取研究計劃等多個方面取得實質性進展,對科學研究、技術創新都產生了重要影響。2012-2021年近十年來,科學出版物的開放獲取份額保持增長趨勢,在發表論文引文中,約42%可公開獲取,在2002-2011年間,這一份額僅為24%。2019年開始的新冠肺炎大流行進一步推動了全球開放科學格局的轉變,開放基因組數據為全球COVID-19研究提供了強大支持,科學界通力協作,共享資源、科學成果,共同應對全球危機,展示了開放數據在應對重大公共衛生事件中的重要作用,凸顯了開放科學在科研中的關鍵價值。

2 "國內外科學數據開放共享現狀

科學數據作為開放科學的重要成果及開放形式,在推動科研范式變革及“數據+人工智能”驅動的科學知識發現方面具有核心及不可替代的作用。

當前,全球科學數據開放共享整體水平并不均衡。美國、歐盟及英國等國憑借多年政策推動和實踐積累,表現較為突出。聯合國教科文組織(UNESCO)發布的《2023年開放科學展望:全球狀態與趨勢》報告指出,全球范圍內開放科學的實踐并不均衡,在國家和地區之間存在差異,在獲取資金、技能和工具方面存在不平等。報告認為,要使開放科學發揮其潛力,必須采取集體、協作和協調的行動和投資,加速向真正全球、公平的開放科學的轉變。據報告統計,目前,西歐和北美開放獲取存儲庫和開放數據存儲庫占全球總量的近85%。美國長期以來一直將數據開放共享作為一項重要的國家戰略。2022年8月25日,美國白宮科技政策辦公室(OSTP)發布最新政策指南,所有聯邦政府資助的研究成果(包括學術出版物和科學數據等),最遲于 2025 年 12 月 31 日立即免費向公眾開放。美國自2009年起就開始推動政府數據開放,建立了全球首個多源統一的政府數據開放平臺,在政府數據開放、流通以及開發應用方面走在前列。歐洲開放科學云(EOSC)提供了面向研究社區的開放服務,用于存儲、管理、分析和再利用研究數據,從2015年提出至今,為180萬歐洲研究人員和7000萬科學技術領域的專業人員提供了豐富的資源和工具,包括軟件工具、研究數據等,以促進創新和教育。歐盟委員會2023年發布了《2023-2024年數字歐洲工作計劃》,計劃投入1.13億歐元用于提升數據與計算能力,擴大數據共享水平等。2023年6月,英國科研與創新署(UKRI)宣布投資7200萬英鎊用于升級多項研究基礎設施,資助來自UKRI的基礎設施基金和數字研究基礎設施計劃,將重點推動科研數據的共享和利用。日本政府發布了“統合創新戰略2023”,開放科學和數據驅動的研究活動被作為重要組成部分,強調促進科研數據的管理和靈活應用。J-STAGE作為日本主流的國家級學術開放出版平臺,有超過1500家學/協會組織將3000多種期刊的論文、會議記錄、統計調查數據以及研究報告等文獻資料公布在J-STAGE平臺上,其中絕大部分內容可供全世界用戶免費獲取,同時,還致力于探索日本開放獲取期刊高質量發展的路徑[2]。2021年,澳大利亞發布了《政府間數據共享協議》,為澳大利亞聯邦、州和地區政府間的數據共享行為提供了法律依據。2022年6月,澳大利亞科學院發布《澳大利亞數據驅動的未來科研》報告,進一步強調了數據在科研中的基礎作用。我們看到世界各國政府及機構已經開展了大量實踐,全球科學數據開放共享的趨勢正在加速,這些趨勢不僅促進了科學數據的開放和利用,而且有助于推動開放科學的文化變革。我國在推動科學數據開放共享方面取得積極進展。2018年4月,我國首次從國家層面,發布關于科學數據開放共享的指導文件——《科學數據管理辦法》,明確指出要促進科學數據開放共享。中國科學院作為科學數據及相關基礎設施開放共享主體,2019年正式發布《中國科學院科學數據管理與開放共享辦法》,指導全院的科學數據共享工作,全力支持國家大數據戰略。2023年11月,國家數據局聯合17部門共同發布《數據要素×三年行動計劃(2024—2026年)》,旨在推動科學數據的有序開放共享,并發揮科學數據的聚合價值。2024年,兩會委員提出建立科研論文及相關數據即時匯繳共享機制,以及建立和完善科學數據的管理制度體系。目前,我國20個國家級科學數據中心和30個國家生物種質與實驗材料資源庫已匯聚了大量的科學數據、軟件、工具、方法等資源,形成了開放科學的土壤。我國在開放科學數據、數據共享領域的積極努力受到了廣泛的認可和關注。由施普林格·自然與中國科學院計算機網絡信息中心共同發布的《2023中國開放數據白皮書》統計,我國有50%的對地觀測科學數據機構提供免費數據開放共享服務,免費開放數據資源占數據總量的47%,總用戶數超過53萬人,服務機構超過12萬家,總數據量超過293PB,其中直接下載使用的數據量達149PB [3]。截至2023年8月,中科院院級項目科學數據匯交管理平臺(https://dmp.casdccn/)匯交數據資源總量達到10205 TB,已匯交數據開放性達87.2%(完全公開56.5%,保護期10.6%,有條件公開20%)。平臺已覆蓋164家研究機構,吸引了2039名科學家個人或團隊熟悉開放科學技能,成為數據作者,初步形成由一線科學家組成的高水平數據作者團隊,為形成高度活躍和可持續的科學數據共享生態奠定基礎[3]。

3 "科學數據安全可信、可靠、合規開放共享的重要性

科學數據的安全可信、可靠、合規開放共享是基本的安全需求,對科學發現、決策制定、知識傳承以及技術革新起到關鍵性作用。科學數據共享的可信性(Trustworthiness)主要指的是確保數據及數據來源的真實性、準確性和完整性,以及可靠性和信譽。這包括數據生成和處理的透明度,以及確保數據不被篡改或污染。可靠性(Reliability)主要涉及數據的質量和穩定性,確保數據在需要時可用,并且數據共享平臺能夠持續運行,不受技術故障或外部攻擊的影響。合規性(Compliance)主要指的是確保數據共享活動遵守相關的法律法規、政策標準和社會倫理要求,包括數據保護法律、個人隱私、知識產權法規、跨境數據傳輸規定等。通過合規地共享可信、可靠的科學數據,促進不同國家、地域、領域、學科的科研成果協同創新、互相驗證,建立科研誠信,推動持續的科研合作與交流,提升科研公信力。決策機構通過獲取可信、可靠的科學數據,更加準確地制定政策或規劃,提高決策的科學性和有效性。科學數據作為寶貴的史料資源,其可信、可靠的記錄或傳播,是促進知識的傳承,推動人類文明的進步的重要途徑。這三個方面相互關聯,共同構成了科學數據開放共享的安全框架,旨在保護數據、維護隱私、促進公平使用,支持負責任的科學研究。

全球各國普遍認同發展與安全協同并進是科學數據開放共享的兩個相輔相成的目標,也是當前在可信、可靠、合規開放共享等方面面臨的困難和挑戰。法律法規是規范科學數據安全有序共享的準繩。美國在推動科學數據開放共享的同時,非常重視個人隱私保護和數據安全。2023年3月,美國OSTP發布《促進數據共享與分析中的隱私保護國家戰略》,強調發展支持隱私保護的數據共享和分析技術(PPDSA)的重要性,旨在最大化數據潛力,同時降低風險和促進信任。2022年6月,歐盟《數據治理法案(DGA)》正式生效,旨在通過提高對數據中介的信任,增強整個歐盟的數據共享機制,從而提升數據的可用性、可信性。《通用數據保護條例(GDPR)》對歐盟各成員國都產生了深厚的影響,針對個人數據保護設立了嚴格的標準,確保個人數據的安全和隱私得到保護。英國政府于2024年提出《數據保護與數字信息法案(DPDIB)》法案,旨在精細調整和明確GDPR原則,更新并簡化英國的數據保護框架,同時保持高數據保護標準。我國也發布明確的法規政策,包括《中華人民共和國個人信息保護法》(2021年)從立法層面提出對個人數據的保護;《科學數據管理辦法》《中國科學院科學數據管理與開放共享辦法》提出科學數據應遵循分級管理原則,確定各級別/類別數據的開放共享條件,強調了數據中心對科學數據進行分級分類的職責;《網絡安全法》《數據安全法》《個人信息保護法》均明確提出對數據實行分類分級保護,確立數據分類分級保護制度的要求。

研究機構和高校作為開放數據的主體,致力于從科學數據安全管理、個人信息保護、科研誠信、科研倫理、知識產權保護等方面,促進科學數據的安全有序開放共享,保障國家、機構和個人的合法權益。耶魯大學發布《數據分類政策(Data Classification Policy)》,著力從分類分級保護入手,實現數據分級管理方面的有效性。哈佛大學《通用數據保護條例(GDPR)研究指南(General Data Protection Regulation (GDPR) Research Guidance)》《個人數據保護人類基因組數據共享政策與程序(Policy and Procedures for Human Genomic Data Sharing)》,美國耶魯大學《人類研究記錄與生物標本保存與轉移(Human Research Record and Biological Specimen Retention and Transfer)》,英國愛丁堡大學《數據保護指南(Data Protection Handbook)》《數據保護影響評估指南個人數據保護(Data Protection Impact Assessment Guidance)》,加拿大多倫多大學《在調查研究中個人隱私保護最佳實踐(Best Practices for Protecting Individual Privacy in Conducting Survey Research)》等政策文件,規范對發布或共享涉及人類參與者的科學數據的開放共享工作。《科研記錄與數據保存與維護指南(Research Records and Data Retention and Maintenance Guidance)》從保存范圍、保存期限、分類分級保管、歸檔處置等方面規范科研檔案管理工作。國際大型出版機構和頂尖期刊鼓勵或要求作者提交研究數據,并嚴格把控數據的質量和可用性,如《Nature》《Science》和《PNAS》等期刊要求作者公開提供數據和材料,并確保數據的透明度和可重復性。英國生物樣本庫(UK Biobank)和美國國家生物技術信息中心(NCBI)這些平臺通過共享大量的生物醫學數據,促進了新藥研發和疾病治療的研究,而且通過嚴格的質量控制和標準化的數據管理,確保了數據的可靠性和可用性[4]。中國科學院建成“科學數據銀行”(ScienceDB)這一開放可信的通用型科學數據存儲與發布平臺,提供多種數據共享方式與數據許可協議,并致力于出版符合主流數據標準或慣例的科學數據。全球科研、出版機構及高校在促進科學數據可信、可靠、合規共享方面付出積極的實踐及努力。

4 "科學數據全球開放共享面臨的安全問題與挑戰

面臨著復雜的國際形勢及開放數據的全球化需

求,將安全要素貫穿創新全過程實現科學數據價值創造,實現安全與發展的平衡尤為重要。歐美等國的長期實踐為我們提供了可借鑒的思路,但仍需從我國國情出發,深入分析科學數據全球開放共享為我國帶來的安全問題與挑戰。施普林格·自然與Digital Science公司、Figshare知識庫聯合發布2023年度《開放數據狀況報告(The State of Open Data 2023)》,從數據質量標準(FAIR原則)、開放數據信任度、數據管理計劃等在確保數據安全合規共享中的重要性等方面提出全球面臨的挑戰,對我們給予很大的啟發。

4.1 "數據合規共享問題

科學數據合規共享對于確保數據共享活動遵守數據保護法律、個人隱私、知識產權法規、跨境數據傳輸規定等方面相關的法律法規、政策標準和社會倫理要求尤為重要,關系到國家安全及人民利益。

4.1.1 "數據分類分級有待面向各學科領域細化

有效的數據分類分級是科學數據安全流轉的基礎和核心,幫助數據中心、科研機構制定安全防護基線,規范數據安全保護活動,支持監管部門對科學數據實施有效管理。《科學數據管理辦法》《中國科學院科學數據管理與開放共享辦法》均提出,科學數據應遵循分級管理原則,確定各級別/類別數據的開放共享條件,強調了數據中心對科學數據進行分級分類的職責。當前,我國科學數據分類分級規則以學科領域制定為主。衛星對地觀測科學、海洋科學、能源科學等領域較早發布了相關指導性文件。科學數據主要來源于各學科領域的科研活動,更關注數據的專業性和學術性,因此,需要更適合學科自身特點的數據分類分級機制。然而,由于學科領域眾多及數據間差異巨大、交叉學科的發展,為數據分類分級帶來巨大的挑戰,有待面向多學科領域提出動態、精細化的數據分類分級規范。

4.1.2 "數據無序流轉引發重大安全風險

科學數據跨地域、跨國別共享是開放科學的基本需求。然而,跨境數據流動涵蓋數據主權與國際競爭、法律適用及管轄權、隱私與安全等多種復雜元素。

數據主權與國際競爭方面,科學數據的無序外流正嚴重侵害著我國的數據主權。科學數據的持續有序流轉以公平性、合理性、共同發展為重要原則。當前,不同國家和地區在科學數據的獲取、處理和存儲能力方面的巨大差異造成全球開放科學發展不平衡已成為既定事實。科學資源、科技成果的“虹吸效應”仍在加劇,一些國家和地區無法獲得足夠的科學數據,甚至自身的有價值科學數據長期流失,非對等共享交換導致數據主權和話語權的喪失,無法公平地參與全球科學合作和競爭。長期以來,美國以“促進數據自由流動”政策形成引流效應,引發我國科學數據及成果的傳播對其權威數據庫的嚴重依賴,科研創新過程對其數據處理軟件的依賴,對我國的數據主權、自主創新和科技安全產生深遠影響。在這一背景下,數據的合理使用和利益分配也成為科學數據有序流轉的阻礙,需要合理地平衡各方利益和付出。例如,重大理論發展和科學突破對先進實驗裝備和重大科技基礎設施等科研條件提出了更高的要求,科學大裝置數據共享在“非數據開放期”內泄露或流失,將使科技成果和創新能力遭受損失。我國在《全球數據安全倡議》提出,“各國有責任和權利保護涉及本國國家安全、公共安全、經濟安全和社會穩定的重要數據及個人信息安全”。英國這一方面通過立法進行了規定,提出“研究數據創建者在適當且明確的期限內擁有合理的首次使用權,但因學科而異”。科學數據的無序外流,為我們敲響了警鐘,在全球范圍內推動科學數據的開放共享需要各方共同努力,需以國家安全為前提,以合規為指引,保護各方合法權益,促進全球科學數據的共同發展。科學數據的無序外流也體現了我國在科研創新激勵政策和制度方面的不健全,亟待提升科研成果本土發表的國內外認可度。

法律適用及管轄權方面,科學數據全球性開放共享尚未形成統一的規則,以區域或領域合作規則制定為主。我國對數據出境進行安全評估是保障數據合規跨境流轉的主要手段。2023年9月,網信部門發布《規范和促進數據跨境流動規定(征求意見稿)》提出,“國際貿易、學術合作、跨國生產制造和市場營銷等活動中產生的數據出境,不包含個人信息或者重要數據的,不需要申報數據出境安全評估、訂立個人信息出境標準合同、通過個人信息保護認證”,為科學數據的跨境共享提供了合規指引。然而,在個人信息或者重要數據方面,仍存在著評估及界定不足的情況,包括范圍不明確、分類分級不清晰準確、風險管理不充分等問題,使得面臨跨境流轉安全風險,損害國家和民眾的利益。2023年12月商務部、科技部修訂發布《中國禁止出口限制出口技術目錄》,促進我國的技術進步和創新發展,保護我國的合法權益,提高國際競爭力。其中,新增用于人的細胞克隆和基因編輯技術為禁止類技術條目,新增農作物雜交優勢利用技術、激光雷達系統等2項限制出口的技術條目,對保障我國科技安全具有重要的意義。

4.1.3 "敏感學科領域數據流轉安全有待增強

敏感學科領域的數據涉及國家安全和民族利益,如航天、核能、生物技術等敏感領域。習近平總書記強調“生物安全關乎人民生命健康,關乎國家長治久安,關乎中華民族永續發展,是國家總體安全的重要組成部分,也是影響乃至重塑世界格局的重要力量。”科學數據類別廣泛,往往涉及基因、生物特征、身份識別、地理位置信息等個人敏感信息,可能為個人隱私、道德倫理帶來高度風險。2016年,中國人類遺傳資源管理辦公室調查發現蘇州某藥品開發公司涉嫌違反人類遺傳資源管理規定,未經許可將5165份人類遺傳資源(人血清)作為犬血漿違規出境。我國國家安全機關在一起涉及生物安全領域案件中發現,境外某非政府組織以開展生物物種調研方式采集各地生物物種分布數據信息并源源不斷地傳輸到境外,對我國生物安全、生態安全造成潛在危害。李宜展等深入剖析了學科領域的差異對科學數據安全邊界的差異性影響,闡述了敏感學科數據限制共享的必要性[5]。目前國際上對敏感學科領域數據的共享采取限制政策。例如,歐盟GDPR明確指出“應禁止處理揭示種族或民族背景、政治觀念、宗教或哲學信仰,或工會成員的個人數據、基因數據、以唯一識別自然人為目的的生物特征數據”。美國提出了《基因組學支出和國家安全增強法案(The Genomics Expenditures and National Security Enhancement Act)》與《基因組學數據安全法案(The Genomics Data Security Act)》,限制、監管基因數據的采集和共享。

4.2 "科學數據可信可靠流轉生態問題

4.2.1 "可信數據共享成為主要挑戰

科學數據可信可靠共享是科研人員及科學機構最關注的問題之一[6],能夠提升科研效率,促進國際合作,加速科學知識和知識創新的進程,也是目前全球的重大挑戰之一。科學數據在各機構、系統流轉的過程,從源頭來說,數據出處的不透明性、數據收集者的專業性和誠信度差,會影響數據使用者對其來源的信任,數據非授權篡改、偽造、不當的存儲和管理、缺乏標準化的流程等問題,導致完整性遭到破壞,數據收集方法和工具未經校準或使用不當,數據處理和清洗、數據集成和融合不當會導致數據誤差,可靠性則不能保證。在數據采集、處理步驟或關于數據管理信息等可信信息缺乏情況下,科研人員對數據的信任或理解將明顯降低。一方面,如果個人或機構共享的科學數據不可信,那么基于這些數據得出的科研結果和知識往往會受到質疑,由此產生的鏈式反應嚴重影響領域科研創新及知識體系的發展。其次,不可信的科研數據將導致科研資源的極大浪費,不僅包括實驗設備、材料等物質資源,還包括科研人員的時間和精力等人力資源。更有甚者,個人或機構發布的科學數據不可信,將引發對個人學術不端行為的質疑,影響個人或機構的學術聲譽。此外,還會影響決策制定和社會應用,使得科研活動的公信度受到損害。

4.2.2 "科學數據的FAIR化程度尚待提升

科學數據的FAIR(Findable,Accessible,Interoperable,Reusable)原則是國際開放科學的指導性原則,有助于消除不同學科領域、不同地域的科學數據存儲格式、元數據格式、引用方式等方面的差異,破除科學數據開放獲取的障礙,已成為科學組織及機構的共識性原則。2014年,荷蘭萊頓舉辦的洛倫茲研討會(Lorentz workshop)首次提出FAIR原則理念[7]。2016年,G20杭州峰會上,G20領導人發表聲明,支持將FAIR原則應用于研究。

FAIR原則是衡量科學數據質量和可用性的重要標準,為可信可靠共享提供保障。多年來,我國數據倉儲的FAIR化程度不斷提升,在空間科學、基因科學等領域實現了與國際的接軌。豐富的元數據信息是保障數據可發現性的重要手段,我國國家青藏高原科學數據中心為研究人員提供描述性、技術性等豐富的元數據信息,從關鍵詞、時空范圍、引用方式、項目信息、數據貢獻者等多個方面對數據進行了詳細描述,進一步提高了數據的可發現性[8]。中國-歐盟海洋數據互操作系統實現了中歐異構海洋數據的共享和互操作,為中歐海洋“藍色伙伴關系”貢獻了力量[9]。但需看到的是,眾多學科領域FAIR化程度尚待提升。目前,國內數據倉儲的許可方式相對簡單,難以滿足多種數據可訪問性的需求,需要在數據共享許可協議方式、數據長期保存、免費數據服務、專業詞表、數據訪問方式等方面進一步提高。數據可查找的一個重要手段是為數據(元數據)分配全球唯一且永久的標識符(DOI),這也被認為是FAIR化的重要指標。《中國開放數據白皮書(2023)》在20個國家科學數據中心調查顯示,有10個數據中心為數據分配了DOI,其中6個僅覆蓋部分數據,占比60%,有14個數據中心為數據分配了中國科技資源標識符(CSTR),占比達70%,其中3個僅覆蓋部分數據CSTR [3]。科學數據倉儲FAIR化程度低可能為開放共享帶來一系列阻礙。數據共享和重用受限制、數據的準確性和可靠性難以保證,研究人員可能需要花費更多的時間和精力去獲取、處理和分析數據,這可能會導致降低科研效率以及阻礙跨學科合作等系列問題。

4.2.3 "平臺和基礎設施安全有待加強

開放科學基礎設施是科學數據的承載主體,數據開放獲取及出版的重要途徑,其長期可靠性及可用性面臨著巨大挑戰。

(1) 本地存儲備份長期可靠性挑戰

科學數據與一般數據的一個重要區別是長期存儲,它是開放科學公平、透明、可復用的需求。科學數據的有效備份為后續的研究人員的驗證和重復實驗提供基礎數據,提高科學研究的透明度和可重復性,更有助于研究人員更深入地了解自然現象、揭示科學規律、推動科學技術進步。不僅氣候數據、天文數據、生物多樣性數據等對于環境監測、氣候變化研究、生態保護等方面的工作至關重要。一些珍貴的科學實驗數據、歷史觀測數據等對于人類文明的發展具有重要的意義,需要進行傳承。當前,海量科學數據的存儲面臨多方面的挑戰:技術方面,存儲設備可靠性、數據定期遷移有效性、備份工具及存儲系統的長期可用性決定科學數據是否可用、可靠,尚未得到有效解決;管理方面,存在數據長期存儲過程由于資金的不足或管理不善導致數據丟失以及對服務提供商的過度依賴問題。

(2) 針對平臺和基礎設施的攻擊日益嚴峻

開放科學基礎設施聚集了存儲、算力、網絡的數據流轉及處理環境,使其成為數據高度匯聚、跨域頻繁流動節點,極易成為網絡攻擊利益最大化的目標。近年來,全球關鍵信息基礎設施頻繁受到勒索軟件攻擊、DDOS攻擊及供應鏈攻擊,導致數據大規模泄露、可用性受到極大影響,據不完全統計,僅2022年,全球主要關鍵基礎設施安全事件高達60余件,呈逐年增加的趨勢。此外,基礎設施之間及其與數據處理使用者之間交互的增強,導致數據開放接口增多,從而帶來了數據濫用、篡改的安全風險。

4.3 "科學數據內容安全問題

科學數據內容安全涉及數據交叉融合安全及AI for science引發的安全風險等方面。

4.3.1 "數據交叉融合安全存在高隱藏性風險

多源、多學科、多時空的科學數據不斷匯集帶來數據交叉融合方面的問題。數據的規模、精度呈現動態的變化,原有的安全邊界不斷被打破,導致隱私信息、隱私屬性及隱私關聯的泄露,失去對數據安全的控制。李宜展等分析了數據規模匯聚、精度變化對數據敏感性的影響,引發我們對數據交叉融合后內容敏感性的重視[5]。《個人數據保護法》給出相關規定,“處理個人信息達到國家網信部門規定數量的個人信息處理者應當指定個人信息保護負責人,負責對個人信息處理活動以及采取的保護措施等進行監督。”這一安全威脅往往是高度隱藏的,難于發現和評估。此外,原本不具有敏感性的數據,由于使用者的背景知識及推理能力,敏感性呈動態變化的趨勢。例如,基于行蹤軌跡背景知識信息,獲取高精度位置信息,導致個人空間位置信息等泄露,侵犯個人隱私。

4.3.2 "AI for science為數據安全帶來新的風險

人工智能、量子技術主導的推理能力的提升是導致科學數據所承載的隱私、關鍵信息泄露的關鍵因素。由于融合、關聯、挖掘能力的提升,算法加速能力與深度學習、自然語言處理等技術相結合,能夠從科學數據中準確挖掘、關聯并提取更多的隱含信息。而被認為具有極大潛力的隱私計算等先進安全技術,也面臨著算法漏洞、數據污染、可信性難以驗證、可解釋性差等自身的安全問題。以生成式人工智能為例,ChatGPT發布以來對科學研究活動產生重要影響,眾多科研工作者利用其進行文獻梳理、分析甚至寫作。麻省理工在Science上的最新刊文顯示,其通過實驗發現ChatGPT顯著提高生產力,對于科研人員的寫作任務,平均耗時減少40%,產出質量提高18% [10]。然而,ChatGPT在提升科研效率的同時,通過與人類不斷交互,針對性收集各學科領域的海量信息,對于安全意識薄弱的科研人員,甚至會泄露敏感的科學信息。此外,人工智能算法的公平性、可解釋性、魯棒性、隱私性均無法得到保障,從而引發可能導致巨大的數據及個人隱私泄露的風險。最新發表在安全頂刊USENIX上的論文顯示,被稱為人工智能未來的“合成數據”,其隱私保護效果尚未得到有效證實[11]。

5 "科學數據安全戰略思考及對策研究

目前,尚沒有對科學數據安全的明確定義。即將發布的國家標準《科學數據安全要求通則》將科學數據安全定義為通過管理和技術措施,針對國家安全、科技安全、社會公共利益和他人合法權益,確保科學數據持續得到有效保護和合規利用的狀態。科學數據的安全目標應以國家安全、人民利益為底線,實現科學數據創新發展與安全的平衡,兼顧個人信息的保護。科學數據安全規劃對確保科學數據的可信性、可靠性和合規流轉具有重要意義。應從政策法規、技術、風險評估與管理、監督審計和持續改進等多個方面進行全面考慮。這些方面相互關聯,共同構建了一個全面的科學數據安全框架,有效地應對科學數據安全所面臨的挑戰,促進科學研究的可持續發展。

5.1 "以完善的政策體系踐行我國科學數據安全觀,建設科學數據安全合規流轉支撐體系

當前,我國基本形成“邊共享、邊保護”“以保護促共享”的科學數據安全觀,但在相關政策及實施指南的發布上仍顯不足,無法支撐我國構建開放、有序、安全的創新科研場景及開放創新生態。楊衛等[12]對全球開放科學的調研顯示,相較于歐美等國家政策文件逐年增加的趨勢,我國的政策無論從數量、增長速度上均處于落后狀態。當前,我國主要基于《數據安全法》《網絡安全法》等指導科學數據安全合規實踐,尚無面向科學數據的安全法規及實施標準、指南等。我國近年來在標準體系研究、制定、發布方面取得顯著的進展。朱艷華等[13]深入分析了科學數據安全的特點與特征,提出了科學數據安全標準的五個重點研究方向,即科學數據安全框架、科學數據安全分級分類、科學數據權益保護、科學數據全生命周期安全以及領域科技資源安全,對我國科學數據標準體系的形成提供了良好的理論基礎。廖方宇等[14]深度研究我國科學數據安全現狀,提出缺乏科學有效的數據安全標準規范是實現“保護-共享”平衡的關鍵短板。此外,我國多項科學數據相關標準獲得立項和發布實施。2019年國家重點研發計劃“國家質量基礎的共性技術研究與應用”重點專項設立“科學數據安全技術及基礎技術標準研究”項目,提出適合我國且貫穿全生存周期的科學數據安全框架及安全標準體系,包括了科學數據安全通則、安全分類分級、權益保護、溯源描述和安全審計等5項國家標準,科學數據安全管理指南、安全能力成熟度模型、安全防護技術要求、傳輸安全技術要求等10余項團體標準,科學數據安全標準體系建設成效初顯。

我國應該在現有政策基礎上,進一步加強頂層設計,制定國家科學數據安全戰略或行動計劃,指導實現學科、交叉及跨境科學數據安全開放共享,推進開放共享考核激勵機制,進一步推動我國開放科學的進程。

5.2 "以高質量的數據安全管理建立開放共享生態,推進科學數據可信可靠共享

高質量的數據安全管理措施能夠增強數據的可信性、可靠性及可用性,推動我國科研成果、數據庫的公信度和權威性。

數據安全管理體系通過規劃組織的安全戰略方針、總體目標,制定組織的安全管理制度、合規基線,解決科學數據數據安全“誰來管、管什么、怎么管”的問題,是落實科學數據安全責任的需求。以數據生命周期為主線進行安全管理,能夠把科學數據處理活動中相關的人員、系統、設備串聯在一起,從指導、評估、監督三方面實現數據安全的頂層規劃,有效地指導并落實數據安全保護責任。一方面,相關組織機構應根據自身安全目標,從安全策略、組織建設、人力資源管理、管理監督等幾個方面,構建對科學數據全生存周期安全防護目標的指導性原則,明確數據安全相關角色、責任及權限,并確保從資源、財務等方面給予相應的支持,確保能有效指導對完整性、可用性的需求。另一方面,應從分類分級管理、風險管理、內部監管等方面進一步落實數據安全的頂層規劃,確保合規性、可靠性方面的需求。分類分級管理作為安全管理的最重要環節之一,是后續采取相應安全控制措施的依據及合規性的硬性要求。風險管理是對風險識別、風險分析、風險評價和風險處置進行指導和監督,保障風險可識別、可控、可度量。內部監管是從審計的角度,定期進行管理監督評審評價,保障數據安全管理體系的高效運行和持續優化。

5.3 "以安全可控的先進技術貫穿數據流轉全程,建設科學數據安全可信流通環境

科學數據開放共享的目標是通過協作促進科技創新發展及賦能。重視新興技術在促流動、促共享方面的作用,積極推動數據隱私計算等新技術、新應用的實施與落地,構建自主可控的技術與產品體系,是實現賦能我國經濟、科技的重要技術需求。

涉及個人和敏感領域的科學數據流轉和使用一直是關注的重點。當前,制約科學數據持有主體開放數據的一個重要原因是對數據控制權缺失的擔憂。除從基礎安全的角度,加強個人和重要科學數據的訪問控制、存儲保護外,應充分利用先進技術的優勢,真正建立以數據為核心,超越時間、空間限制的防護體系,促進數據流通的同時,增強科研人員及機構對數據共享的可控性、可信性。一方面,利用零信任技術等對科學數據的訪問行為進行動態控制,通過對人、設備、系統的全面、動態、智能的細粒度授權、持續風險評估和動態權限控制,為科學數據建立以身份為中心的安全邊界,實現數據隱私安全的延伸控制,使其能夠更加安全、有序流轉,促進科學數據應用與安全的平衡。另一方面,利用隱私計算技術保障數據“可用不可見,可用可計量”,能夠實現對數據所有權、使用權的延伸控制,即在確保數據所有權、釋放數據使用權的前提下,進一步保障數據的控制權和管轄權,應對科學數據的泄露及濫用風險。主流的隱私計算技術包括同態加密[15]、多方安全計算[16]、差分隱私[17]、聯邦學習[18]及可信計算環境[19]。從是否出域角度,差分隱私、同態加密通過對數據加噪或加密的方式,使得數據的流轉過程的隱私性受到保護,同時能夠滿足數據使用的需求,多方安全計算、聯邦學習則能在數據不出本地的前提下,實現多方數據的聯合分析及建模。盡管上述技術在實際落地的過程中仍受到成熟度、性能方面的限制,但其在保障數據安全性及合規性方面具有巨大潛力和應用價值。

5.4 "加強開放數據基礎設施的建設力度及認證評價體系,實現安全可度量、可控的權威保障

開放數據基礎設施的安全、可靠需從軟、硬實力兩方面進行綜合考慮和實施。一方面,加強基礎設施的“硬實力”建設,以《關鍵信息基礎設施安全保護條例》為法律依據,以《關鍵信息基礎設施安全保護要求》為實施指引,從物理安全、網絡安全、系統安全、應用安全等方面完善數據中心建設,以等級保護測評和密碼測評等為評價體系,建設硬件可靠的數據倉儲及數據服務平臺。數據存儲備份方面,重視數據長期存儲的可靠性建設,以自主可控的存儲技術、完善的長期存儲機制提供保障。在軟實力方面,應積極在數據匯交、規范管理、可信存儲、權益保護、長期保存和持續服務方面,提升開放數據基礎設施開放獲取、開放出版服務能力,打造高公信度、權威的數據開放平臺。在此基礎上,順應國際形勢和需求,應加強數據中心的FAIR化程度,包括“FAIR化元數據”“FAIR化有限開放數據”“FAIR化開放數據”和“FAIR化增強版開放數據” 等形式,增強科學數據的可查找、可訪問、可互操作和可重用程度,提升國際話語權和影響力。此外,開放數據基礎設施作為開放創新的重要設施,應積極探索開放創新、合作及公眾科學領域的發展路徑,以數據眾包等形式積極尋求與企業單位、社會公眾的創新合作,賦能我國經濟的發展。

5.5 "構建動態的開放科學數據共享及監管體系,促進合規有序流轉

針對國際數據安全政策的差異,國際科技合作數據共享規范的不明朗性及新興技術安全威脅的高隱藏性,建議構建動態的開放科學數據共享及監管體系,積極探索學科領域及交叉領域的細粒度、多維度分類分級工作,以科學數據的完全共享、限制共享等分級共享方式,實現動態監管。

(1) 跨境交換監管

科學數據的跨境流轉是實現國際科技合作,提升中國科技實力和國際影響力的重要渠道,我國也在積極參與國際創新網絡,確保科學數據協同創新應用與國家安全、社會公眾利益的平衡是一項重要議題。

建議從科學數據的分類分級管理、積極尋求國際數據跨境共享的合作機制、建設跨境基礎設施等方面實現科學數據的跨境共享、共用、共創。在分類分級管理方面,應強化基于學科領域特征,實現細粒度、動態的分級管理措施。強化對個人數據和核心數據的評估、細化定級、識別及監管,保障我國的核心權益不受損害。在各國數據跨境法規迥異甚至相互矛盾的現實下,積極尋求數據跨境共享的國際合作機制,建設完善的數據跨境共享平臺,實現從領域數據到交叉領域等多源數據的統一獲取、統一監管。

(2) 新技術使用的監管

對于新興技術的使用,需在政策層面制定明確的指引來規范其發展、應用和管理,高度重視其在數據隱私安全及決策的嚴謹性方面帶來的挑戰。自2019年11月起,我國先后出臺《網絡信息內容生態治理規定》《互聯網信息服務算法推薦管理規定》等文件,對生成合成類內容提出不同程度的監管要求。國家互聯網信息辦公室起草了《生成式人工智能服務管理辦法(征求意見稿)》,并向社會公開征求意見。科學領域尚未出臺針對性的指導文件。確保科研過程各環節的詳細記錄的可溯性和可驗證性是對新興技術實施有效監管,保障可信度的重要思路。因此,需對用于重要科學數據處理及分析的新工具、新技術進行充分的評估,以確保技術的可靠、可信及安全性。另一方面,也需要關注軟件供應鏈安全,加強技術研發的監管,確保技術的原創性,充分認識到生成式人工智能[20]技術帶來的軟件供應鏈安全問題。

6 "結語

科學數據關乎國家安全、科技安全、社會公共利益和他人合法權益,在開放科學背景下,更加凸顯安全與發展相平衡的重要性。從全球開放科學發展趨勢現狀出發,筆者探討了我國科學數據開放共享在數據安全合規、可信共享交換、內容安全及平臺和基礎設施安全方面面臨的問題與挑戰,提出以總體國家安全觀為指引,以促進科學數據安全、可信、合規共享為目標的科學數據安全戰略建議,助力科學機構、團體及組織建立可信、高效的科學數據安全流通環境。具體地,提出構建健全的政策體系和管理體系、安全可控的先進技術體系、公信度高的認證評價體系、完善高效的監管體系等方面的建議。科學數據安全是一項復雜系統工程,學科領域眾多、開放數據進程各異,不同學科領域尚需根據各自的發展現狀,建立更具領域適用性的安全戰略規劃,從而更好支撐國家科技創新、經濟社會發展。

參考文獻

[1] Persic A, Tiffany S. Open science for all: Implementing the UNESCO Recommendation on Open Science for an equitable and just transition to open science[N]. College amp; Research Libraries News, 2023,84(10): 377-381.DOI:10.5860/crln.84.10.377.

[2] 蔡忠偉. 國家政策驅動下的日本開放獲取實踐進展[J]. 科技與出版, 2023, 42(9): 97-106.

[3] Chen R S, Zhou Y C, Jiang L L, et al. China State of Open Data Report 2023[R]. Digital Science. Report. 2023.

[4] 萬佳林,賈曉峰,胡志民.基于多案例研究的生物醫學科學數據開放共享策略分析[J].醫學信息學雜志,2024,45(2):20-25.

[5] 李宜展,劉細文,李澤霞,等.科學數據安全邊界概念模型研究——基于利益相關者視角[J].中國科學基金,2022,36(2):339-347.

[6] 莊倩,何琳.科學數據共享中科研人員共享行為的演化博弈分析[J]. 情報雜志, 2015, 34(8): 152-157+168.

[7] Mons B, Schultes E A, Liu F, et al. The FAIR Principles: First generation implementation choices and challenges[J]. Data Intelligence, 2020(2): 1-9.DOI:10.1162/dint_e_00023.

[8] 李騏安,孟憲飛,張書華,等. 基于FAIR原則的中國科學數據資源現狀分析及啟示[J]. 數字圖書館論壇,2023,19(1):50-57.

[9] 王漪,徐墨庚,童心,等.國家海洋科學數據中心建設與發展實踐[J].自然資源信息化, 2024, 2(3):1-9.

[10] Shakked N, Zhang W. Experimental evidence on the productivity effects of generative artificial intelligence[J]. Science, 2023, 381(6654): 187 - 192. DOI: 10.1126/science.adh2586.

[11] Stadler T, Oprisanu B, Troncoso C. Synthetic data–anonymization groundhog day[C]// 31st USENIX Security Symposium (USENIX Security 22). 2022:1451–1468. https://www.usenix.org/system/files/ sec22-stadler.pdf.

[12] 楊衛,劉細文,黃金霞,等.我國開放科學政策體系構建研究[J].中國科學院院刊,2023,38(6):829-844.

[13] 朱艷華,廖方宇,胡良霖,等. 科學數據安全標準規范關鍵問題探索[J].信息網絡安全,2021, 21(11):1-8.

[14] 廖方宇,胡良霖,王健,等.科學數據安全標準研究與工作建議[J].科學通報, 2024:1-7.

[15] Ducas L, Micciancio D. FHEW: bootstrapping homomorphic encryption in less than a second[C]. in EUROCRYPT 2015, Sofifia, Bulgaria, 2015:617-640.

[16] Resende A, Railsback D, Dowsley R, et al. Fast privacy-preserving text classification based on secure multiparty computation[J]. IEEE Transactions on Information Forensics and Security, 2021, 17: 428-442. DOI: 10.1109/TIFS.2022.3144007.

[17] Lin W, Li B, Wang C. Towards private learning on decentralized graphs with local differential privacy[J]. IEEE Transactions on Information Forensics and Security, 2022, 17: 2936-2946. DOI: 10.1109/TIFS.2022.3198283.

[18] Ghosh A, Chung J, Yin D, et al. An efficient framework for clustered federated learning[J]. IEEE Transactions on Information Theory, 2022, 68: 8076-8091.DOI: 10.1109/TIT.2022.3192506.

[19] 馮登國,劉敬彬,秦宇,等.創新發展中的可信計算理論與技術[J].中國科學:信息科學,2020,50(8):1127-1147.

[20] Stokel-Walker C, van Noorden R. What ChatGPT and generative AI mean for science[J]. Nature, 2023, 614: 214-216. https://doi.org/10. 1038/d41586-023-00340-6.

引用格式:廖方宇,李婧,龍春,楊帆,袁梓萌.開放科學背景下科學數據開放共享安全挑戰及我國對策思考[J].農業大數據學報,2024,6(2):146-155. DOI: 10.19788/j.issn.2096-6369.000027.

CITATION: LIAO FangYu1, LI Jing, LONG Chun, YANG Fan, YUAN ZiMeng. Security Challenges and Countermeasures on Open Sharing of Scientific Data in the Context of Open Science[J]. Journal of Agricultural Big Data,2024,6(2):146-155. DOI: 10.19788/j.issn.2096-6369.000027.

Security Challenges and Countermeasures on Open Sharing of Scientific Data in the Context of Open Science

LIAO FangYu1*, LI Jing1, LONG Chun1,2, YANG Fan1, YUAN ZiMeng1,2

1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100083, China; 2. University of Chinese Academy of Sciences, Beijing 100190, China

Abstract: Scientific data is a strategic and fundamental scientific and technological resource, profoundly impacting national security, economic development and technological progress. In the context of open science, scientific data, as the outcome and important support of data-intensive scientific research paradigms, also faces severe security challenges in terms of security and compliance, trusted and reliable sharing exchange. Focus on these challenges and aims to promote the open sharing of scientific data, the author propose several feasible strategies from the aspects of policy, management, technology, evaluation, and supervision, where the core is to construct a dynamic, fine-grained, and domain-applicable security classification and grading system, to promote the secure development and utilization of scientific data and accelerate transformation into a scientific and technological powerhouse.

Keywords: open science; scientific data; open sharing; security challenges and countermeasures

主站蜘蛛池模板: 国内老司机精品视频在线播出| 久久免费成人| 国产亚洲欧美另类一区二区| 五月婷婷丁香综合| 91久久夜色精品| 亚洲人成网线在线播放va| 国产h视频免费观看| 欧美国产日韩在线| 制服丝袜一区| 亚洲国产亚综合在线区| 秋霞国产在线| 日本一区中文字幕最新在线| 国产精品观看视频免费完整版| 欧美在线一级片| 欧美一级黄色影院| 狠狠干欧美| 一级一级一片免费| 国产69精品久久久久孕妇大杂乱| 亚洲天堂成人在线观看| 国产男人的天堂| 国产网站一区二区三区| 视频国产精品丝袜第一页| 在线亚洲精品自拍| 国产精品内射视频| 亚洲欧美日韩视频一区| 午夜国产精品视频黄| 欧美另类视频一区二区三区| 亚洲天堂区| 中文字幕首页系列人妻| 在线人成精品免费视频| 国产成人综合久久| 国产成人综合日韩精品无码首页| 亚洲精品中文字幕无乱码| 欧美日本激情| 视频一本大道香蕉久在线播放| 青青热久免费精品视频6| 亚洲久悠悠色悠在线播放| 日韩少妇激情一区二区| 黄色网址免费在线| 国产人成网线在线播放va| Jizz国产色系免费| 伊人成人在线| 欧美一级特黄aaaaaa在线看片| 欧美日韩另类国产| 日韩欧美中文字幕在线韩免费| 中文字幕无码制服中字| 国产杨幂丝袜av在线播放| 日韩小视频在线观看| 二级特黄绝大片免费视频大片| 亚洲性网站| 老司机久久精品视频| 久久青青草原亚洲av无码| 亚洲精品桃花岛av在线| 99久久性生片| a级毛片免费看| 免费一看一级毛片| 国产毛片不卡| 一级香蕉人体视频| 伊人蕉久影院| 一级成人a毛片免费播放| 狠狠色丁香婷婷综合| 美美女高清毛片视频免费观看| 国产在线专区| 国产女人18水真多毛片18精品 | 一级毛片中文字幕| 女人18毛片久久| 国产成人精品一区二区秒拍1o| 欧洲成人免费视频| 欧美成人第一页| 婷婷激情五月网| 亚洲全网成人资源在线观看| 国产va免费精品观看| 亚洲综合专区| 97国产精品视频人人做人人爱| 美女被操91视频| 久久国产拍爱| 国产主播福利在线观看| 免费看av在线网站网址| 88国产经典欧美一区二区三区| 国产网友愉拍精品| 91九色最新地址| 国产精品嫩草影院视频|