劉永東 張 瑤 王 淼
(國家工業信息安全發展研究中心 北京 100040)
人工智能算力基礎設施是以軟硬件基礎設施為底層支撐,以算力、數據、算法等資源平臺為核心要素,實現算力生產調度、數據開放共享、算法開發調用等功能,支撐人工智能與各領域滲透融合的基礎設施體系,技術維度包含人工智能基礎軟硬件、算力平臺、數據集、算法倉庫等[1].人工智能算力基礎設施由于涉及層次多、分布范圍廣、接入設備繁雜、用戶數量多等特性,其安全問題也面臨多重維度,安全風險來源較為復雜.作為人工智能系統運行的基礎載體,人工智能算力基礎設施應明確其面臨的安全種類和風險來源,建立全面有效的安全防御體系,為人工智能系統安全保駕護航.
1) 人工智能算力基礎設施是大模型應用發展的核心底座.
人工智能作為新一輪科技革命和產業變革的重要驅動力量,正以其強大的賦能作用與各領域加速融合,應用范圍不斷拓展,行業滲透率快速提升[2].隨著以ChatGPT為代表的大模型快速發展,大算力已成為影響人工智能發展與應用的核心因素之一.近年來,人工智能算力基礎設施建設取得了長足進展,通過構建人工智能算力網絡,保障大模型算力,提供普惠算力,在助力人工智能生態建設、推動人工智能產業持續發展方面發揮著越來越重要的作用.
2) 人工智能算力基礎設施迫切需要提升自身安全風險管控能力.
在當前復雜的安全形勢下,人工智能算力基礎設施由于其屬性多樣、節點復雜、用戶數量多以及人工智能自身脆弱性[3]等特性,在應用過程中已暴露出數據模型竊取、對抗樣本攻擊、節點不可信等安全問題,帶來了更加復雜多樣的安全風險,使得人工智能算力基礎設施在建設和運營過程中面臨更為嚴峻的安全挑戰,同時影響了用戶對人工智能算力基礎設施的安全信任,阻礙了算力資源力充分釋放.
3) 人工智能算力基礎設施是提高人工智能安全水平的重要手段.
人工智能技術在快速發展的同時,由于其算法黑箱性、數據依賴性、技術易濫用等特點,導致過程難解釋、行為難預測、結果不可控,在應用過程中已經暴露出個人信息泄露、人臉數據濫用、實施詐騙活動、自動駕駛事故等安全問題,隨著人工智能與實體經濟深度融合,這些風險將會進一步疊加放大,給公共安全、道德倫理、社會治理等帶來挑戰.人工智能算力基礎設施作為人工智能算法運行的基礎環境,可通過提升物理、網絡、數據、算法等領域安全防范水平,提供安全檢測、評估、加固工具,為人工智能安全可信發展提供保障.
人工智能算力基礎設施安全指為人工智能算力基礎設施建立和采用的技術和管理層面的安全保護,目的是保護人工智能算力基礎設施硬件、軟件、人工智能數據模型等不受到破壞、更改和泄露,保障為人工智能系統提供安全的算力和運行環境.人工智能算力基礎設施安全具有3重屬性:一是基建屬性.作為“基礎設施”,人工智能算力基礎設施應對其穩定性、可用性、可靠性等自身安全提供保障.二是技術屬性.作為“AI算力”,人工智能算力基礎設施應對部署在其之上的人工智能系統的運行安全提供保障.三是公共屬性.作為“公共設施”,人工智能算力基礎設施應對人工智能產品、系統和企業提升安全管理能力、降低安全風險、助力合法合規提供安全服務.
人工智能算力基礎設施安全不僅應包括傳統算力基礎設施的物理安全、網絡安全、算力環境安全等方面,還應能夠保障人工智能的數據、模型不被竊取和攻擊,并通過提供相關工具,幫助提升人工智能算法和系統的安全風險應對能力.具體來看,人工智能算力基礎設施應從強化自身安全、保障運行安全、助力安全合規3個方面發力,通過強化自身的可靠性、可用性與穩定性,保障算法運行時的可信度與準確度,提升用戶的可靠性、可用性、穩定性、機密性、完整性、管控力、認可度和合規性8個方面,筑牢人工智能安全防線,打造可信、可用、好用的人工智能算力底座,營造安全、健康的人工智能產業生態.人工智能算力基礎設施安全體系架構如圖1所示:

圖1 人工智能算力基礎設施安全體系架構
強化自身安全是指人工智能算力基礎設施應保障自身安全、穩定運行.
1) 筑牢傳統安全,保障可靠性.
傳統安全是人工智能算力基礎設施正常運行的基礎,包括物理安全[4]、網絡通信安全[5]、計算環境安全和數據應用安全等.物理安全是人工智能算力基礎設施安全的根本保障,直接影響到人工智能系統的可靠性、保密性、完整性、可用性等,應著重在設備物理安全、環境物理安全、系統物理安全3方面加大安全防護力度.網絡通信是人工智能算力基礎設施的基礎功能,直接關系到用戶的遠程訪問使用和數據傳輸,應圍繞網絡結構、訪問控制、攻擊防范3方面重點進行保障.計算環境安全是指為保障人工智能算力基礎設施計算環境不被入侵或植入惡意程序采取的措施,應注重計算環境安全保障,在用戶身份鑒別、惡意程序防范、環境安全審計方面重點開展防護.數據應用安全是指人工智能算力基礎設施為保護數據在應用過程中不被破壞、更改和泄露而采取的措施,應重點關注數據完整性、數據保密性、備份和恢復.
2) 提升算力網絡安全,增強可用性.
人工智能算力網絡[6]將各地分布的人工智能算力基礎設施節點聯接起來,構成多個算力節點間的感知、分配、調度網絡,彈性滿足全網范圍內的算力需求,匯聚和共享數據、模型等人工智能資源,有助于推動構建區域范圍乃至全國范圍的人工智能產業生態網絡.人工智能算力基礎設施建設應從節點可信認證、算力網絡管理規范、行為審計溯源等方面加強算力網絡安全防護,保障人工智能系統全程可溯、多方安全.在節點可信認證方面,應保證每個接入節點在硬件和軟件層面實現全流程安全認證,實現全程安全可信;在算力網絡管理規范方面,應建立統一安全管理規范,將不同節點納入統一管理體系,保障算力網絡管理安全合規;在行為審計溯源方面,應建設算力網絡協同行為安全記錄機制,實現多方算力行為可審計可溯源.
3) 注重供應鏈安全,提升穩定性.
人工智能算力基礎設施建設應考慮加強技術自主創新,保障基礎軟硬件供應鏈穩定安全[7].一是安全穩定的供應鏈直接關系到人工智能算力基礎設施能否穩定建設和運營,若技術無法自主研發且供應依賴于少數供應商或供應國,一旦基礎軟硬件斷供將對人工智能算力基礎設施造成重大打擊;二是基礎軟硬件的安全性直接關系到人工智能算力基礎設施安全性,安全的供應鏈能夠防止基礎設施軟硬件被供應方植入后門或存在其他未知風險.人工智能算力基礎設施建設應考慮建立自主標準規范體系,加強技術自主創新,打通技術壁壘,采用具有自主知識產權的通用處理器、人工智能專用處理器、高性能內存、傳感器等基礎硬件和操作系統、數據庫、人工智能框架等基礎軟件,保障供應鏈安全,提升基礎設施運行穩定性.
保障運行安全是指人工智能算力基礎設施應提供安全的運行環境,保障人工智能系統的機密性和完整性.
1) 保護數據模型不被竊取,保障機密性.
在安全技術層面,應著力研制人工智能算力基礎設施內置用戶模型保護技術,重點防御竊取攻擊.可在大規模人工智能算力基礎設施中,通過高性能加密技術、容器完整性保護、身份與權限分級嚴格管理等手段,構建全程可信賴的安全運行環境,有效保護數據和模型所有者對其核心資產的所有權.在安全制度層面,應當完善人工智能算力基礎設施內部安全管理規章體系.應圍繞技術和管理規范并重的核心思想,加強人工智能算力基礎設施的內部信息安全規范體系構建,包括建立明確的責任分工機制和授權機制,配備符合條件的人員,加強定期培訓,嚴格確保相關人員按照既定政策、程序和權限履行職責,保障數據、模型在使用、銷毀等各環節不被竊取.
2) 防范數據模型遭受惡意攻擊,保障完整性.
人工智能算法模型在運行過程中往往會遭受多種形式的惡意攻擊,導致模型產生錯誤的運行結果,若應用于醫療診斷、自動駕駛等領域,可能會對生命財產安全帶來嚴重影響.人工智能算力基礎設施所提供的算力服務環境應針對主流惡意攻擊風險提供相應的預警和響應機制,如數據投毒攻擊、后門攻擊、漏洞攻擊、對抗樣本攻擊、深度偽造等的檢測與防御[8].
助力安全合規是指人工智能算力基礎設施應對人工智能產品、系統和企業提升安全管理能力、降低安全風險、助力合法合規提供安全服務.
1) 提供安全檢測能力,助力用戶加強安全管控力.
人工智能算力基礎設施應圍繞數據集完整性、準確性以及算法公平性、魯棒性、可解釋性等重點領域,為用戶提供安全檢測工具,幫助用戶提升安全風險識別和管理能力,在數據準備、模型訓練、系統運行等全流程檢查人工智能產品的安全風險.例如,華為提出了MindArmour安全可信工具包,針對模型魯棒性、用戶隱私風險、數據漂移等功能提供了相應檢測工具.魯棒性檢測工具方面,提供了多種對抗樣本生成、檢測和防御方法以及攻防評測指標,可從惡意攻擊角度測評模型以及非惡意擾動角度評測模型魯棒性.
2) 提供安全評估能力,助力用戶提升安全認可度.
人工智能算力基礎設施應通過提供自評估工具、引入第三方評估等手段幫助用戶對其人工智能產品的安全問題及合規風險開展評估及認證,增強該產品的安全認可度.評估工具可在人工智能系統開發、部署的早期階段就幫助企業評估其安全管理能力,并幫助用戶建立完善且具有針對性的管理制度,通過持續執行和監督促進制度的落實,確保負責任地開發、部署和維護人工智能系統.
3) 提供安全增強能力,助力用戶增強安全合規性.
安全增強是指人工智能算力基礎設施通過提供一定服務,幫助用戶增強人工智能系統的安全合規性,主要包括可信審計工具、隱私計算工具等.安全增強服務可由人工智能算力基礎設施自身提供,也可由第三方安全服務商提供,相關工具集成至人工智能算力基礎設施,在人工智能系統開發、運行等階段,用戶可以選擇不同方向、不同程度的安全增強服務對自身人工智能系統進行安全增強,進一步提高人工智能系統安全合規性.
1) 加快標準研制,構建基礎設施安全與人工智能安全相融合的標準體系.
一是亟需制定人工智能算力基礎設施安全相關技術標準并加快推動標準落地,明確人工智能算力基礎設施安全的基準指標,使人工智能算力基礎設施在能力水平、安全要求等方面滿足一定準則,有效保障人工智能算法訓練、運行過程中的環境安全;二是加快建設人工智能算力基礎設施保障運行安全和助力安全合規等方面的相關標準,幫助提升人工智能算法安全性,促進基礎設施安全與人工智能安全相融合,推動形成行業健康發展的良性循環.
2) 加強技術攻關,推動人工智能安全工具與人工智能算力基礎設施集成.
一是要加快安全檢測、安全評估、安全加固等相關技術工具研發.應圍繞數據安全、算法公平、隱私保護等問題突出的領域,大力開發安全技術工具[9],加快推動人工智能算力基礎設施安全保障及安全工具技術的創新和演進.二是要推動相關技術工具嵌入和集成到人工智能算力基礎設施中,鼓勵基礎設施企業和算法企業加強合作,通過提供安全的算力基礎設施,為算法開發者提供安全、可信的算力環境,通過集成相關技術工具支持模型、數據和應用的安全,有效降低企業部署和應用安全人工智能系統的門檻.
3) 建立管理制度,形成管理手段與技術手段相結合的安全發展良好氛圍.
人工智能算力基礎設施面臨的安全風險多種多樣,僅通過技術手段難以覆蓋眾多風險種類,還需要通過管理手段,將安全策略和安全控制融入到人工智能算力基礎設施設計、建設、運行、維護的生命周期各階段.一是完善安全管理規章體系,明確人工智能算力基礎設施建設與運營各方的安全主體責任并推動責任落實,通過開展安全防護檢查與風險評估,及時排查各類安全問題隱患.二是人工智能算力基礎設施平臺可通過提供人工智能安全可信度評估、鼓勵安全風險自查等,幫助算法企業發現安全風險并改進,推動人工智能產品研發設計、測試開發、部署上線、運行維護、退役下線等全生命周期安全發展.
在政策推動與人工智能發展需求的牽引下,人工智能算力基礎設施迅速落地發展,算力網絡逐漸形成,在助力人工智能生態建設、保障人工智能產業持續發展方面發揮著越來越重要的作用.然而,人工智能算力基礎設施在應用過程中也逐漸暴露出數據模型竊取、對抗樣本攻擊、節點不可信等安全問題,帶來嚴峻的安全挑戰,構建安全的人工智能算力基礎設施迫在眉睫.本文從強化自身安全、保障運行安全、助力安全合規3方面提出了人工智能算力基礎設施安全體系架構,建議從加快標準研制、加強技術攻關、建立管理制度等方面入手,更好應對和解決人工智能算力基礎設施面臨的安全問題,打造安全的人工智能算力底座,夯實我國人工智能產業健康發展的基礎,為人工智能產業安全發展保駕護航.