陸 鋼,孫夢宇,任慧蕾,黃志蘭
(1.中國電信集團有限公司研究院,廣東 廣州 510630;2.中國電信集團有限公司研究院,北京 102209)
云計算從誕生以來就是一種將計算、存儲和網絡資源以服務的形式對外提供的商業模式,是信息技術發展和服務模式創新的集中體現,得到客戶和市場的高度認可。云計算已經成為數字經濟發展不可或缺的基礎設施,承載的應用包括傳統互聯網和移動互聯網應用,涉及政府、交通等千行百業。云計算不僅是傳統通用計算應用的數字化轉型,而且包括智能計算等新型應用類型,特別是AI 大模型的出現,對云服務能力提出了更高的要求。目前,計算機體系結構進入發展的黃金十年[1],體系結構的創新對云計算技術創新的影響正在顯現,在多重因素驅動下,云計算的基礎設施在架構、資源和管理等方面必將迎來一場新的技術革命。
信息化時代,云計算市場和業務層面的需求都推動云計算技術向前演進。在市場方面,云計算市場進入穩定增長階段,市場競爭格局愈演愈烈,云行業巨頭加速發展。在業務需求層面,以通用業務為主轉變為通智網融合的新型多元業務模式,為云計算發展帶來新需求。
從市場發展看,企業上云成為不可逆轉的趨勢。2023 年7 月6 日,國際數據公司(International Data Corporation,IDC)發布的《全球公共云服務半年度跟蹤報告》顯示,2022 年全球公共云服務市場收入總計達到5 458 億美元,比2021 年猛增22.9%[2]。根據Gartner 的預測,2023 年全球用戶在公共云服務上的支出預計將增長20.7%,總計將達到5 918億美元。從市場格局來看,云計算領域的國際競爭加劇,中美差距正逐漸拉大,亞馬遜AWS、微軟云Azure 保持高速發展態勢,市場份額占全球一半,谷歌云2022 年所占的市場份額為6.1%,超過了阿里云的5.2%,取代阿里云成為全球第三大云廠商。
從業務發展來看,通算業務數量激增,智算、超算業務異軍突起[3],網算業務特色發展[4],多元業務融合推動新型業務模式的出現,為云計算的計算規模、存儲容量、網絡連接、服務模式等方面帶來新的需求。以工業互聯網、元宇宙為代表的新型業務場景融合通算、智算、網算多元業務,具有通算實時處理、智算推理決策、云網融合生態構建多方位需求;政策引領企業深度上云用云,賦能傳統企業數字化轉型升級,企業數字化轉型要求云基礎設施具有快速響應、高可用性、高擴展性等特性;大模型推動智算業務高速發展,需要處理海量數據、大規模的參數訓練[5],對算力、存儲、網絡等基礎設施高性能、大容量、低帶寬的需求日益增長;主流云商、運營商持續推動網絡全面上云,催生云計算基礎設施向通信行業深度定制化升級,需在基礎設施層面徹底打破云和網的技術邊界,構筑統一云網資源。
下一代云計算基礎設施逐步走向技術融合體系化創新,延伸帶動異構基礎設施融合統管,向上賦能服務體系升級,構建產業智能的數字化新世界。遵循下一代云計算業務的需求變革,下一代云計算基礎設施呈現出高效能、廣分布和超大規模的特性。
下一代云計算基礎設施架構以分布式多云為核心,構建“一云多算”融合底座,依托異構資源統一管理、分布式任務協同框架,打造AI 貫穿的新型服務體系,支撐以通算、智算、超算、網絡融合業務的一體化承載,實現全鏈路業務的可用性保障。在總體架構上,保留傳統云架構的分層體系;在云網資源建設上,強調多種類型資源池的分布式優化布局;在軟、硬件資源層強調多樣性,進一步劃分為以CPU 為主的通算基礎設施和以GPU 等AI 加速芯片為主的智算基礎設施。分布式云平臺對多維異構資源進行統一納管,并實現任務高效協同調度。在基礎設施架構之上,云服務形態呈現通用化和智能化發展趨勢,承載多元業務類型,提供豐富的產業數字化能力。下一代云計算基礎設施架構如圖1所示。

圖1 下一代云計算基礎設施架構
(1)分布式云網資源。云資源池呈現分布式、多云、全域部署模式,以云為中心構建全國一張網。以地理空間劃分,實現從中心、區域到邊緣3 層級覆蓋能力[6]。分布式云網資源池如圖2 所示,中心云資源池部署在資源集中的熱點區域,向超大規模集約化發展;區域云資源池滿足熱點業務,具有一定規模,同時兼具時延優勢;邊緣云資源池可建設在更靠近用戶和數據生產源頭的網絡邊緣,主要包括小型化云節點,解決用戶側邊緣的定制化需求[7]。多方云資源池混合部署,加強多云商資源池互聯互通且互為增強,以算力資源交易的形式提供高效、去中心化、實時便捷的資源供給,實現全域基礎設施能力覆蓋。入云網絡應具備高速泛在、天地一體的全連接能力[8]。除了網絡和專線等基礎接入能力,還應具備“5G+千兆光寬+WiFi 6”的三千兆接入能力及協同衛星網絡打造天地一體的差異化服務的能力。云間網絡應具備高帶寬、高質量特性,引入確定性網絡、全光網絡等技術,實現中心云與區域云、區域云與邊緣云、邊緣云與邊緣云間的按需、可靠的高速互聯。

圖2 分布式云網資源池
(2)通智融合基礎設施。通用計算基礎設施主要指基于CPU 芯片的服務器,在中心側和邊緣側分布式部署,由全域覆蓋的入云/云間網絡拉通業務訪問和數據獲取,主要實現通用計算業務的資源供給。通用計算基礎設施還包括以實現網絡云化業務為代表的某些能力定制化增強的基礎設施,提升不同業務場景下的基礎設施的性能。智算基礎設施基于GPU、FPGA[9]、ASIC 等芯片,為AI 應用提供所需算力服務、數據服務、算法服務的公共算力新型基礎設施[10],通常表現為大規模、高性能、高可靠性的智算集群。使用大算力芯片及大容量內存等能力支撐模型訓練、推理等計算密集型任務;使用高速、大容量的存儲設備及存儲技術,基于分布式架構實現高可用性和可擴展性。圍繞遠程直接內存訪問(Remote Direct Memory Access,RDMA)構建高性能網絡體系,其組網架構具備大規模、跳數最優的網絡連接能力。基于端網協同和軟硬融合構建高帶寬、低延遲的無損網絡。
(3)全局化管理調度。多維度、異構資源統一管理,面向業務進行任務與基礎設施資源的高效適配。通過對不同技術架構搭建的計算資源、網絡資源和存儲資源進行抽象,并將當前各類公有云、私有云平臺的不同類型資源整合到統一的管理框架,實現全局異構資源統一納管,能更好地應對業務負載對資源的多樣化需求,發揮各類資源的特性和優勢,提高整個系統的效能。面向大規模業務進行功能模塊解耦,子任務間通過網絡交互完成業務處理,分布式任務協同通過將上層子任務需求與底層基礎設施資源進行適配,實現任務的精準實時、穩定高效調度和編排。任務調度策略根據資源管理層提供的資源狀態信息和性能指標進行定制,推進任務需求動態調整資源的分配和使用,提升面向超大規模業務的資源管理調度能力。
(4)智能化服務模式。上層以云服務形式承載包括數字化業務、智算業務、超算業務和網絡業務在內的多元解決方案,將AI 融入基礎設施即服務(Infrastructure as a Service,IaaS)、平臺即服務(Platform as a Service,PaaS)、軟件即服務(Software as a Service,SaaS)層,實現數字化業務的全面升級[11]。擴展新應用場景下的模型即服務(Model as a Service,MaaS)新型服務模式,打通數據平臺、深度學習訓練框架、推理部署引擎和模型生產平臺,實現從數據存儲、標注到模型訓練、生產、部署、測試的全鏈路、批量化過程。
下一代云計算基礎設施的核心特征為廣分布、高效能和超大規模。
(1)廣分布的云網資源。依托分布式云架構,實現從服務商云資源池、用戶本地云資源池到生產現場的近全域基礎設施廣覆蓋;提供全面連接、高可靠網絡保障,提供空天地海一體化的廣連接;在不同地理位置資源池提供一致性服務,提供隨時隨地一鍵式云網資源供給。
(2)高效能的硬件資源供給。基于綠色先進的多元算力,實現十倍以上計算性能的提升。構建集約高效的新型存儲,提供數字化浪潮下的海量存儲需求。推動系統級斷網協同體系創新,構建十萬級節點間的低耗高速互聯網絡。
(3)超大規模管理調度。數據管控規模持續增加,提供PB 級大數據體量的多模態數據管理調度;支撐復雜業務需求邏輯煩瑣、交互頻繁的模塊化管理,實現面向復雜業務邏輯的管理調度;海量的數據和高復雜度的算法,驅動云平臺實現百E 級更大規模算力的統一管控。
下一代云計算基礎設施依托算力、存儲、網絡等方面的關鍵技術,推動云計算基礎設施向高效能演進。在計算層面融合AI 芯片,通過RISC-V 指令集[12]統一多元異構計算架構提供云服務算力基石;在網絡層面面向大規模、高帶寬、低時延及高可靠的集群通信需求,構建基于RDMA 的高性能智算中心網絡體系;在存儲層面,面向海量數據存儲和并行處理需求,引入新型存儲技術提供高速、高并發和低時延的讀寫性能,共筑高效能的硬件資源供給。
智能化時代,AI 在各行業領域持續深化,應用場景也不斷豐富,以科學計算和大模型為例,在傳統的地震波模擬的科學計算場景下,對數值精度的要求極高,AI 大模型訓練則適用于數值范圍大、但數值精度要求相對較低的16 位浮點類型,而AI 大模型推理由于更關注推理速度等性能,則可以在更低的數值精度下進行處理。因此,愈加復雜多樣的計算場景,為算力基礎設施提出了多元化挑戰。不同數值精度的計算需求,對于計算芯片架構要求也具有一定差異性。此外,摩爾定律帶來的計算性能提升空間有限,通用CPU 性能的持續提升呈現整體性加速放緩趨勢,而AI 加速應用帶來計算量指數增長態勢,遠超摩爾定律帶來的算力提升速度。
下一代算力將從以CPU 為主的通用計算基礎設施逐漸向CPU、GPU、XPU 等異構算力融合方向發展[13],突破了傳統計算芯片發展的慣性思維,不再強調系統中某一種類型計算芯片的核心地位,而是從系統層面優化性能、性價比等核心指標,體現綜合的算力供給性能優勢。現階段RISC-V 指令集由于其開源和可擴展特性,已被廣泛用于開發CPU、GPU 等通算、智算芯片,可有效解決當前CPU 和GPU 因基于不同的指令集架構,造成的生態復雜、開發運維難度高等問題。下一步RISC-V 將通算和智算基礎設施在指令集層面進行統一,實現編程接口的統一,從而實現黃金十年的終極目標:采用統一指令集來實現DSA 芯片和通用芯片,為上述應用開發提供統一編譯環境和開發語言,支持RISC-V指令集對“XPU”的多核異構融合,構建高性能AI算力集群和高效能的算力底座。
海量數據流的產生和多元化的應用場景為智算產業帶來了新的挑戰,推動了算力基礎設施服務器級單點處理向互聯協作的演進,將同架構/跨架構、同地域/跨地域的算力節點大規模組網,形成下一代全域互聯的新型網絡架構。為了實現這些需求,智算中心內節點數量將大幅增長,從現在的十萬臺服務器增長到百萬級互聯,使得智算中心組網面臨超大規模沖擊。以大模型為代表的智算業務2025 年將向百萬億參數模型演進,存儲介質SSD的訪問性能較傳統HDD 已有了百倍提升,在存儲介質數據讀取時間大幅降低的情況下,網絡時延占比從原來的小于5%上升到65%,意味著存儲介質有一半以上的時間是空閑通信等待。如何降低通信時延,提升網絡吞吐也是智算中心網絡的關鍵挑戰之一。
下一代數據中心網絡將具備超高性能、超高可靠性及超大規模連接能力。現階段新建智能計算中心網絡通常使用RDMA 網絡協議來減少傳輸時延,提升網絡吞吐,并逐步在規模、帶寬、穩定性、時延/抖動及自動化能力方面不斷優化提升。下一步基于RDMA 的高性能智算中心網絡體系,需要不斷推進網絡拓撲、網絡設備、網絡協議等方面的創新,加強在擁塞控制算法、軟硬協同加速及QP連接[14]擴展等方面的能力突破,結合全光網絡發展趨勢,從而滿足各類業務高并發、大帶寬、高通信效率需求。
在智算業務浪潮的驅動下,數據成為第五大生產要素,圍繞數據構建的基座必然發生變革,存力覺醒拉開新的篇章。在芯片層面,馮·諾依曼架構下計算和存儲分離,計算單元從內存中讀取數據,計算完成后返回內存,然而隨著AI 大模型的發展,這種架構中存儲器的數據訪問速度跟不上計算單元的數據處理速度,阻礙性能提升的“存儲墻”問題嚴重。在集群層面,傳統存算融合架構面臨數據保存周期與服務器更新周期不匹配、性能可靠與資源利用率難以兼得、新型分布式應用的極簡高效共享存儲訴求和以CPU 為中心的服務器架構導致數據密集型應用效率低下等問題,下一代云計算底座在存儲容量利用、存力效率等方面面臨挑戰。
下一代以數據為中心的存儲需要為云內海量數據分布式通信提供超高性能的讀寫支持和超大規模的連接能力。在智算時代嶄新的發展階段,數據存儲堪稱AI 訓練和推理應用的基石——既是加速多模態數據智能訓練的核心平臺,也是支撐海量終端智慧應用的基礎設施。單芯片層面存儲朝著存算一體方向演進,計算越來越靠近存儲,減少不必要的數據搬運,直接存儲單元參與邏輯計算提升算力,在單位面積不變的情況下規模化增加計算核心數,通過架構創新提供綜合性能全面兼顧的芯片及板卡,為廣泛的邊緣AI 業務提供服務[15]。集群層面,隨著RDMA[14]、CXL[16]、NUVMe SSD 等新型硬件技術的發展,需要構建新型存算分離架構,以確保云和網、不同云存儲域服務能夠兼顧資源利用率、可靠性等核心訴求,徹底實現存算解耦,組建彼此相互獨立的硬件資源池,實現細粒度的處理分工,使數據處理等CPU 不擅長的任務被專用加速器替代,以實現能效比最優的組合。
下一代云計算平臺引入新型納管、池化和調度技術解決大規模算力獲取難度大、成本高、資源效率低的問題,賦能業務需求,促進超大規模的全局基礎設施資源的智能協同調度。
跨類型跨架構的資源統一納管打破單機資源調度的物理邊界,解決底層異構物理硬件間存在的流程接通、芯片互聯和軟件適配等差異化問題,構建高效、協調統一的異構算力資源池,更加便捷地實現資源有效配置和管理,降低建設和運營成本,快速滿足用戶多變的資源使用需求。在具體技術上,跨類型跨架構的資源統一納管將重點考慮算網存資源抽象、異構資源池化、內存一致性池化和輕量級虛擬化等技術。
(1)算網存資源抽象。算網存資源抽象技術通過將計算、存儲、網絡等資源進行合理抽象,屏蔽基礎設施的物理特性和資源類型,可在同一應用場景下作為一種面向業務的產品被協同管理、編排、共享。用戶只需關注業務自身來調整資源的配置,包括統一資源應用程序接口(Application Programming Interface,API)、資源模型轉化、抽象資源庫、異構資源適配等,打造多元產業生態。
(2)異構資源池化。針對異構資源進行適配,包括異構硬件設備發現、計算資源的虛擬化和內存資源的虛擬化技術。納管異構資源池,主要包括硬件設備發現后自動納管、異構資源生命周期管理、近端與遠端資源池的多層級智能調度、多租戶多任務資源隔離,以及跨架構數據傳輸和轉換等,共建多樣性算力產業體系。
(3)內存一致性池化。基于硬件內存一致性協議保證不同節點對內存數據的訪問一致性,并基于虛擬化層軟件協議構建節點間共享的內存集合,以實現內存分配和管理,提供高效的內存分配和回收機制,提升資源利用效率。
(4)輕量級虛擬化。針對傳統虛擬化無法滿足邊緣計算、云原生Serverless、網絡云化等場景需求的問題,研究容器、安全容器、輕量級虛擬機、應用程序級沙箱等技術,針對不同場景對安全和性能的個性化要求裁剪虛擬化層,實現應用快速啟動和高密度部署。
面向業務感知的智能協同調度是連接上層多類型應用與底層物理設備的核心能力,能夠滿足上層不同類型應用對資源的多樣化需求,從而使上層應用更高效、更便捷地利用底層資源。在具體技術上,面向業務感知的智能協同調度將重點考慮算力資源全局調度、自適應智能規劃和調度策略和云網切片端到端一體化調度等技術。
(1)算力資源全局調度。分布式云推動算力資源全局調度、智能協同,實現算力調度跨域融合,實現資源在云側、邊側、終端側高效分布和智能協同,逐步演變出基于云、邊、端的分布式操作系統,面向業務需求實現跨地域、跨層級算力資源的互聯互通,具備多層級算力資源的統一管理、智能調度、全局優化能力。
(2)自適應智能規劃和調度策略。由于百萬級大規模異構資源中存在異構資源間的交互程度不高,匹配復雜度高,調整后均衡性難以保證,業務特性考慮不足等問題,因此資源的供給方式從提供固定規格計算資源的形式走向面向具體業務場景靈活調整資源使用量的方式。多種基于AI 模型乃至大模型的學習方法可基于訓練模型針對業務需求設計和生成自適應智能規劃和調度策略,以提升大規模資源的調度優越性。針對業務特性研究資源配額、共享超分、負載均衡等資源調度策略,實現面向業務服務等級協議(Service Level Agreement,SLA)、服務等級目標(Service Level Objective,SLO)、服務等級指標(Services Level Indicator,SLI)的多級調度、拓撲感知調度、在離線業務混布等,從而最大化資源利用率。
(3)云網切片端到端一體化調度。云網切片是在網絡切片的基礎上,充分考慮云資源的彈性、伸縮等特性,根據不同的業務所需的網絡特征、不同的流量流向所產生的網絡實時需求及云資源的動態變化情況,將云資源與網絡資源進行協同一體化管理、調度與優化,實現云網資源的端到端統一、隔離預留、云網連接的自動化建立與優化、云網服務能力的自動化供給等。
隨著新一輪的市場推動和產業變革,云計算技術向下一代演進,催生構建下一代云計算目標體系架構。下一代云計算承載通算、智算、超算、網算多元業務類型,伴隨云基礎設施、云平臺、云服務體系、云運維方面體系架構的創新,呈現出高效能、廣分布、超大規模、智能敏捷和智能自治的新時代特征。以通智異構算力融合、全域互聯新型網絡、新型存儲、資源統一納管、智能協同調度為技術指引,促進云計算向新一代演進。