廖若飛


摘要:基于云計算技術搭建人工智能專業群實訓平臺,在高職院校有迫切需求。文章分析了人工智能專業在高職院校的開設現狀、人才培養目標以及人工智能專業群實訓平臺建設的必要性,分析了專業群內各專業在實訓和日常教學過程中場景和技術解決辦法,論證了采用專業群集中建設實訓平臺的優勢。重點從技術層面分析了實訓平臺建設的技術要點:私有云平臺、Docker容器技術、GPU虛擬化技術以及在實訓平臺上的應用場景,介紹了國內外私有云平臺的發展情況以及技術選型,在此基礎上提出了平臺的硬件配置和軟件系統的規劃。
關鍵詞:人工智能;實訓平臺;私有云;Docker容器;GPU虛擬化
中圖分類號:TP18? 文獻標志碼:A
0 引言
人工智能專業培養掌握人工智能基礎專業理論知識、應用技術,從事人工智能相關的應用開發、系統集成與運維、產品銷售與咨詢、售前售后技術支持等工作的高素質技術技能人才。銜接中職專業是計算機應用技術、計算機網絡技術、軟件與信息服務等,接續本科專業是人工智能、智能科學與技術、計算機科學與技術、軟件工程專業等。
2019年11月教育部新增高職(??疲┤斯ぶ悄軐I,專業代碼610217。
2019年全國共173所高職高專院校成功備案人工智能技術服務專業,2020年達到385所,2021年上升到458所[1]。人工智能專業作為一個新興的專業,國內高職院校在該專業的實訓平臺建設處于起步階段。如何建成適合專業發展,實現專業群實訓平臺數據共享、資料共用,教師教學方便、學生樂于使用的實訓平臺是本課題研究的內涵和目標。
近年來隨著云計算(Cloud Computing)技術的不斷發展和成熟,在企業中的應用越來越廣。云計算具有虛擬化、按需獲取、靈活、高效等特點,能夠基于用戶的需求為用戶提供所需的資源[2]。越來越多的高校采用云計算技術建設實訓室,已經成為高校IT類專業實訓平臺發展的一個顯著特點。
1 建設人工智能專業群實訓平臺的必要性
1.1 實踐教學環節多
人工智能專業隸屬于電子信息類專業,它在計算機科學的基礎上融合了計算機、數學、統計學等多門學科,主要學習和人工智能技術相關的理論、方法、技術和應用等,研究的具體內容包括機器人、自然語言處理及機器學習、深度學習等。人工智能專業群則包含了軟件技術、大數據技術、計算機網絡技術等主要專業。這些專業共同的特點是需要理論與實踐相互結合,且專業實踐教學環節多。針對專業群集中統籌建立實訓平臺投資小,效果明顯,受益的學生數量多。
開設了電子信息類專業的高職院校,一般已經在多年前建成了各專業的實訓平臺,在開設人工智能專業之后,面臨單獨新建人工智能專業實訓平臺和整合專業群實訓平臺的選擇,本課題的研究可以為相關學院的領導和老師提供參考。
1.2 符合國家產業規劃
人工智能(Artificial Intelligence,AI)是研究智能信息處理和開發具有智能特性的各類應用系統的核心技術,現已成為當今科學技術發展的前沿學科,扮演著越來越重要的角色。世界各國都十分重視人工智能前沿研究、技術發展與教育培養[3]。2021年中央網信辦、國家發展改革委會同有關部門組織編制了《“十四五”國家信息化規劃》(簡稱《規劃》),系統謀劃“十四五”時期數字中國建設的時間表、路線圖、任務書。《規劃》提出,到2025年,我國數字經濟核心產業增加值占GDP比重從2020年的7.8%提高到10%,人工智能專業群完全符合產業規劃[4]。
1.3 平臺應滿足各專業實訓要求
人工智能專業群中包含軟件技術、大數據技術、計算機網絡技術等主要專業。這4個主要專業的實訓平臺各有特點。
計算機網絡技術專業實訓平臺常見的有:設備模擬軟件、虛擬實驗系統、開放式計算機網絡虛擬化實驗室3類。設備模擬軟件可以提供虛擬的網絡化環境,學生在虛擬環境下進行網絡組建、網絡管理等操作;虛擬實驗系統的主體思想是通過軟件來模擬硬件,以此來節約成本,增加學生實訓的機會,虛擬機軟件能最大限度地利用硬件資源,在虛擬機中安裝設備模擬軟件,還能一定程度上減少實訓室管理的維護工作;開放式計算機網絡虛擬化實驗室主要是利用遠程桌面或者Web服務來為學生拓展實訓的空間和時間。設備模擬軟件與開放式計算機網絡虛擬化實驗室是發展的趨勢。
大數據技術專業實訓平臺對帶寬和存儲的要求相對更高,一般采用虛擬化技術,搭建教學系統和集群。采用虛擬化技術將硬件資源設備進行虛擬化,把大數據軟件和已有的桌面應用云端化,將軟硬件資源進行最大化地利用[5]。
軟件技術專業實訓平臺的核心功能是為學生提供數據庫、Web前端、Java、Java Web、Dot Net、Python、Android等開發環境,對單機的性能要求較高。如果采用虛擬化技術,可以在服務端針對不同專業的學生定制不同的鏡像包,合理分配計算和存儲資源來解決問題。
人工智能專業實訓平臺對算力和算力的分配要求較高。如果為每個學生工位配置高算力的工作站,投資過大,資源利用率也不高。因此GPU虛擬化是必然的選擇。
通過以上對各專業實訓平臺的需求分析可以看出,在目前現有技術水平下,完全可以通過一套平臺解決4個專業的實訓問題。
1.4 統一平臺優勢明顯
一般來講,上述4個專業在同一個系部或者二級學院,以系部或者二級學院為單位統籌建設能較好地調配資源,提高資源利用率,具體表現在以下幾個方面。
首先,隨著市場行情和人才需求的變化,各專業招生人數有一定的浮動。例如,2013年左右,軟件技術專業移動應用開發方向火爆,該專業招生人數較多。2015年左右大數據專業成為熱門專業,招生人數較多。2017年左右Web開發中,前后端分離開發逐漸在行業內達成共識,前端發開發人才需求旺盛,直接反映在招生人數上。2020年前后,市場對人工智能專業人才需求明顯提升,高職院校紛紛開設該專業,招生人數逐年增多。雖然各專業人數有所波動,但是專業群招生人數變化相對不大。因此,通過專業群共建實訓平臺,可有效解決專業群內各專業因招生人數變化引起的資源調配問題。
其次,傳統的實訓室以各自的專業為單位,各建各的,各管各的,管理和維護人員技術水平和素質參差不齊。服務器集中管理降低故障率、節約空間、節約人力成本。
2 平臺建設的技術要點
基于對各專業需求的分析,人工智能專業群實訓平臺的建設應采用云計算技術架構,即多臺中心服務器加工作站的方案。中心服務器配置高性能CPU、GPU、大容量內存、存儲網絡,組成集群,工作站配置性能一般的PC機。教師通過Web端進行管理,學生通過Web端訪問學習資源,通過HTTP,HTTPS,RDP或者SSH等協議進入實訓環境進行學習。
2.1 私有云平臺
基于對上文對專業群教學需求的分析,單臺高性能服務器無法滿足需求??梢詫⒍嗯_高性能服務器和存儲設備組成私有云平臺,集中管理、調度,合理分配資源。私有云平臺的選擇較多,國外的產品有VMware的vSphere、OpenStack、CloudStack,國內的產品有華為、新華三、浪潮、EasyStack和九州云、SmartX、StarVCenter等。其中VMware的vSphere是最成熟的產品,無論在國外或是國內的虛擬化市場都占據著舉足輕重的地位,但是在最近出現的VMware對俄停服事件,以及國產化、信創化的大背景下,vSphere無疑應該在名單之外。OpenStack是一個開源的云計算管理平臺項目,由一系列的開源項目組成,覆蓋了網絡、虛擬化、存儲等各個方面。國內的整體私有云解決方案大部分以OpenStack為基本技術棧進行構建。阿里云于2016年面向政企客戶推出了Apsara Stack專有云解決方案,2017左右騰訊云分別推出基于OpenStack,Kubernetes等技術的TStack和基于公有云架構的Tencent Cloud Enterprise平臺,華為Fusion Cloud提供從IaaS,PaaS到DaaS的全棧私有云解決方案,新華三推出基于OpenStack的H3Cloud OS云操作系統。
國內互聯網巨頭均沒有針對高校實訓平臺推出較通用的解決方案。為高校實訓場景提供產品或者解決方案的有:北京普開數據技術有限公司、廣州泰迪智能科技有限公司、優選創新科技有限公司、鄭州云海科技有限公司、南京云創大數據科技股份有限公司、曙光信息產業股份有限公司等。
2.2 Docker容器技術
Docker是一個開源的應用容器引擎,開發者可以將環境、依賴的組件、應用打包到鏡像中,然后發布到任何流行的Linux,Windows,MacOS操作系統的機器上實現虛擬化。容器完全使用沙箱機制,相互之間不會有任何接口。Docker系統由四部分構成,分別是:Docker Client,Docker Daemon,Docker Image,Docker Container。Docker使用客戶端—服務器(C/S)架構模式,通過API來創建和管理Docker容器。Docker容器通過Docker鏡像來創建實例。容器與鏡像的關系類似于面向對象程序設計中的實例與類的關系??蛻舳撕头斩思瓤梢赃\行在一個機器上,也可分開部署,通過Socket或者RESTful API進行通信。Docker Daemon 在宿主主機后臺運行,等待接收來自客戶端的消息。Docker客戶端則為用戶提供一系列可執行命令,用戶通過這些命令實現跟Docker Daemon交互。
Docker有以下幾個特點:一是開銷小,啟動速度快,可達到秒級。二是提供一致的運行環境。Dockerfile使鏡像構建透明化,Dockerfile本身是文本描述文件。三是持續交付和部署。對開發和運維人員來說,最希望的就是一次創建或配置,可以在任意地方正常運行。使用Docker可以通過定制應用鏡像來實現持續集成、持續交付、部署。四是方便遷移。由于Docker確保了執行環境的一致性,使得應用的遷移更加容易。Docker可以在很多平臺上運行,無論是物理機、虛擬機、公有云、私有云其運行結果是一致的。Docker的典型應用場景有:應用的打包與部署自動化、創建輕量,私密的PAAS環境、實現自動化測試和持續的集成/部署、部署與擴展WebApp,數據庫和后臺服務。
Docker與虛擬機都能提供類似虛擬化的效果,但是兩者差異明顯。Docker比虛擬機少了一層操作系統,如圖1所示。Docker的APP是直接運行在宿主機上的,而虛擬機的APP是運行在宿主機上的虛擬操作系統上。在啟動時間上,Docker啟動速度快,可達到秒級;虛擬機啟動達到分鐘級,包含啟動虛擬操作系統和啟動應用的時間。存儲資源的使用上,Docker也小得多,一般是MB級別,僅應用的大小,而虛擬機是GB級,包含操作系統和應用的大小。在性能上Docker接近原生部署,虛擬機弱于原生部署。Docker并非萬能,它有以下3方面的缺點:(1)隔離性較差。虛擬機系統硬件資源完全是虛擬化的,當一臺虛擬機出現系統級別的問題,往往不會蔓延到同一宿主機上的其他虛擬機,而容器之間共享同一個操作系統內核以及其他組件,所以在受到攻擊、應用有Bug之類的情況時,更容易通過底層操作系統影響到其他容器。(2)存儲方案弱。Docker容器提供的解決方案是利用Volume接口形成數據的映射和轉移,以達到數據持久化的目的,但I/O效率低下。(3)安全性問題。容器與主機共享相同的系統內核。如果出現嚴重漏洞,惡意代碼可能會在主機操作系統上執行,而非在容器內執行;如果此漏洞允許任意內存訪問,則攻擊者可以更改或讀取任何其他容器的任何數據。
通過上文對Docker技術的分析可以發現,在實訓平臺的建設中,Docker技術有廣闊的應用前景。比如教師在上“Linux操作系統”等平臺基礎課程時,可以在數秒鐘之內,為全班40名同學每人創建一個基于Docker的虛擬Linux環境。在平臺建設中,應根據實訓內容選擇適當的技術為學生提供實訓操作環境。
2.3 Kubernetes
Kubernetes是一個可移植容器的編排管理工具。隨著應用越來越復雜,容器的數量也越來越多,造成了容器的管理和運維難度加大,僅僅依賴Docker的API進行管理,工作量大,非常不方便,在這樣的場景下,Kubernetes出現了。Kubernetes集群由Master節點和Node節點組成。Master節點指的是集群控制節點,管理和控制整個集群。除Master以外的節點被稱為Node節點。每個Node都會被Master分配一些工作負載(Docker容器),當某個Node出現故障時,該節點上的工作負載就會被Master自動轉移到其他節點上。
2.4 GPU虛擬化技術
在IaaS平臺的技術選型過程,需要特別注意的問題是GPU的虛擬化,即vGPU。vGPU即真正意義上的GPU虛擬化方案,它是將一塊GPU卡的計算能力進行切片,分成多個邏輯上虛擬的GPU,以vGPU為單位進行算力分配,將單塊GPU卡分配給多臺虛擬機使用,即多個用戶使用,使得虛擬機能夠運行3D軟件、進行AI運算。真正實現了GPU資源的按需分配,大大降低用戶的使用成本以及提高數據的處理效率和數據安全性。過渡方案無法對物理GPU的計算能力進行切片,但能夠將物理機上指定的GPU綁定到一臺虛擬機上,使用完成后從虛擬機解除綁定即可綁定到另一臺虛擬機使用,操作過程中虛擬機不停機,適用于虛擬機做圖像渲染和AI計算的場景。因此,高校在與廠家對接過程應特別注意。
3 平臺建設主要內容
專業群實訓平臺建設包含硬件平臺、軟件平臺、課程資源、實訓平臺的管理維護等多個方面,其中硬件平臺和軟件平臺是重點,平臺的系統架構如圖2所示。
3.1 硬件平臺建設
現代大學生在入學之后,配備電腦的比例非常高,根據2013年《大學生筆記本電腦調查報告》對某本科在校生的調查顯示,擁有電腦的人占到被調查總人數的85%。隨著社會經濟水平的發展,這一比例應該進一步提高。專業群實訓平臺硬件建設的重點應放在服務器上,多臺服務器、SAN通過萬兆交換機連接,組成高性能、大容量集群。服務器CPU的核心和GPU算力的配置是整個平臺硬件配置的難點。一般來講,配置虛擬CPU時,虛擬插槽數應不大于實際物理CPU數量,每個插槽內核數應不大于每個物理服務器的核心數,這樣才能更充分地發揮虛擬CPU的處理能力[6]。CPU的核心主要分配給平臺自身軟件以及虛擬化桌面和容器。虛擬化桌面和容器可以根據各專業的人數進行計算。
為提高服務器的可靠性、穩定性,減少服務器噪聲對實訓室環境的影響,可設立單獨的服務器機房,配備高精度空調,為機房提供穩定可靠的工作溫度、相對濕度、空氣潔凈度。
考慮到學校可能有承辦高職院校職業技能大賽、組織“1+X”技能證書考試的需要,實訓室同時也需要配置一定數量的工作站。工作站的數量可根據各專業群人數和場地綜合考慮。工作站硬件配置的下限是達到承辦高職院校職業技能大賽的要求。比如,2022年四川省職業院校技能大賽移動應用開發賽要求主辦方提供的比賽電腦能流暢地進行Android應用開發,那么CPU至少應該是Intel的8代酷睿I5以上、內存16G以上,并配備固態硬盤。由于服務端可以提供GPU虛擬化技術,可以考慮不在工作站配置GPU。
3.2 軟件平臺建設
基于高校學生日常教學和實訓的具體業務需求,專業群實訓平臺應包含:實訓管理系統、云計算資源管理系統、課程資源管理系統。3個系統中,云計算資源管理系統是基礎,管理整個集群的所有硬件資源,并提供虛擬化和容器服務,可以是基于OpenStack的擴展。實訓管理系統和課程資源管理系統屬于核心業務系統,可以部署在虛擬服務器上。
云資源管理平臺應具備以下功能:超融合集群部署,無固定中心、高可用,隨著服務器的增加,計算、存儲、網絡的整體運行處理能力無限擴展;支持主流的虛擬化引擎(KVM)模式;支持容器集群(LXC、Docker)模式;提供各維度(CPU、I/O、網絡、存儲等)監控展示云平臺資源運行狀態;支持獨立的存儲集群網絡;支持模板鏡像庫、光盤鏡像庫,可通過模板鏡像、光盤鏡像快速創建虛擬機;支持從磁盤鏡像導入,支持MDK,VDI,VHDX,QCOW2等多種格式文件;支持自定義虛擬子網,虛擬機的每塊虛擬網卡都可以接入一個虛擬子網,虛擬子網間支持VLAN隔離;支持物理GPU綁定到虛擬機與解綁,支持vGPU綁定到虛擬機與解綁;支持SAN存儲單元管理,發現物理主機上新劃分的SAN存儲單元,主要用于SAN存儲接入方式的存儲擴容;支持虛擬共享磁盤定義;支持三網分離,管理網、業務網、存儲網分別走不同的物理鏈路;支持負載監控、異常監測與告警;支持資源動態視圖。
實訓管理系統應具備以下功能:學生可查看實訓課程、實驗、作業詳細內容;學生在實訓過程中通過該系統明確學習內容、學習目標、實驗安排、參考資料等信息;實驗按照階段進行設置,學生可以從全局上看到自己的學習路徑,從而按照學習內容選擇相應的實驗課程進行實操;提供在線實驗環境,可以在線撰寫實驗報告,支持簡化交互式計算與數據分析類實驗;支持實驗文檔與執行代碼收歸;支持Linux/Windows虛擬機在線實驗環境,支持Docker容器,集成Linux編譯環境,可方便地根據實驗內容在Linux環境中進行操作,并直觀地驗證實驗結果;實訓過程中需要用到的各類虛擬環境,由教師統一配置,學生可以一鍵進入,用完自動回收資源,資源分配與回收功能由云計算資源管理系統提供。
課程資源管理系統與實訓管理系統不同,以課程為單位組織內容,包含教學活動、教學統計、教學資源、通知、作業、考試、討論等功能模塊。課程資源管理系統與實訓管理系統深度整合,學生在實訓過程中無須登錄課程資源管理系統,就可以獲取到相應的資源。
4 結語
隨著時代飛速發展,技術不斷進步,通過私有云平臺搭建實訓環境已經成為主流。人工智能專業群內的多個專業有相同點,在教學過程中需要理論與實踐相互結合,并且專業實踐教學環節較多。同時各專業又有自身的特點,計算機網絡專業的實訓環境要求虛擬化、網絡化,大數據技術專業實訓平臺對帶寬和存儲的要求相對更高,軟件技術專業需要針對不同的開發方向配置不同的鏡像環境,人工智能專業實訓平臺對算力和算力的分配要求較高。通過對私有云平臺核心技術OpenStack、Docker容器技術、Kubernetes容器編排技術、GPU虛擬化技術的分析,得出專業群集中建設實訓平臺完全可行的結論,并給出了硬件平臺配置建議、軟件平臺功能建議,希望對高職院校實訓室管理員、實訓中心主任有所幫助。
參考文獻
[1]高校人工智能與大數據創新聯盟.高職院校人工智能技術應用(服務)專業排行榜2022全國463所高職高專院校人工智能專業教育教學綜合實力一覽表[EB/OL].(2020-07-08)[2022-06-10].https://www.163.com/dy/article/H9H0OV7F0532N2UB.html.
[2]謝顯杰.基于OpenStack的私有云平臺構建研究[J].信息與電腦(理論版),2022(5):88-91.
[3]謝榕.人工智能的國際化—多元化創新教學模式[J].計算機教育,2017(6):165-170.
[4]趙英昌.大學生筆記本電腦調查報告[J].企業導報,2013(4):114-115.
[5]李自臣,劉江越,陳梅.職業院校大數據應用技術實訓平臺的建設[J].黑龍江科學,2019(15):7-8,11.
[6]譚志遠,黃巍,宮云平,等.VMware虛擬機性能評估分析[J].移動通信,2015(5):92-96.
(編輯 傅金睿)
Construction of artificial intelligence specialty group training platform in colleges
Liao? Ruofei
(Sichuan College of Information Technology, Guangyuan 628040, China)
Abstract:? There is an urgent need to build a practical training platform for artificial intelligence professional group based on cloud computing technology in higher vocational colleges. This paper analyzes the current situation of artificial intelligence major in higher vocational colleges, the goal of talent training, and the necessity of the construction of practical training platform of artificial intelligence major group. It analyzes the scenes and technical solutions in the practical training and daily teaching process of each major in the professional group, and demonstrates the advantages of using the professional group to build the practical training platform. Focus from technical analysis of the main technical points in the construction of practical training platform: private cloud platform, Docker container technology, GPU, virtualization technology, as well as in training platform application scenarios, introduces the development of private cloud platform and technology selection, on the basis of this puts forward the platform of hardware configuration and software system planning.
Key words: artificial intelligence; training platform; private clouds; docker container; GPU virtualization