



摘要:互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,促進車機應(yīng)用的云端遷移,借助云端無限擴展能力以提供更強大的算力和豐富的功能以及娛樂資源。在G-Cloud云空間項目中,通過對每個車機用戶提供對應(yīng)云端實例方式來獲取豐富的云端生態(tài)服務(wù),但遇到的挑戰(zhàn)是提升用戶滿意度與節(jié)省成本存在沖突。一方面,希望盡可能地多提供在線云端實例資源以供用戶隨開隨用,無須等待;另一方面,實例的開啟對應(yīng)著成本的支出,不可能無限提供云端資源,需要關(guān)閉非在用資源,以備有需求用戶使用,同時減少資源浪費。較好的解決方案是基于用戶的使用需求,結(jié)合系統(tǒng)實時資源,使用大數(shù)據(jù)驅(qū)動技術(shù),智能觸發(fā)實例的預(yù)加載以及釋放操作。
關(guān)鍵詞:大數(shù)據(jù)學習;車云一體化;智能調(diào)度
doi:10.3969/J.ISSN.1672-7274.2024.12.021
中圖分類號:TN 929.5;TP 3" " " " " " 文獻標志碼:A" " " " " " 文章編碼:1672-7274(2024)12-00-04
Research on Intelligent Scheduling of Vehicle Cloud Integration Driven by Big Data
YU Chao, WANG Donghai, XUE Feng, CAO Ming
(Geely Automobile Research Institute (Ningbo) Co., Ltd. (Central Research Institute), Ningbo 315000, China)
Abstract: The rapid development of Internet technology promotes the cloud migration of car machine applications, and provides more powerful computing power, rich functions and entertainment resources by virtue of the unlimited expansion capability of the cloud. In the G-Cloud cloud space project, rich cloud ecosystem services are obtained by providing corresponding cloud instances for each car user, but the challenge encountered is the conflict between improving user satisfaction and saving costs. On the one hand, we hope to provide as many online cloud instance resources as possible for users to use anytime without waiting; On the other hand, the activation of instances corresponds to the expenditure of costs, and it is impossible to provide unlimited cloud resources. Non active resources need to be closed for users in need, while reducing resource waste. A better solution is based on user needs, combined with real-time system resources, using big data-driven technology to intelligently trigger instance preloading and release operations.
Keywords: big data learning; vehicle cloud integration; intelligent scheduling
1" "研究背景
5G時代,物聯(lián)網(wǎng)、人工智能驅(qū)動產(chǎn)業(yè)結(jié)構(gòu)發(fā)生了顛覆式的變革,汽車的功能屬性由傳統(tǒng)的出行工具向移動智能空間轉(zhuǎn)型升級,汽車應(yīng)該具備更多智能化功能,讓用車體驗更加便捷和舒適。單純依賴車機底座應(yīng)用資源,無法滿足用戶日益增長的智能化服務(wù)需求。當前,云計算技術(shù)快速發(fā)展,因云計算的高靈活性、可擴展性、高性價比,“服務(wù)上云”成為趨勢,即借助網(wǎng)絡(luò)資源,實現(xiàn)管理、業(yè)務(wù)等方面的數(shù)據(jù)化轉(zhuǎn)型,具有成本更低、性能更強、管理更方便等優(yōu)勢[1]。與此同時,“服務(wù)上云”在實際應(yīng)用中也存在一些問題:一是實例加載速度慢。在正常加載資源的情況下,實例開機需要等待30 s左右,用戶體驗有待提升。二是實例資源閑置浪費。車機用戶使用完實例,云端不會直接關(guān)閉,需要一段時間后,檢測到車機失聯(lián)、斷電或者無數(shù)據(jù)推流情況下,才會觸發(fā)實例關(guān)閉,資源回收。
基于以上痛點問題,G-Cloud云空間項目組考慮構(gòu)建智能調(diào)度系統(tǒng)。智能化的資源調(diào)度基于大數(shù)據(jù)預(yù)測未來的需求,對資源彈性配置,方案利用現(xiàn)有的數(shù)據(jù)采集技術(shù),結(jié)合前沿的互聯(lián)網(wǎng)、大數(shù)據(jù)采集挖掘等技術(shù),實現(xiàn)了資源配置的網(wǎng)聯(lián)化和智能化,為用戶提供流暢的使用體驗,為企業(yè)節(jié)省成本,引領(lǐng)了跨界科技深度融合,創(chuàng)造了全新價值。
2" "技術(shù)介紹
2.1 智能調(diào)度系統(tǒng)簡介
智能調(diào)度系統(tǒng)是指系統(tǒng)通過分析歷史的用戶行為數(shù)據(jù)和資源使用情況,智能預(yù)測用戶的使用需求并相應(yīng)調(diào)度分配資源。對應(yīng)的設(shè)計方案對應(yīng)如圖1所示。
智能調(diào)度系統(tǒng)是一種基于大數(shù)據(jù)模型智能預(yù)測調(diào)度云端實例資源的解決方案,完整的系統(tǒng)框架包括以下三大功能模塊。
(1)數(shù)據(jù)源模塊:負責車機端及云虛擬機的數(shù)據(jù)采集。數(shù)據(jù)采集模塊通過加入埋點等方式,采集外部數(shù)據(jù)進入業(yè)務(wù)中臺。數(shù)據(jù)源模塊由云虛擬機和云底座(車機端)共同提供,具體表現(xiàn):一是云虛擬機經(jīng)由OpenAPI網(wǎng)關(guān)以HTTP接口調(diào)用的方式推送埋點數(shù)據(jù)信息,包括實時推流狀態(tài)以及系統(tǒng)資源使用情況等數(shù)據(jù)。二是云底座(車機端)通過MQTT長鏈接方式推送埋點數(shù)據(jù)信息,包括車機失聯(lián)、車機啟動(ACC-ON)、熄火(ACC-OFF)等事件。
(2)智能調(diào)度中心:部署在私有云業(yè)務(wù)中臺,包括策略管理和資源調(diào)度兩個子模塊。其中,策略管理模塊由開機預(yù)熱策略和關(guān)機預(yù)留策略組成;資源調(diào)度模塊由實例資源加載模塊和實例資源回收模塊組成,實例資源回收模塊可以通過事件觸發(fā),也支持定時主動回收。
模塊通過kafka接收數(shù)據(jù)源采集的事件數(shù)據(jù),策略中心判斷監(jiān)聽到的事件是否觸發(fā)策略,發(fā)送接口請求到計算中心,并基于請求結(jié)果判斷是否需要進行資源調(diào)度響應(yīng)。
(3)計算中心:部署在私有云上,主要包括模型訓練和模型預(yù)測兩部分。模型通過歷史數(shù)據(jù)進行離線訓練,當收到智能調(diào)度中心的預(yù)測接口請求時,調(diào)用開機預(yù)熱/關(guān)機預(yù)留接口,并返回結(jié)果數(shù)據(jù)到智能調(diào)度中心,進而形成決策反饋到實例上。
2.2 智能調(diào)度系統(tǒng)設(shè)計
云端實例資源狀態(tài)設(shè)置有使用中、空閑、開機預(yù)熱和關(guān)機預(yù)留四種狀態(tài),其中開機預(yù)熱和關(guān)機預(yù)留兩種狀態(tài)分別對應(yīng)智能調(diào)度系統(tǒng)對于車機行為預(yù)判后的觸發(fā)響應(yīng),當系統(tǒng)空閑資源不足時,需要去不同隊列中尋找可以釋放的資源。下面分別對三種情況進行闡述。
(1)資源調(diào)度開機預(yù)熱流程如圖1所示,系統(tǒng)監(jiān)測到云底座ACC_ON狀態(tài)以及云底座與中臺建立心跳事件后,使用模型基于車機實時狀態(tài)判斷是否滿足開機預(yù)熱條件,滿足則進入開機預(yù)熱環(huán)節(jié)。開機預(yù)熱后實例資源在時間T內(nèi)未被使用,則回收資源。
(2)關(guān)機預(yù)留流程說明。系統(tǒng)監(jiān)測到云底座是否失聯(lián)狀態(tài)、ACC_OFF事件以及推流結(jié)束事件后,使用模型預(yù)測和規(guī)則策略,基于車機實時狀態(tài)判斷是否滿足關(guān)機預(yù)留條件,滿足則進入關(guān)機預(yù)留環(huán)節(jié),否則不進行處理。
當進入關(guān)機預(yù)留狀態(tài)后,系統(tǒng)會設(shè)置一個定時器,時間的設(shè)置依賴于規(guī)則策略的預(yù)先配置(采用規(guī)則策略關(guān)機預(yù)留)或是算法模型的預(yù)測時間輸出(采用算法模型計算),當計時器計時結(jié)束后關(guān)機。在計時器計時結(jié)束前,如果監(jiān)測到恢復(fù)事件,包括ACC_ON、心跳恢復(fù)以及開始推流事件,會即時打斷并退出關(guān)機預(yù)留狀態(tài),切換到正常使用狀態(tài)。
(3)資源釋放流程說明。需要說明的是,實例開機需要有云端空閑資源提供,當空閑資源到達設(shè)定閾值警戒線時,會觸發(fā)開機預(yù)熱隊列以及關(guān)機預(yù)留隊列釋放占用的資源,高優(yōu)先級優(yōu)先從未達到閾值的最低優(yōu)先級資源池中獲取資源,如最低優(yōu)先級達到閾值,則從次低優(yōu)先級資源池中獲取,依此類推[2]。低優(yōu)先級資源池無法從高優(yōu)先級資源池獲取資源。當需要從開機預(yù)熱或關(guān)機預(yù)留資源池中獲取資源時,按照等待時長降序依次釋放。
同時為了保證云虛擬機資源最大化利用(未使用實例資源及時回收),避免資源浪費,系統(tǒng)也會定時去兩個隊列進行資源監(jiān)測以及釋放操作。
當所有資源達到閾值且不滿足推流中資源時,須云端擴容新增資源,并同時使空閑閾值內(nèi)的資源供新增推流使用,同時不再提供資源給開機預(yù)留及關(guān)機預(yù)留,直至資源擴容完成。
⊙ 智能調(diào)度系統(tǒng)是一個集數(shù)據(jù)埋點采集、智能
調(diào)度策略配置、資源調(diào)度以及計算中心模型訓練
預(yù)測等,基于用戶最近使用習慣,以及當前日期對
應(yīng)是否節(jié)假日等屬性的訓練預(yù)測模型,預(yù)測用戶
使用狀態(tài)變化。
⊙ 同時業(yè)務(wù)側(cè)增加約束邏輯,對白名單、黑名單
用戶單獨處理,同時增加在資源不足的多并發(fā)
請求場景中優(yōu)先滿足高優(yōu)用戶邏輯。
在智能調(diào)度系統(tǒng)中,以開機預(yù)熱模塊為例,現(xiàn)階段的核心算法模型采用全連接神經(jīng)網(wǎng)絡(luò)[3]。輸入?yún)?shù)包括用戶的最近使用時長、用戶注冊時間、最近推流時長、推流次數(shù)以及是否節(jié)假日等,通過接入三層的隱藏層,實現(xiàn)是否需要對模型進行預(yù)熱的預(yù)測。如圖3和圖4所示。
通過正則化以及合理地設(shè)置模型學習率等方式,實現(xiàn)訓練模型的準確率達77%,召回率達85%+。
使用訓練好的模型為業(yè)務(wù)數(shù)據(jù)提供預(yù)測接口,在用戶車機系統(tǒng)啟動時候,觸發(fā)接口調(diào)用,對比觀測兩周,由模型的預(yù)測結(jié)果以及用戶實際操作可知,最終模型召回率達到85%,實現(xiàn)預(yù)期。
3" "未來趨勢
該項目的核心在于調(diào)度策略配置的自動化,規(guī)則策略的合理性以及預(yù)測模型的精準度。規(guī)則配置越合理、模型預(yù)測結(jié)果越精準,越利于業(yè)務(wù)資源的動態(tài)合理分配。隨著用戶數(shù)據(jù)的持續(xù)積累,該項目將持續(xù)進行流程優(yōu)化以及算法模型迭代。
短期目標設(shè)置分兩階段:第一步先確保流程的自動化,基于規(guī)則配置進行開關(guān)機調(diào)度,確保在有、無異常的場景下均可以實現(xiàn)流程的流轉(zhuǎn)。第二步接入預(yù)測模型,從特征層面進一步擴充特征信息,并考慮新增構(gòu)造混合特征,精細化的建模有利于模型準確率的提升。
由于用戶行為的復(fù)雜性,隨著圖神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)的迅速發(fā)展,考慮更好的建模多變量時間序列數(shù)據(jù)中成對變量之間的潛在空間依賴,通過圖學習模塊融合外部知識和變量之間的單向關(guān)系,同時捕獲空間和時序依賴。
另外,也可以考慮通過模塊化結(jié)構(gòu)將復(fù)雜時序變化分解至不同周期,并通過將原始一維時間序列轉(zhuǎn)化至二維空間,來實現(xiàn)周期內(nèi)與周期間變化的統(tǒng)一建模。現(xiàn)在也已經(jīng)開始有這方面的前沿研究,如TimesNet等。
遠期目標的實現(xiàn)依賴于對車機用戶的深度感知,對用戶行為模式的學習和理解,同時依賴于底層硬件以及GPU等資源支持,以及對前沿技術(shù)的深刻理解,并結(jié)合項目的現(xiàn)狀進行落地思考。
4" "結(jié)束語
智能調(diào)度系統(tǒng)的構(gòu)建借助物聯(lián)網(wǎng)以及機器學習等人工智能技術(shù),實現(xiàn)對用戶需求的精準預(yù)測,可以動態(tài)進行資源的合理配置,為服務(wù)上云提供智能化運維支持,降低車企服務(wù)運營成本,推動車企的數(shù)字化轉(zhuǎn)型升級,加速產(chǎn)業(yè)領(lǐng)域人工智能的落地。構(gòu)建數(shù)據(jù)生產(chǎn)→消費→再生閉環(huán),通過持續(xù)使用數(shù)據(jù)智能,反哺業(yè)務(wù),從而實現(xiàn)數(shù)據(jù)變現(xiàn)的系統(tǒng)和機制。
參考文獻
[1] 王占豐,張林杰,呂博,等.基于機器學習的云計算資源調(diào)度綜述[J].無線電通信技術(shù),2022,48(2):213-222.
[2] 常旭征,焦文彬.Kubernetes資源調(diào)度算法的改進與實現(xiàn)[J].計算機系統(tǒng)應(yīng)用,2020,29(7):256-259.
[3] J. Chen and Y. Wang, \"An Adaptive Short-Term Prediction Algorithm for Resource Demands in Cloud Computing,\" in IEEE Access, 2020 vol. 8, pp. 53915-53930.