[崔思靜 李寶榮 潘碧瑩]
近年來,隨著人工智能(AI)技術的不斷演進,終端芯片制造廠商推出的中高端芯片都提供了深度神經(jīng)網(wǎng)絡(DNN)模型的加速計算能力,AI 應用程序逐漸被廣泛落地于終端設備。盡管新一代智能終端的AI 處理單元能力越來越強大,但受限于設備自身有限的資源,AI 應用的計算強度、內存消耗和功耗備受關注。終端設備以及部分邊緣設備對離線運行完整的DNN 模型推理,仍存在著嚴格的計算、內存和能耗成本限制。
通過DNN 模型計算卸載的方式,將全部或部分的模型計算任務卸載到其他設備(包括云設備、邊緣設備或終端設備)上,是近年終端設備控制AI 資源成本的主要研究方向之一。以設備間協(xié)同推理計算的方式,能減輕原設備上計算、內存占用、存儲、功率和所需數(shù)據(jù)速率的壓力,同時減小推理延遲,提高AI 應用的服務質量(QoS)。
本文即針對智能終端設備的DNN 計算卸載決策展開研究,文中第2 節(jié)介紹DNN 計算卸載決策技術發(fā)展現(xiàn)狀,第3 節(jié)針對智能終端特性對DNN 計算卸載系統(tǒng)管線進行進一步研究,同時提出一種適合智能終端AI 應用落地的模型潛在分割點搜索策略,并在第4 節(jié)進行系統(tǒng)仿真實驗,最后在第5 節(jié)給出總結和展望。
計算卸載決策主要解決的是終端設備決定卸載什么、卸載多少以及如何卸載的問題[1]。在DNN 模型計算卸載決策中,根據(jù)設備的處理能力、資源占用情況和網(wǎng)絡環(huán)境,將DNN 模型中計算密集、耗能密集的部分卸載到其他節(jié)點設備,而將隱私敏感和延遲敏感部分留在終端設備。……