









摘要:隨著多模態感知技術的飛速發展,物聯網技術與多模態感知技術的結合應用受到了廣泛關注。文章以遠程監測為切入點,結合多模態感知技術和混合現實(Mixed Reality,MR) 技術,實現對遠程目標的實時信息獲取和分析,從而對目標狀態進行監測與評估。在技術探究層面,依托多模態感知技術和混合現實技術在遠程監測領域的應用綜述、分析和方法,提出遠程監測解決方案。在社會發展層面,遠程監測方法為社會各行各業提供了成熟的解決方案和增值服務,為相關研究人員和開發者提供了有益的參考,從而助力虛擬現實與行業應用的融合和可持續發展。
關鍵詞:多模態;MR技術;行業應用;遠程監測
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2024)27-0027-04 開放科學(資源服務)標識碼(OSID) :
0 引言
隨著人工智能相關技術的不斷進步,自動化與虛擬現實逐漸成為關注的熱點話題,其中,如何將自動化與虛擬現實技術有機融合受到廣泛關注。在《“十四五”數字經濟發展規劃的通知》[1]中,國務院提出了“推動產業數字化轉型”的概念,即加快資源虛擬化聚集,構建虛實結合的數字化新生態。同時,《現實與行業應用融合發展行動計劃(2022—2026)》[2]中確立了到2026年在虛擬現實與行業應用的融合發展方面取得重大進展的目標,包括實現虛擬現實與教育、工業、醫療等領域的深度融合,形成一批具有示范效應的應用場景和典型案例。
多模態感知技術[3]是一項綜合性技術,能夠通過多種傳感器和數據源的信息來實現對環境或事物的感知和理解。隨著傳感器技術和信號處理技術的發展,熊鵬文等人在文獻[4]中設計了一種結合觸覺和視覺的多模態觸覺傳感器,該傳感器利用單個傳感層同時捕捉多種不同的異構觸覺模態信息,可用于識別不同的物體。李楠等人在醫學圖像處理領域提出了一種基于多模態融合的MR腦腫瘤圖像分割方法,通過有效融合多尺度特征,加強了對腫瘤圖像的分割能力[5]。此外,朱厚喜通過結合可見光和紅外熱成像模態的觀測數據,感知并學習潛在滲水區域的跨模態差異成像特征,提出了基于多模態觀測數據的滲水異常檢測技術MFF-WLAD,減少了單一模態干擾因素對滲水異常檢測的影響[6]。
遠程監測方法是一種基于計算機、通信和傳感技術的設備狀態監測技術,通過在監測點與控制中心之間建立網絡連接,實現設備的遠程實時監測[7]與數據傳輸。趙靚等人利用無線傳感器網絡技術在地鐵建設過程中,通過各種參數的實時監測,實現對目標信號的實時采集與監測,幫助施工人員及時發現潛在風險[8]。李鋒等人在文獻[9]中設計了一種基于物聯網的防空工程施工質量監測系統,通過部署多個傳感器,收集各種關鍵數據指標并將數據傳輸到遠程服務器,實現了數據共享和遠程監測。張清淘等人設計了智慧農業遠程監控系統,使得農業從業人員能夠通過系統數據全面了解農作物的生長環境,并能夠對外界環境進行遠程操控,從而實現智慧化管理[10]。
復雜多元的社會環境需要MR技術和多模態感知的有機融合。因此,將MR技術與多模態感知技術應用于遠程監測,提供成熟的解決方案和增值服務,促進數字產業轉型升級,助力數字經濟發展,契合當下時代的發展趨勢。
本文的主要工作包括:1)利用MR技術,設計三維特征提取方法,對圖像和點云數據進行特征提取;2)采用多模態三維特征提取,將多個單一特征融合[11]為多模態特征,并建立多模態感知的神經網絡模型,提取多模態三維特征的特征值進行相關輸入輸出;3)通過檢測目標類別、位置和動作類別等信息輸出,實現下一階段行為的精確預測,以形成融合遠程預判的監測策略并提出示警建議,最終實現遠程監測診斷;4)總結基于多模態感知的遠程監測方法在各個領域的應用。
1 面向MR 技術的三維特征提取
本文使用基于球面調和變換的三維模型特征提取方法,首先進行圖像歸一化預處理,然后進行圖像特征提取,即將圖像中的信息轉化為可用于分析和比較的數值或向量,以便更好地描述和區分不同的圖像。具體步驟如下:
1) 預處理操作。首先對目標模型進行預處理,經過平移變換使模型的重心與坐標原點重合。使用主成分分析(Principal Component Analysis,PCA) 法對三維模型進行平移、旋轉和縮放變換,使模型單位化。
2) 射線投射。從模型內部的重心出發,投射一組射線,其方向沿同經度和緯度分布。
4) 獲得模型的特征向量矩陣 H 后,將矩陣設為M × L,其中矩陣H (i, l) 的元素會影響球面求和函數的 L2 范數。
1.2 點云特征提取
本文使用八叉樹數據結構的方法進行點云特征提取,有助于識別和分割點云中的不同物體或部分。以下是使用八叉樹數據結構進行特征提取的方法:
1) 以晶格中心為重心,設定r 為搜索半徑,計算出最接近每個晶格中心點的 F (i) 值,并將大于閾值半徑范圍內的所有點添加到候選點集 T 中。
2) 在步驟 1) 中選取的候選點集合 T 中,對于每個點的 F (i) 值,如果該值超過預定閾值,則該點被視為精提取的特征點。粗提取半徑搜索圖(見圖1) 。
大圓圈代表搜索范圍,三角形表示晶體網格中心最近的點的 F (i) 值高于閾值,小圓圈表示低于閾值。
2 多模態三維特征提取
2.1 多模態特征融合模型
本文構建了多模態特征融合模型,利用橢圓高斯樣本分配策略,將遠程圖像和三維模型投影到俯視圖來確定中心點,并使用高斯概率密度函數(PDF, prob?ability density function) 創建次中心區域。同時,利用高斯概率作為權重,獲得回歸樣本的權重。具體步驟如下:
將高斯區域的位置作為正位置,并根據歸一化高斯密度函數值對不同位置賦予不同權重。對象的高斯概率密度函數(見公式12) 。
對角矩陣 Λ 為長軸和短軸的縮放比例,λ1 和 λ2分別代表為長軸距離 S21和短軸距離S22的平方(見公式14) 。
此時目標描述可以用于分配樣本。
3 多模態感知的圖像描述方法
3.1 圖像描述算法
本文使用注意力機制方法和長短期記憶(LSTM,Long Short-Term Memory) 模型進行圖像描述,將圖像和三維模型以及已生成的詞向量進行分析和處理,以了解關注內容并作出選擇。具體步驟如下:
在 CNN 特征提取之后,將特征圖設為 a,隨后將特征圖 a 劃分成 L 個相等的部分,每個向量都 ai 對應一個區域:
a = {a1,a2,...,a } L , ai ∈ RD (15)
此時生成的圖片描述y 即為:
y = {y1,y2,...,y } L , yi ∈ Rk (16)
基于訓練集中的圖像文本標簽構建了字典集 K,其中C 為句子的長度。ht 為當前時刻的隱藏狀態;ai為特征圖中的位置,此時可以通過以上兩者計算出能量分布值:
eti = fATT (ht,ai ) (17)
注意力分配概率表示模型在創建 yi 時對位置 ai的關注可能性,使用softmax 根據能量分布值計算得出:
此時,即可獲得圖片的動態上下文信息(ct):
3.2 描述生成方法
本文通過創建一個循環神經網絡(RNN, Re?current Neural Networks) ,并在注意力層后添加一個多模態層,將注意力機制得到的模態權重與各模態的特征輸入融合到循環神經網絡中,從而進行多模態描述生成。最終輸出的計算公式如下:
ht = f2 (Uh ht - 1 + wt ) (20)
mt = g2 (Wh ht + Ws c?t ) (21)
yt = softmax(mt ) (22)
結合處理結果,使多模態層的輸出被發送到 softmax 層,以確定下一個詞的概率分布值。
圖2為整體網絡結構模型的示意圖。在整體網絡結構圖中,V 表示圖像上下文特征向量,xt表示當前時間步的語句輸入, ht 表示為隱層狀態(見圖2) 。
4 遠程監測策略
4.1 半監督異常檢測方法
本方法結合多模態感知和深度學習技術,通過自動提取多模態數據進行學習和預測。它采用異常檢測方法對圖像進行監測,針對圖像中檢測到的目標類別和位置信息,形成融合遠程預測輸出對應的監控策略,實現遠程監測和診斷。網絡框架結構如圖3所示。
5 基于MR 技術的遠程監測方法探究
本文研究了基于MR技術的多模態感知遠程監測方法,并將其有效應用于教育、自動駕駛和醫學影像分析等領域,為使用者的決策與診斷提供精確的輔助預判。
5.1“ 多模態+人機協同”教學
“多模態+人機協同”教學方式使用了智能多模態傳感器感知技術,動態收集教學交互數據,進行多模態數據融合與分析,深入探究教學發生機理,有效引導學生學習,促進知識理解,為學習者創造多維感知的教學空間。“多模態+人機協同”教學方式與數據特征如圖4所示。
5.2 遠程醫學教育
基于MR技術的遠程醫學教育方法,通過提供沉浸式的專業課程仿真實訓與實驗,包括在虛擬場景中模擬手術操作與診斷,并獲得在線反饋和指導;利用MR技術將虛擬解剖模型疊加在真實場景中。此方法實現了醫師學員的無接觸式遠程全景教育,為醫療服務教學提供了高效的協作交流解決方案。
5.3 多模態自動駕駛
多模態多任務端到端自動駕駛方法通過結合深度學習技術,融合多模態數據,實現對周圍環境的全面感知,有效提高了道路駕駛的安全性。在為用戶提供更便捷、舒適的出行體驗的同時,大大減輕了駕駛員的工作負擔,提高了出行效率。
6 總結
與單一模態感知以及單個技術的遠程監測方法不同,本文提出了一種基于MR技術的多模態感知與遠程監測方法。通過對大量多維度數據的遠程輸入,利用多模態特征提取方法對數據特征進行識別與提取,本文通過多模態感知神經網絡模型準確監測目標的類別位置和動作類別信息,以形成融合遠程預判的監測策略。
參考文獻:
[1] 國務院. 國務院關于印發“十四五”數字經濟發展規劃的通知[EB/OL]. (2022-01-12)[2023-12-20]. https://www.gov.cn/zhengce/content/2022-01/12/content_5667817.htm.
[2] 工業和信息化部, 教育部, 文化和旅游部, 等. 關于印發《虛擬現實與行業應用融合發展行動計劃(2022—2026年)》的通知[EB/OL]. (2022-11-01)[2023-12-20]. https://www.miit.gov. cn/jgsj/dzs/wjfb/art/2022/art_3ebd54d32dd04668abe4066182578032.html.
[3] 何赟澤,譙靈俊,郭隆強,等.以圖像為主的多模態感知與多源融合技術發展及應用綜述[J].測控技術,2023,42(6):10-21.
[4] 熊鵬文,尹一凡,童小寶,等.基于新型多模態觸覺傳感器的機器人交互物體分類[J].測控技術,2023,42(4):82-87.
[5] 李楠,張宏立.基于多模態融合的2D MR腦腫瘤圖像分割算法研究[J].光電子·激光,2023,34(8):890-896.
[6] 朱厚喜,曹伍富,李克飛,等.基于多模態特征融合的隧道滲水異常檢測方法[J].計算機應用,2023,43(S2):276-284.
[7] 王博輝,王小鵬,閆子春,等.基于物聯網的遠程物位實時監測系統設計[J].蘭州交通大學學報,2023,42(1):62-70.
[8] 趙靚,魏漢明.基于無線傳感器網絡的地鐵建造遠程監測和風險預警系統[J].中北大學學報(自然科學版),2022,43(4):335-340.
[9] 李鋒.基于物聯網的防空工程施工質量遠程監測系統[J].自動化技術與應用,2023,42(3):105-107,141.
[10] 張清淘.基于物聯網技術的智慧農業遠程監控系統設計[J].南方農機,2023,54(2):84-86.
[11] 錢忠勝,趙暢,俞情媛,等.結合注意力CNN與GNN的信息融合推薦方法[J].軟件學報,2023,34(5):2317-2336.
【通聯編輯:唐一東】
基金項目:江西省大學生創新創業訓練項目(S202210846003)