王 政,竹夢圓,武 歡,陳亞峰(.中訊郵電咨詢設計院有限公司,北京 00048;.中訊郵電咨詢設計院有限公司鄭州分公司,河南鄭州 450007)
近年來,為響應國資委推進國有企業數字化轉型的工作部署,中國聯通及其下屬的通信工程設計單位針對自身業務開展了數字化轉型工作。通信工程設計單位的核心業務主要是向通信運營商提供通信工程建設相關的技術咨詢、建設方案規劃服務及可行性研究報告、工程設計的編制等工作。以往的工作方式主要是由工程師個人或團隊配合通信運營商以知識服務的形式完成;通信工程設計的數字化轉型是對通信工程設計工作的一次重大革新,它將通信工程設計工作過程中使用到的網絡資源數據、業務數據、專家知識數據等以統一的方式集中存儲并管理起來,工程設計人員借助信息系統以集中化、結構化的數據為基礎來完成通信工程設計的大部分工作。
通信機房及其內部的空調、電源、網絡和計算設備等通信設施資源的數字化工作,是通信工程設計數字化的基礎。據統計,目前中國聯通在全國范圍內擁有大機房(面積為300~500 m2)約1 萬間,基站局房(面積為20~50 m2)數十萬間。如何快速、準確地實現大量通信機房及其附屬通信設施資源的數字化工作,是通信工程設計數字化轉型的重要挑戰。
面對規模龐大的現網資源,完全由人工完成局房及其設施資源的數字化工作幾乎是不可能的;而通過使用先進的人工智能技術,利用三維重建、三維語義分割、目標識別、OCR 文字識別等基于計算機視覺的技術手段,則可以較好地完成大規模現網資源的數字化工作;從而構建起通信工程設計數字化所必需的基礎資源數據,為通信工程設計企業的數字化轉型打下堅實的基礎。
本文主要對在通信工程局房及其設施資源進行數字化的過程中實際應用到的人工智能技術相關原理、技術方案、實施過程及應用效果進行探討說明。
為完成通信局房及其設施數字化,需建立一套基于人工智能技術的勘察作業流程。該作業流程如圖1所示。

圖1 數字化勘察作業流程
a)原始數據采集。需要勘察人員在現場以專用相機拍照方式,采集機房、機柜及設備等的原始圖像數據。
b)采用相關深度學習算法工具,生成機房三維模型,并識別機柜內部設備類別、板卡、端口占用等情況,識別內部設備的相關銘牌文字信息。
c)根據機柜或設備編號將采集的圖片與實際機房中的機柜或設備關聯。
d)根據b)、c)2 步,得到機房內設施資源的完整矢量模型,并存儲為json格式。
e)人工通過用戶界面對矢量模型進行修正或補充,同時將補充的新屬性提交至深度學習算法訓練過程,不斷完善算法識別種類,形成閉環。
數字化勘察過程中,勘察人員親臨現場,通過全景相機拍照方式,對機房環境進行數據采集。采集到的數據是后續三維重建算法的基礎。首先,為保證重建質量、提升重建精度,需確保全景相機的拍攝場景和采集數據覆蓋所有需要重建的區域,否則重建模型會產生空洞、空隙,影響重建信息的完整性。為輔助勘察人員及時發現采集遺漏之處,我們開發了實時預覽功能,勘察人員在采集現場可以及時發現掃描遺漏的地方,并及時補掃,避免由于采樣缺失導致二次采集,從而提升數據采集效率。其次,三維重建算法同時需要全景相機拍攝的視頻關鍵幀以及全景相機坐標系在世界坐標系下的六自由度位姿(包含3 個平移和3 個旋轉)數據作為輸入。視頻關鍵幀在采集過程中即可獲得,為了實現采集現場的實時預覽及運動載體(全景相機)的實時六自由度位姿計算,本文基于SLAM(Simultaneous Localization And Mapping)算法進行求解。
SLAM,即同步定位與地圖構建技術,機器人從未知環境的某點出發,在運動過程中通過重復觀測到的環境特征定位自身位置和姿態,再根據自身位置構建周圍環境的增量式地圖,從而達到同時定位和地圖構建的目的。典型的視覺SLAM 算法以估計攝像機位姿為主要目標,通過多視幾何理論來重構3D地圖。為提高數據處理速度,部分視覺SLAM 算法首先提取稀疏的圖像特征,通過特征點之間的匹配實現幀間估計和閉環檢測。目前代表性的工作有ORB-SLAM、VINSMONO等。
這里使用雙目全景相機作為傳感器,實時跟蹤設備的六自由度位姿。通過對采集到的全景圖像進行圖像處理、提取關鍵點、追蹤關鍵點,建立關鍵點之間的關聯等一系列操作,可獲取歷史關鍵點的關聯信息,結合IMU 觀測到的載體(全景相機)的運動狀態,可進行位姿估計,推測物體在地圖上的準確位置。這里需建立一個迭代求解的優化問題:精準定位需基于高精度無偏差的地圖,但同時高精度的地圖需要精準的位置估計來描繪。通過迭代優化,可精確求解出全景相機在世界坐標系下實時的六自由度位姿和環境中稀疏的關鍵點的3D坐標。在算法后臺,存儲維護視頻關鍵幀,用于全景相機回到之前經過的區域附近后與關鍵幀進行對比實現回環,從而對環境噪聲在運動過程中不斷累加引起的累積定位誤差進行修正,降低對定位、導航精度產生的影響。最終生成全景相機坐標系在世界坐標系下的實時六自由度位姿,作為下一環節三維重建算法的輸入,同時恢復場景的三維幾何結構。
隨著信息技術的發展,三維重建技術已日趨成熟,三維技術成果對基礎設施資源的呈現更加直觀、清晰,其所包含的信息量更大、更豐富,結合AI與三維重建技術適配網絡建設、維護、運營領域應用具有較高的技術研究價值。為建立和完善通用的機房三維智能化平臺,機房三維可視化、三維輔助勘察設計、現場環境AR 再現等業務功能,需對機房及其內部設施資源進行三維重建。
三維重建技術是一種通過圖像或視頻捕獲的視覺信息、定位信息作為輸入,獲取場景和物體的三維模型的一種技術方法。它主要通過尋找特征立體匹配來恢復稠密的三維點云信息,再通過網格構建的技術從三維點云中提取場景或物體的幾何結構。基于三維重建算法可以生成三維點云模型、帶紋理的三維網格模型及全景漫游模型,其中三維模型均包括機房內部布置的實體對象的長寬高、基準點坐標、方向等空間定位信息,可與實際場景進行一對一的對應,供網絡工程師進行工程環境線上AR 漫游和基礎設施遠程巡檢。
目前主流的三維重建技術方案主要包括主動光三維重建和被動光三維重建。這里引入一個概念:光學重建,其分為被動光學和主動光學的重建。主動光重建一般由結構光源發射和接收進行成像,主流方法包括激光掃描法、結構光法、陰影法以及TOF(Time of flight)技術、雷達技術、Kinect技術;被動光重建則是從多視角獲取圖像信息,基于視差原理來完成,主流的被動視覺法包括單目視覺、雙目視覺、多目視覺等方法。
在研發對機房場景下三維重建算法的技術路線時,本文對國內外較為先進的三維重建設備和技術方案分別進行了測試,發現通信局房的場景與設備,特征點少,且表面構成多為鏤空和玻璃,會對激光的發射和接收造成很大的影響。圖2展示了對機柜進行激光三維重建的結果,從建模結果可以看到,由于柜門表面鏤空,接收的激光信息中產生特征點的缺失,建模結果出現較大空洞,嚴重影響建模效果和精度;另一方面,如果采用被動光進行建模,雖然數據采集相對全面,但想獲得很好的建模效果,需要對建模算法進行進一步的研發與優化。

圖2 機柜在主動光重建下的效果
通過對多種三維重建設備及技術方案進行比較測試,最終選定基于全景相機的被動光三維重建技術方案。具體的,在基于SLAM 算法生成的相機位姿基礎上,從全景圖片序列中恢復場景的稠密三維點云結構。重建流程如下。
a)基于SLAM 算法中生成的相機位姿,利用稠密立體匹配技術恢復每張圖像的深度圖。
b)結合相機位姿,將圖像序列的深度圖融合成稠密三維點云。
c)采用表面網格提取技術從稠密三維點云中抽取場景的稠密三維網格。
最終通過全景相機采集的視頻所抽取的照片序列,以及第3 章SLAM 算法求解得到的相機位姿作為輸入,通過稠密三維重建,生成場景的稠密三維點云和網格模型,其中點云和網格模型的頂點均帶有顏色,點云和網格模型的坐標與運動恢復結構算法求解的相機位姿的坐標系一致。然后通過紋理貼圖算法,利用多視角的圖像序列和相機位姿對三維模型做紋理映射,最終生成帶無縫隙紋理貼圖的稠密三維網格模型。
在傳輸機房場景下使用全景相機采集數據并對本方案進行多次測試驗證,結果證明在重建精度及重建完整性方面均優于主動光三維重建方案,基本能夠滿足通信工程數字化設計的要求,可以較好地完成通信機房及其附屬設施的三維數字化工作(見圖3)。

圖3 機房三維建模結果
在對機房及其內部設施完成三維重建后,還需要對三維模型進行語義分類,以將三維空間中的模型與實際的業務邏輯實體關聯起來,實現后續預覽、設置屬性、圖紙生成等業務應用。該功能主要通過三維語義分割技術實現。
三維語義分割是指將場景中的三維模型基本元素進行語義分類,實現對場景內容信息高緯度的理解。通過三維模型稠密語義分割算法,可輸出三維點云或三維面片每個單位元素(點云、體素、網格等)所屬的語義類別,從而將無業務意義的三維模型與具備意義的業務邏輯實體關聯起來。基于語義分割算法,可獲得三維空間模型中各個業務邏輯實體的類別、屬性等,為三維重建的結果提供與語義理解與知識關聯能力。
三維語義分割技術目前主要有2種技術方案。
a)二維語義分割三維融合。通過識別多幀二維圖像的語義分割結果,結合圖像像素與三維坐標的轉換關系,對三維坐標中的點對應的多個二維語義結果進行投票,融合得到最終三維的語義結果。
b)對三維表達進行語義分割。以三維的表達(如點云、體素、網格等)為輸入,直接在三維空間中進行語義分割。
這里采用基于三維表達語義分割的技術方案,使用深度學習中全卷積的網絡結構,以先編碼再解碼的方式,實現對任意大小的圖像輸入的語義分割,網絡結構中的多尺度信息融合設計可以讓網絡對于場景中同一個物體的尺度變化具有更強的魯棒性,特別是機房場景下,設備的大小可能差別較大,需要對設備尺度具有自適應性的三維語義分割方法。通過將三維點云與語義分割能力結合,可以提供三維場景理解能力。目前已實現對天花板、機柜、柱子、墻面、電源柜等機房內部常見物體的識別(見圖4)。

圖4 三維語義分割結果
此外,由于機房中的設備在不斷迭代更新,需要持續增加模型可處理識別的物體種類。因此為賦予模型在線學習的能力,實現三維語義分割能力的持續擴展,還需構建三維語義分割模型的自學習能力。主要技術流程為:
a)前期需要對設備的類型和型號進行少量的人工交互來進行標注和分類,在此過程中積累數據。
b)基于半自動語義標注器,可以在現有模型識別結果的基礎上對新場景進行快速標注,將標注后的新場景擴充到現有數據庫中。
c)利用擴充后的數據庫訓練和更新深度學習網絡模型,從而獲得更好的識別性能。
d)基于三維語義分割技術的機房及其內部設施的語義理解是通信工程數字化設計中的重點,通過在線學習的方法,逐步實現模型自動化標注和自學習功能,實現整個三維語義分割流程的閉環式優化,同時在此過程中不斷積累通信行業基礎設施的三維模型數據庫,在數字化設計領域保持領先優勢。
三維語義分割主要用于完成機房內部設施在三維重建完成后的識別。對于機柜內部放置的設備識別,則需使用二維圖像的目標檢測技術完成。通過目標檢測技術,可實現對機柜內部設備型號、板卡型號及數量、端口占用情況等的識別,從而高效地完成機柜內部設備信息的收集、提取工作。
目標檢測算法主要用于找出二維圖像中所有感興趣的目標,確定它們的位置和類別。該類算法一般包括目標檢測和分類2 個階段,其中檢測階段通常會在輸入圖像中采樣大量的區域,然后判斷這些區域中是否包含感興趣的目標,并調整區域邊緣從而更準確地預測目標的真實邊界框;分類階段則根據目標位置信息,在原始圖像中裁剪出相應區域,確定目標類別。
常用的目標檢測算法有Fast-Rcnn、YOLO、RetinaNet 等,本項目中采用多種算法結合的方式完成目標檢測任務,主要處理流程為:
a)拍攝機柜內設備照片。
b)對照片進行預處理,包括去噪、剪切、拼接等。
c)使用YOLO v5 算法檢測設備、槽位、板卡端口等目標所在位置。
d)采用ResNet50網絡對此類目標進行分類。
采用上述處理流程對機柜內部設備進行識別的樣例如圖5所示。

圖5 空閑端口識別效果
通過應用目標檢測技術,有效提高了機柜內部信息的識別和統計速度。值得一提的是,機柜中線纜較多或布線不規范導致設備或端口被遮擋,會對識別效果造成影響,目前我們通過人工交互的方法解決,未來我們將結合半監督學習的方法,進一步進行優化。
通信機房的機柜、電源、空調及計算機等設備通常貼有運維部門制作的標簽或銘牌,通過識別標簽或銘牌上的文字內容,使用資源管理、網管等系統的查詢接口,可以準確地獲取設備的詳細信息。銘牌字體一般為通用簡體印刷文字,其識別難度遠低于不規則的手寫字體。采用光學字符識別(OCR——Optical Character Recognition)技術識別機房場景內的關鍵文字信息,與目標檢測技術、外部系統查詢接口等配合,可較好地完成設備信息的識別、收集任務。
OCR 是指對輸入圖像文件進行分析處理,識別出圖像中文字信息的過程。OCR 技術一般包括2個核心步驟:文字檢測和識別。基于深度學習的OCR 技術可利用模型算法能力,自動檢測出文字的類別及位置信息,再根據位置信息,從原圖中裁剪出包含文字內容的區域,并自動識別文字內容。主要工作流程為:
a)采集機房內部多種形式的包含文字的圖像。
b)圖像中文本行常存在一定角度的傾斜和透視變換,采用EAST模型檢測文本行對應四邊形的4個頂點。
c)利用頂點在原圖中裁剪出對應檢測框的位置。
d)采用傾斜矯正和透視變換技術,將裁剪出的不規則四邊形轉換為矩形。
e)采用CRNN+CTC模型識別文字內容。OCR文字識別效果如圖6所示。

圖6 熔斷器文字識別效果
采用OCR 技術識別文字信息,解決了人工錄入存在的繁瑣、低效、易出差錯的問題,有效提高了機房內部文字信息的收集效率。不足之處在于,拍攝存在模糊、散焦以及中英文混合的場景,會對識別效果造成影響,下一步我們將通過增加預處理模塊、增加采集樣本量進行訓練、使用業內更先進的商用OCR 識別模型等方法進行優化。
借助于三維全景相機等硬件設備及三維重建、三維語義分割、目標檢測、OCR 等人工智能技術,針對大規模的局房及其設施的數字化工作,我們已經實現了一套完整的通信局房及其設施數字化的技術方案,并在中國聯通相關通信工程設計單位得到了落地應用。人工智能技術是實現通信局房及其設施數字化的技術主導,通過人工智能技術,替代了大量原來需要高級技術人員才能夠完成的勘察、信息收集、信息提取整理等工作,從而完成了人工手段不可能解決的超大規模局房資源的數字化工作;對我國通信工程設計行業的數字化轉型具有重要的借鑒意義。