
收稿日期:2024-07-09
基金項目:國家重點研發計劃子課題(2022YFD2001001、2 ̄0 ̄2 ̄2 ̄Y ̄F ̄D ̄2 ̄0 ̄0 ̄1 ̄0 ̄0 ̄5 ̄);國家自然科學基金項目(32201664、31871522);江蘇省重點研發計劃項目(BE2023323);江蘇省農業自主創新基金項目[CX(21)2042];無錫市財政項目(33212303)
作者簡介:王 皓(2000-),男,江蘇徐州人,碩士研究生,研究方向為作物三維重建。(E-mail)454618365@qq.com
通訊作者:孫 挺,(E-mail)drsunting@163.com
摘要: 三維重建技術可提供更全面、準確的作物表型信息,已成為智慧農業和智慧育種領域的研究熱點?;诙嗄恳曈X法的三維重建技術因其低成本、高精度的特性而被廣泛應用于作物三維重建,其中運動恢復結構-多視角立體視覺(SfM-MVS)流程是其主流實現方法。本文對不斷發展的SfM-MVS流程進行了技術體系梳理,并從當前作物三維重建的角度出發,總結了SfM-MVS所面臨的挑戰和已有創新之處。本研究可為基于SfM-MVS的作物三維重建技術集成提供有力支撐,并為關鍵技術突破提供重要參考。
關鍵詞: 三維重建;運動恢復結構;多視角立體視覺;作物;表型
中圖分類號: S126"" 文獻標識碼: A"" 文章編號: 000-4440(2024)09-1768-09
Three-dimensional crop reconstruction based on structure from motion-multiple view stereo (SfM-MVS): challenges and innovations
WANG Hao CAO Jing HU Jianan PAN Yuanyuan BI Ran SUN Ting ZHANG Wenyu ,2
(1.College of Agricultural Engineering, Jiangsu University, Zhenjiang 212013, China;2.Jiangsu Academy of Agricultural Sciences Wuxi Branch, Wuxi 214174, China)
Abstract: Three-dimensional (3D) reconstruction technology can provide more comprehensive and accurate crop phenotypic information, which is a research hotspot in the field of intelligent farming and intelligent breeding. The 3D reconstruction technology based on multi-view vision is widely adopted for its low cost and high accuracy. The structure from motion-multiple view stereo (SfM-MVS) pipeline is the primary method used for this technology. In this paper, the technical system of the evolving SfM-MVS process was sorted out, and the challenges and innovations of SfM-MVS were summarized from the perspective of current crop three-dimensional reconstruction. This study can provide robust support for the integration of crop 3D reconstruction technology based on SfM-MVS, and provide an important reference for key technology breakthroughs.
Key words: three-dimensional reconstruction;structure from motion;multiple view stereo;crop;phenotype
近年來,作物表型在農業研究和生產中扮演著日益重要的角色。精確的表型數據能夠反映作物的生理生長狀態,為農業生產智慧決策提供關鍵信息。同時,高通量作物表型技術可用于高產、優質種質的篩選以及表型-基因型關聯分析,從而推動智慧育種進程[1]。然而,傳統的表型獲取、分析耗時費力,已無法滿足高通量需求。隨著計算機視覺技術的迅速發展,基于視覺技術的作物表型平臺成為一種有效的解決方案。這些平臺可以分為利用可見光成像技術進行二維測量和依賴三維重建技術進行三維測量2類[2]。在作物結構復雜且葉片遮擋嚴重的情況下,在二維平臺上只能獲得簡單的表型特征,如葉長、葉面積。二維投影存在限制性,相比之下,在三維平臺上能夠準確地重建點云模型并獲取更全面、準確的表型特征。
基于視覺的三維重建技術主要通過視覺傳感器獲取場景真實信息,經過視覺處理技術或投影模型獲得物體的三維信息,是一種利用二維投影恢復三維信息的計算機技術[3]。根據數據獲取方式不同,基于視覺的三維重建技術可分為主動視覺法和被動視覺法2類[4]。主動視覺法需要向場景中發射結構光源,并計算提取光源在場景中的投影信息,從而檢測目標位置并進行測量。常見的技術包括激光掃描法、結構光法、飛行時間(ToF)技術和體感(Kinect)技術等。激光掃描法主要使用激光掃描儀和激光雷達發射束對目標表面進行掃描,測量反射或散射激光,并計算物體表面距離。該方法可以生成與實際大小相當的密集點云,具有測量速度快、準確性高、距離遠等優勢;然而邊緣檢測效果相對較差且設備價格昂貴,限制了其在農業生產中的大規模應用[5]。結構光法通過在物體表面和參考平面上投射具有一定規律的結構圖案,并采集圖像以利用三角測量原理等方法獲取物體表面深度信息。該方法的精度和分辨率都較高,但易受到環境照明條件及作物表面紋理的影響,在室內靜態環境下較適用[6]。ToF技術基于飛行時間原理,通過向觀測對象連續發射光脈沖來測量光脈沖的飛行(往返)時間從而確定目標距離,進而獲得物體深度信息。ToF技術的主要優勢是只使用單一視點來計算深度,保證了遮擋和陰影下的魯棒性,并保留了銳利的深度邊緣;缺點是分辨率低,在強光下容易受到干擾,且測量距離短[7]。Kinect技術最初是由微軟公司開發的基于結構光和ToF技術的三維掃描技術,其優點是成本低、操作簡便和實時性強,但Kinect技術的深度測量精度較低,生成的點云數據較為粗糙,對環境光照條件敏感,在強光、反射面或黑暗環境中性能受限[8]。
被動視覺法通過獲取外部光源的反射來進行三維測量,相比主動視覺法,被動視覺法不受環境和設備因素的限制,并且成本較低、應用范圍更廣。根據攝像頭數量可將被動視覺法分為單目視覺法、雙目視覺法和多目視覺法[2]。單目視覺法僅使用單個視覺傳感器捕捉圖像,并通過各種計算技術推斷深度信息,具有系統結構簡單、設置校準容易等優點,但其深度信息來自推斷,導致精度較低且難以解決深度模糊和遮擋問題。雙目視覺法使用2個相隔一定距離的攝像機捕捉圖像,通過捕獲待測場景或物體的不同視角的圖像,分析圖像中匹配特征點的視差來計算物體的深度[9]。與單目視覺法相比,雙目視覺法的深度感知更佳,通過比較不同視角的圖像可以解決一些遮擋問題,立體匹配算法比單目深度估計算法更簡單且研究較為成熟,但是有效的深度測量范圍受到攝像頭基線距離和視差測量分辨率的限制,此外對紋理的要求也較高。多目視覺是雙目視覺的延伸,是在其基礎上增加一臺或多臺攝像機輔助測量[10],從而獲得不同角度下同一物體的多視角圖像。多目視覺法具有更好的精度和魯棒性,能夠更好地處理遮擋,適合高精度應用,但成本、復雜度和數據管理方面的挑戰也更大[11]。
近年來,隨著工業級相機成本的不斷下降、計算機算力的不斷提升,基于多目視覺法的作物三維重建表型平臺已成為主流形式之一。許多商業化三維重建表型平臺基于多目視覺法建立,如MVS-Pheno[12-13]、3DPhenoMV[14]等。此外,得益于較為簡單的系統架構,一些自搭建三維重建表型平臺已被廣泛應用于玉米[12,15-16]、小麥[17]、水稻[18]、高粱[19-20]、大豆[21-23]、鷹嘴豆[24]、馬鈴薯[25]、甜菜[26]、番茄[27]、豇豆[28]等作物的三維表型研究中,大幅降低了技術門檻。
目前,運動恢復結構-多視角立體視覺(SfM-MVS)流程是基于多目視覺法的三維重建主流解決方案。與近年來新興的神經輻射場(NeRF)方案相比,SfM-MVS具有計算成本低、計算效率高等優點,同時重建出的三維點云密度高,能較好地還原場景信息。由于SfM-MVS在處理光照效果時有一定局限性,所以SfM-MVS更適合于室內三維重建,該流程包括基于運動恢復結構(SfM)流程的稀疏重建和基于多視角立體視覺(MVS)流程的密集重建。目前,一些成熟的商業化三維重建軟件(如Agisoft Photoscan/Metashape、3DF Zephyr、ContextCapture、Pix4Dmapper)以及開源軟件(COLMAP、OpenMVG、VisualSfM)都采用了SfM-MVS這一流程。隨著計算機視覺技術和人工智能技術的不斷發展,SfM-MVS流程也在持續迭代更新。本文擬從作物三維重建的角度對當前主流SfM-MVS流程進行技術體系梳理,總結其面臨的挑戰和已有創新之處,以期為基于SfM-MVS的作物三維重建技術集成提供有力支持,并為關鍵技術突破提供重要參考。
1 SfM-MVS流程
SfM是通過多張二維圖片來重建三維場景的過程[29]。通過SfM流程可以得到稀疏三維點云模型,這種點云模型密度較低,還需對其進行稠密估計,恢復稠密的三維點云。稠密重建是在相機位姿已知的前提下,逐像素地計算圖像中每一個像素點對應的三維點,得到場景物體表面密集的三維點云的過程,可以通過MVS流程實現。通過結合SfM和MVS這2種方法,可以利用SfM流程獲取的相機位姿信息以及稀疏點云信息,提高MVS流程獲得的稠密點云的精度[30],從而實現一個完整的三維重建過程(圖1)。
1.1 SfM流程
SfM流程的實現一般包括特征點提取、特征匹配、幾何驗證、三角測量和集束調整等重要步驟[31]。
1.1.1 特征點提取 特征點(也稱為興趣點或關鍵點)提取是整個SfM流程的基礎,需要對每張圖片提取出一些特征點,并計算它們的描述子。特征檢測器是一種檢測圖像中特征點的算法,通常以角、斑點、邊緣、連接點和線條等形式進行檢測。經典的特征檢測器有HARRIS、SHI-TOMASI、尺度不變特征變換(SIFT)和加速穩健特征(SURF)等。近年來,一些更快的特征檢測器已被開發出來,如加速分割測試特征(FAST)、定向FAST和旋轉BRIEF(ORB)、二進制魯棒不變可擴關鍵點(BRISK)、加速分割測試(KAZE)和加速KAZE特征(AKAZE)。經過特征檢測后,所觀察到的特征會以一種邏輯上不同的方式描述其相鄰像素所具有的獨特模式,這個過程被稱為特征描述。特征描述子算法是對檢測到的特征點周圍像素模式進行數學表示的一種方法,用于在不同圖像中匹配相似的特征點。特征描述子算法主要分為基于字符串(浮點數)的描述子(SIFT、SURF、KAZE等)算法和二進制描述子(AKAZE、ORB、BRISK等)算法。基于字符串的描述子通常具有更高的描述性和準確性,但計算和存儲成本較高,適用于精確的特征匹配和重建任務。二進制描述子由于其高效的生成和匹配速度,適合于實時應用和資源受限的場景,如移動設備或嵌入式系統。
目前存在不同組合的特征點檢測器和描述子。有些既是檢測器同時也是描述子,例如SIFT/SURF既包括特征點檢測器,也包括描述子;一些特征點檢測器需要與它們指定的特征描述子算法一起使用,如KAZE/AKAZE描述子僅適用于KAZE/AKAZE特征點檢測器;有些組合會出現問題,例如SIFT檢測器和ORB描述子不能一起工作。目前主流的特征點檢測器/描述子組合有SIFT、SURF和ORB。SIFT的主要優點是其對尺度、旋轉、仿射變換等具有較好的不變性。由于SIFT基于浮點內核計算特征點,因此通常認為SIFT算法檢測的特征在空間和尺度上定位更加精確,所以在要求匹配極度精準且不考慮匹配速度的場合可以考慮使用SIFT算法,但SIFT算法計算量較大,不適合實時應用。SURF是SIFT的高效變種,也具有尺度不變性的特征,但SURF使用海森矩陣的行列式值進行特征點檢測,并用積分圖加速運算,速度相對SIFT提升明顯,所以在一些實時視頻流物體匹配上有較多的應用。ORB是在著名的FAST特征點檢測和二進制魯棒獨立基本特征(BRIEF)描述子算法的基礎上提出的,能夠在保持良好性能的同時實現較高的計算效率。相比SIFT和SURF等具有尺度不變性的算法,ORB在處理圖像中尺度變化時的表現不佳。
1.1.2 特征匹配 特征匹配需要計算2個描述子之間的距離,其差異可以被轉換成一個單一的數字,作為一個簡單的相似性度量。曼哈頓距離(L1-norm)、歐幾里德距離(L2-norm)和漢明距離(Hamming distance)是常見的距離度量方法。二進制描述子需要選擇漢明距離,而字符串描述子需要選擇歐幾里德距離。尋找匹配對的方法有蠻力匹配(BFM)和快速最近鄰搜索(FLANN)。蠻力匹配是最簡單的直接匹配方法,對于給定的一組特征描述子,通過計算它與另一組特征描述子之間的距離來尋找最近鄰或者最優匹配,適用于規模較小的特征集合,在局部特征描述子(如SIFT、SURF、ORB)的匹配中較為常見。FLANN則適合需要在大型數據集中進行特征匹配的場景。選擇匹配對的方法有交叉檢查、最近鄰方法(NN)和K最近鄰方法(K-NN)。交叉檢查一般只用于蠻力匹配,K-NN常用于局部特征描述符的匹配過程。
1.1.3 幾何驗證 通過特征點匹配,可以得到不同圖片之間的幾何變換關系。通過這些變換關系,可以估計得到相機的姿態,包括相機的位置和方向。如果一個有效的變換能夠在圖像之間映射足夠數量的特征,那么這些變換就可以被視為幾何驗證。由于匹配的對應關系經常受到離群值的污染,因此需要剔除不符合幾何約束的匹配對。最常用的幾何驗證算法是隨機抽樣一致性算法(RANSAC),屬于迭代算法。它通過從上一步驟得到的匹配點中隨機選擇數據子集(例如使用歸一化的八點法)來估算基礎矩陣和本質矩陣的參數。幾何驗證可以顯著提高匹配的質量,進而提高后續三維重建的準確性和魯棒性。
1.1.4 三角測量 三角測量主要通過幾何驗證中基礎矩陣以及本質矩陣分解得到的相機參數以及特征點在圖像中的投影位置,計算出這些特征點在三維空間中的坐標。通常,三角測量包含3種算法策略,即增量式[32]、層級式[33]以及全局式[34]。在增量式SfM中,算法會逐步處理每個新的圖像,一次添加一個圖像,并不斷更新相機姿勢和場景結構的估算結果[32]。該算法通常從初始視覺數據集開始,然后逐步引入新的圖像。每個新圖像都會與先前處理的圖像進行匹配,并通過三角測量或其他方法來估計新的相機姿勢和場景結構。增量式方法可以在處理大型數據集時更好地利用內存和計算資源,是目前最常見的SfM類型。然而,增量式方法可能會受到誤差累積的影響,并且對初始視覺數據集的選擇和順序敏感。層級式SfM通過分層的方式處理圖像數據和場景結構,以便在不同的分辨率和精度級別上進行處理[33]。這種方法通常是先在低分辨率或粗略的級別上處理圖像數據和相機位姿,然后逐步提高分辨率或精度以提升估算結果的精確度。層級式方法能夠加快算法的收斂速度,并且對噪聲和不確定性具有一定的魯棒性。此外,它還能夠有效減少處理大型數據集時所需的計算資源。全局式SfM是一種以整個數據集為基礎的方法,它在整個數據集上同時優化相機姿勢和場景結構。這種方法通常會建立一個全局的優化問題,其中相機姿勢和場景結構之間的關系被建模為一個大型優化策略,例如通過最小化重投影誤差來優化。全局式方法在完成所有兩兩視圖的重建后,統一進行集束調整(BA)的優化,效率高,但是重建精度一般[34]。
1.1.5 集束調整 在SfM流程中,當從多張圖片中提取出特征點并估計出初始的相機位置和三維點時,這些估計通常是不精確的。誤差主要來源于圖像中點定位不精確、匹配噪聲和標定不精確,這些誤差隨著視圖數量的增加而累積,這種效應稱為漂移。減少漂移的一種方法是改進相機姿勢和三維點位置,可以通過集束調整進行細化。集束調整的目標是通過最小化重投影誤差,對所有相機參數和三維點位置進行調整,以使得在所有圖像中觀察到的特征點的投影誤差最小化。作為多視圖幾何系統中的核心組件之一,集束調整通常被用于近似初始場景估計和消除增量重建過程中的漂移。此優化模型通常是非線性的,并且LM(Levenberg-Marquardt)算法已被證明是解決此模型較好的方法。
1.2" MVS流程
多視角立體視覺(MVS)假設每張圖像的相機參數已知,通過利用一組圖像及其對應的相機參數來重建場景的三維幾何結構,從而恢復密集點云。根據場景表示不同,MVS算法通常可分為基于體素的MVS算法、基于點云擴散的MVS算法和基于深度圖融合的MVS算法。
1.2.1 基于體素的MVS算法 體素是三維計算機圖形學中的基本單位,類似于二維圖形中的像素。在基于體素的MVS算法中,首先需要在對象周圍初始化一個3D體素網格。網格的大小和分辨率取決于對象的預期大小和所需的細節要求。對每個體素進行光一致性度量時,將其投影到每張圖像上并比較像素值以計算成本。通過成本來表示該體素被對象占據的可能性,并使用成本體積將其分類為占用或空置狀態。基于體素的MVS方法可以生成規則點云,并易于提取Mesh網格;但精度取決于體素粒度,難以應用于遮擋較多以及較大的場景。
1.2.2 基于點云擴散的MVS算法 基于點云擴散的MVS算法通過對特征點進行三維重建,隨后將結果迭代傳播到相鄰區域,從而重建出三維形狀[35]。初始種子點可以由SfM流程生成,然后對稀疏特征點進行深度和法向量的重建,在擴張過程中對已重建三維點的鄰域進行匹配,最后通過光度一致性約束和可視性約束去除噪點。其中,最為典型的就是基于補?。≒atch)的MVS(PMVS)[36]。PMVS基于輸入圖像中檢測到的特征點生成補丁,補丁是以特征點為中心的局部圖像塊,用于表示每個特征點周圍的局部視覺信息。對于每個補丁,PMVS在不同視角的圖像間進行匹配。這包括對每對圖像中的相似補丁進行特征匹配和深度一致性驗證,以確定每個特征點精確的三維位置。通過多視角幾何和像素一致性約束,PMVS將匹配的補丁中的信息合并,生成高密度的三維點云。基于點云擴散的MVS具有較高的精度和稠密性,能夠處理視角變化大和幾何形狀復雜的場景,但由于算法的復雜性導致計算成本較大。
1.2.3 基于深度圖融合的MVS算法 基于深度圖融合的MVS算法從多視角圖像中估算每個視角的深度圖,然后對其進行集成以重建目標的三維形狀。首先,為每一幅圖選擇領域圖像構成立體圖像組,常用方法有全局視圖選擇和局部視圖選擇。全局視圖選擇根據視差、場景內容和尺度等尋找一組用于立體匹配的候選相鄰視圖。局部視圖選擇則在全局視圖選擇結果的基礎上再次進行篩選,通過計算圖像之間的相似度進行評估優化。其次,對于選定的視圖,通過平方差之和(SSD)、絕對差之和(SAD)、歸一化互相關(NCC)等實現立體配準和融合。基于深度圖融合的MVS算法具有并行計算能力,適用于處理大場景海量圖像,并且得到的點云數量較多。因此,在當前開源軟件和商業軟件中普遍采用這類方法。
2 作物三維重建過程的難點以及SfM-MVS技術的革新
盡管SfM-MVS技術在文物保護、城市規劃、地形測繪、影視、游戲和工業品控等多個領域中的應用取得了成功,但在作物三維重建中的應用仍然面臨諸多挑戰。作物具有復雜而多樣的形態結構,作物之間以及器官和組織之間的相互遮擋會導致部分細節丟失,從而對重建效果產生影響;某些作物表面紋理特征不足,使得圖像匹配和對齊更加困難,進而導致重建結果不準確;風等環境因素的干擾會增加圖像對齊和匹配的難度;光照在植物冠層中的反射和折射會產生陰影和反光現象,進一步導致圖像質量不穩定。此外,在大規模作物三維重建過程中需要處理大量圖像數據,并且對計算與存儲資源需求極高,這對硬件設備與算法優化提出了更高要求。這些挑戰使得將SfM-MVS技術應用于作物三維重建比其他領域更為復雜、困難,需要進行進一步研究和技術改進來解決這些問題。
2.1 圖像預處理
目前,典型的多視角作物三維表型平臺主要部署在室內環境中,由相機、支撐臂、旋轉平臺及其驅動部件等構成。在作物多視角圖像的采集過程中,環境、轉盤和栽培容器等冗余的背景信息是不可避免的。盡管這些無效信息可以通過不同方法在三維點云重建完成后去除,但可能會降低作物三維點云重建的效率和精度。因此,在SfM-MVS工作流程中進行圖像預處理是非常必要的。
經典的圖像預處理方法包括噪聲去除和背景分割。Sandhu等[18]采用色調-飽和度-亮度(HSV)顏色空間對水稻紅-綠-藍(RGB)圖像進行轉換,并通過顏色閾值去除背景,從而減少了三維重建過程中需要處理的特征數量和計算時間。Zhu等[23]利用小波變換閾值去噪法對大豆植株圖像序列進行降噪,然后運用藍屏匹配技術實現背景扣除,以便將預處理后的圖像應用于后續SfM-MVS三維重建流程中。Xiao等[26]使用3DF Zephyr Aerial軟件自帶的掩膜技術,能夠精確地分離出甜菜根和黑色背景作為重建對象,只有白色部分被選為SfM-MVS輸入。Sun等[21]對大豆植株多角度圖像進行掩膜處理,消除與大豆植株無關的所有背景和校準墊區域,僅保留完整的大豆植株信息供后續三維重建使用。Yang等[37]通過在U 2-net網絡上訓練模型,將圖像中的每個像素分類為植物或非植物,并成功開發出適用于多分蘗、形態復雜的結球甘藍和羽衣甘藍植物的圖像分割模型,在最終點云重建過程中只選擇了含有植物信息的像素。
此外,He等[22]提出了一種改進的檢測和匹配策略。通過裁剪原始圖像來增加感興趣區域(ROI)的比例,有效降低了圖像分辨率,并增加了大豆植物在整個圖像中的比例,從而減少了特征檢測的計算量。通過對大豆多視角圖像序列原圖像的ROI進行提取后,使用SfM-MVS流程進行大豆植物的三維重建,稠密點云生成率提高了81.62%。Tian等[38]將包含小麥籽粒的核心區域定位為圖像中心,并自動裁剪以獲得固定像素大小的圖像,從而提高了后續小麥籽粒三維重建任務的準確性和效率。此外,在解決拍攝過程中對焦不準導致紋理模糊和細節不清晰問題時,研究人員采用基于T-transformer網絡的超分辨率技術來提升圖像分辨率。該方法能夠恢復小麥籽粒紋理信息且不顯著增加捕獲時間和工作量。與單純基于原始圖像獲得的結果相比,采用超分辨率重建可以使結果結構相似性(Structural similarity,SSIM)提高38.96%。
2.2 特征檢測優化
目前,大部分多視角三維重建平臺具有固定的作物位置、相機與相機之間的相對位置以及固定的旋轉角度。在三維重建過程開始時,研究者可以向SfM-MVS流程提供一組植物圖像序列、相機內部參數和畸變系數的初始估計值,以減少計算誤差、加速算法收斂并提高重建質量。Yang等[37]利用多視角相機檢測了一個黑白相間棋盤格的角點,并獲取其像素坐標,然后根據已知網格大小和世界坐標系統原點來計算它們的物理坐標,從而確定樹莓派相機內部參數矩陣。Wang等[25]使用Matlab中的立體攝像機校準工具箱和類似棋盤格實現了立體校準,并得到相機內部方向和相機之間的相對方位2組參數,用于后續三維重建。
針對不同作物特性選擇或改進特征檢測器和描述符算法可提高特征檢測準確性和效率。Yang等[37]在OpenMVG框架基礎上改進了SfM流程的算法,并提出了IVOPamp;AKAZE-SfM算法。增量式視覺里程計與建圖(IVOP)能夠通過增量方式優化視點,在每次增加新視點時最大化地利用現有數據,從而提高三維重建精度。處理圖像序列時,IVOP不斷優化視點位置和姿態以減少累積誤差。與SIFT和SURF使用高斯平滑不同,AKAZE使用非線性擴散方程構建尺度空間,在捕獲形態復雜的甘藍的精細特征方面表現出卓越效果。IVOPamp;AKAZE-SfM較OpenSfM誤差降低58.05%,時間消耗降低44.77%;IVOPamp;AKAZE-SfM較Colmap誤差降低55.94%,時間消耗降低48.40%;IVOPamp;AKAZE-SfM較OpenMVG誤差降低60.20%,時間消耗降低38.42%。
隨著人工智能技術的發展,越來越多的深度學習方法被集成到SfM流程中。Detone等[39]設計了1個名為SuperPoint的全卷積神經網絡架構,在全尺寸圖像上進行單次前向傳遞以實現關鍵點檢測和描述子提取。相較于傳統特征點檢測方法,SuperPoint具備更高的計算效率,適用于實時應用場景。Sarlin等[40]提出了一種名為SuperGlue的深度學習方法用于特征匹配,并與SuperPoint結合使用以提高關鍵點匹配的準確性和魯棒性。SuperGlue利用圖注意力機制和圖神經網絡(GNN)建立2個圖像之間的匹配關系,并通過圖神經網絡進行全局優化,從而提升匹配精度,在紋理相似或重復場景中表現出色,并且對視角變化、光照變化等復雜條件有良好的適應能力。通過端到端訓練方式,該模型能夠更好地適應實際應用中的變化。Liu等[17]將Pixel-perfect SfM優化組件作為SfM重建基礎模型,并采用SuperPoint進行特征點檢測和描述;同時使用SuperGlue進行圖像對之間的匹配,在小麥植物特征識別任務中成功找到正確匹配并排除錯誤匹配。
2.3 深度圖融合優化
近年來,基于深度學習的多視角立體視覺取得了快速發展。MVSNet及其改進版是MVS流程中突出的優化案例。MVSNet采用卷積神經網絡(CNN)結構,以端到端的方式學習從多個視角獲取的圖像中提取場景的深度信息,并通過學習視圖之間的對應關系和光度一致性來提高深度圖的精確性和穩定性。Liu等[17]將RepC-MVSNet算法用于小麥三維點云重建,該算法考慮了由光度不一致引起的光度損失誤差,還通過引入渲染一致性替代原始無監督方法減少對光度一致性依賴,并結合神經身體渲染作為參考。此外,還引入了視角合成損失來構建RGB監督信號,以消除因不同方向視圖而導致的光度損失誤差,并增強模型泛化能力。Tian等[38]使用Vis-MVSNet對小麥籽粒進行三維重建,這是一種端到端網絡結構,考慮了像素可見性信息,在多視圖立體匹配網絡中明確推斷并整合像素級遮擋信息,并利用成對不確定性地圖和深度地圖聯合推斷作為多視圖代價體積融合中的加權指導,有效抑制遮擋像素帶來的負面影響。此外,MVSNet等深度學習方法利用圖形處理器(GPU)進行大規模像素級深度估計和立體匹配,在處理大規模圖像數據時具備高效能力。
2.4 SfM-MVS整合優化
基于SfM-MVS流程框架,已經出現了整合多個算法庫的開源軟件并用于作物三維重建。其中最為常見的有VisualSfM[16,27]、OpenMVG+OpenMVS[13]以及Colmap[41]。VisualSfM整合了基于GPU的SIFT(SiftGPU)、多核集束調整以及線性時間增量式運動結構。利用多核并行計算進行特征檢測、匹配和集束調整,運行速度較快。該程序同時集成了PMVS/CMVS工具鏈用于稠密重建。OpenMVG和OpenMVS是2個常用的開源庫,提供了1套強大的接口,通常結合使用進行從圖像到三維模型的重建。OpenMVG負責特征檢測、匹配和初步的三維結構重建,而OpenMVS則負責密集點云生成、網格重建和紋理映射。MVS-Pheno V2三維表型平臺采用OpenMVG+OpenMVS[13]。Colmap支持圖形用戶界面和命令行界面,使用SIFT算法進行特征提取,并提供中央處理器(CPU)和GPU選項,并且還提供廣泛功能匹配選項,在無人機田塊及更大尺度上被廣泛應用于重建任務[41-42]。Liu等[43]比較COLMAP、COLMAP+PMVS、VisualSFM、Meshroom和OpenMVG+MVE 5種SfM-MVS開源整合框架重建12個玉米基因型根系的質量,結果發現COLMAP和COLMAP+PMVS獲得了很好的視覺效果,在模型完整性方面,沒有出現明顯的根斷連或根系部分缺失現象。與VisualSFM相比,OpenMVG+MVE能顯示更精細的細節,但不提供每個點的顏色信息。在作物三維重建過程中,應根據作物冠層特征、算力以及關注性狀來選擇適合的SfM-MVS整合框架。
2.5 SfM-MVS流程評估
無論是SfM-MVS的整合優化還是單獨算法的優化,不同算法間的比較都需要建立在相同的評估標準上。通常情況下,MVS流程往往基于DTU數據集進行評價,DTU數據集是一種公開數據集,由丹麥技術大學提供,并且其稠密結構真值通?;诩す饫走_或深度相機獲取整個場景點云。點云重建評估指標包括準確性、完整性、精度和召回率等,用于衡量重建結果與真值之間的差距以及重建算法的整體性能。
對于SfM-MVS流程綜合評估體系而言,并沒有固定指標。Yang等[37]提出了一種聯合評估方案,通過點云數量、平均軌跡長度、配準圖像數、平均重投影誤差和時間效率等指標對點云模型的重建質量進行定量分析。觀察到更多數量的點云則表明算法提取到更豐富的三維結構特征和細節信息;較小的平均軌跡長度說明算法提取到更豐富的特征;配準圖像數量表示在重建過程中利用信息的多少;較小的平均重投影誤差意味著高精度點云;時間效率作為一個關鍵指標通常代表完成任務所需持續時間,持續時間越短則表示算法越有效。Liu等[43]使用CloudCompare軟件計算3D點云模型中的點數,并通過計算每個半徑為R球體內鄰居數來估計點云表面密度。Tian等[38]在三維重建時采用超分辨率技術,并使用峰值信噪比(PSNR)和結構相似性指數(SSIM)作為量化評估指標。
許多作物表型研究并未對SfM-MVS流程進行評估,僅對后續提取的表型參數進行整體評價。例如,Xu等[44]通過決定系數(R 2)、均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)來量化三維表型與實際測量值之間的差異。Wu等[13]則通過MAPE評估三維表型是否能夠保留葉尖和邊緣特征,并利用R 2和RMSE評估三維表型與手動測量得到的株高以及數字化儀獲取的葉長、葉寬測量值之間的差異。
3 展望
目前,基于SfM-MVS流程的作物三維重建主要應用RGB圖像領域,面臨作物形態結構復雜、環境與背景干擾大、計算成本高等一系列挑戰,已有研究在圖像預處理、特征檢測優化、深度圖融合優化等方面開展了技術創新,同時對SfM-MVS流程進行了整合優化,并進行了系統評估。
隨著傳感技術的迅速發展,SfM-MVS流程將從RGB圖像領域逐漸擴展到高光譜、熱紅外、熒光等其他光學成像領域,這也帶來了新的挑戰。傳統的SfM-MVS流程在處理高光譜圖像時面臨困難,因為這些圖像包含數十個甚至上百個波段。不同波段圖像中提取的特征點會生成不同的三維模型,其尺度和點集不一致,這些模型不能直接合并形成一個完整的三維模型。如果嘗試合并從不同波段捕獲的所有關鍵點進行三維重建,嵌入在圖像中的精細結構和光譜信息可能會丟失[45]。優化當前的SfM-MVS流程,使其能夠實現不同波段下特征點的檢測、描述和匹配以及后續的融合,是基于SfM-MVS的作物三維重建面臨的挑戰和創新的方向之一。
與此同時,多源傳感器融合也為基于SfM-MVS的作物三維重建提供了新的機遇。融合更加豐富的傳感器信息,可以提高三維重建的精度。例如,將RGB圖像與深度傳感器數據結合,可以得到更準確的深度信息,從而提高重建模型的細節水平。多源傳感技術還可以提高系統對單一傳感器失效或噪聲干擾的魯棒性。例如,結合視覺和LiDAR數據可以在光照條件不佳的情況下仍保持良好的性能。盡管多源傳感技術在SfM-MVS流程中帶來了許多創新,但也需要克服諸多挑戰。為了解決多源數據融合中的問題,新的算法和模型,如深度學習模型、多模態數據融合算法等,需要進一步耦合到SfM-MVS流程。未來,隨著多源傳感技術和SfM-MVS流程算法的不斷發展,作物三維重建將變得更加精準和高效,能夠更全面地捕捉和理解作物的復雜結構和動態變化,進而推動智慧農業和智慧育種的進一步發展。
參考文獻:
[1] 張建華,姚 瓊,周國民,等. 作物農藝性狀與形態結構表型智能識別技術綜述[J]. 智慧農業(中英文),2024,6(2):14-27.
[2] 周靜靜,郭新宇,吳 升,等. 基于多視角圖像的植物三維重建研究進展[J]. 中國農業科技導報,2019,21(2):9-18.
[3] EBRAHIMNEZHAD H, GHASSEMIAN H. Robust motion from space curves and 3D reconstruction from multiviews using perpendicular double stereo rigs[J]. Image and Vision Computing,2008,26(10):1397-1420.
[4] ISGRO F, ODONE F, VERRI A. An open system for 3D data acquisition from multiple sensor[C]//Institute of Electrical and Electronics Engineers. Proceedings of the Seventh International Workshop on Computer Architectures for Machine Perception,July 4-6,2005. Palermo,Italy:IEEE,2005:120-125.
[5] GOEBEL W, KAMPA B M, HELMCHEN F. Imaging cellular network dynamics in three dimensions using fast 3D laser scanning[J]. Nature Methods,2007,4(1):73-79.
[6] ROCCHINI C, CIGNONI P, MONTANI C, et al. A low cost 3D scanner based on structured light[J]. Computer Graphics Forum,2001,20(3):299-308.
[7] PARK J, KIM H, TAI Y W, et al. High quality depth map upsampling for 3D-TOF cameras[C]//Institute of Electrical and Electronics Engineers. Proceedings of the IEEE International Conference on Computer Vision,November 06-13,2011. Barcelona,Spain:IEEE,2011:1623-1630.
[8] KHOSHELHAM K, ELBERINK S O. Accuracy and resolution of kinect depth data for indoor mapping applications[J]. Sensors,2012,12(2):1437-1454.
[9] 張文明,劉 彬,李海濱. 基于雙目視覺的三維重建中特征點提取及匹配算法的研究[J]. 光學技術,2008,34(2):181-185.
[10]BAILLARD C, ZISSERMAN A. A plane-sweep strategy for the 3D reconstruction of buildings from multiple images[C]//International Society for Photogrammetry and Remote Sensing. Proceedings of the International Archives of Photogrammetry and Remote Sensing,1999. Amsterdam,Netherlands:ISPRS,2000:56-62.
[11]PARK H, LEE H, SULL S. Efficient viewer-centric depth adjustment based on virtual fronto-parallel planar projection in stereo 3D images[J]. Ieee Transactions on Multimedia,2014,16(2):326-336.
[12]WU S, WEN W L, WANG Y J, et al. MVS-Pheno:a portable and low-cost phenotyping platform for maize shoots using multiview stereo 3D reconstruction[J]. Plant Phenomics,2020,2020:1848437.
[13]WU S, WEN W, GOU W, et al. A miniaturized phenotyping platform for individual plants using multi-view stereo 3D reconstruction[J]. Frontiers in Plant Science,2022,13:897746.
[14]DAS CHOUDHURY S, MATURU S, SAMAL A, et al. Leveraging image analysis to compute 3D plant phenotypes based on voxel-grid plant reconstruction[J]. Frontiers in Plant Science,2020,11:521431.
[15]LI Y L, WEN W L, MIAO T, et al. Automatic organ-level point cloud segmentation of maize shoots by integrating high-throughput data acquisition and deep learning[J]. Computers and Electronics in Agriculture,2022,193:106702.
[16]LI Y C, LIU J Y, ZHANG B, et al. Three-dimensional reconstruction and phenotype measurement of maize seedlings based on multi-view image sequences[J]. Frontiers in Plant Science,2022,13:974339.
[17]LIU H, XIN C, LAI M Z, et al. RepC-MVSNet:a reparameterized self-supervised 3D reconstruction algorithm for wheat 3D reconstruction[J]. Agronomy-Basel,2023,13(8):13081975.
[18]SANDHU J, ZHU F Y, PAUL P, et al. PI-Plat:a high-resolution image-based 3D reconstruction method to estimate growth dynamics of rice inflorescence traits[J]. Plant Methods,2019,15(1):162.
[19]TROSS M C, GAILLARD M, ZWEINER M, et al. 3D reconstruction identifies loci linked to variation in angle of individual sorghum leaves[J]. PeerJ,2021,9:12628.
[20]GAILLARD M, MIAO C Y, SCHNABLE J C, et al. Voxel carving-based 3D reconstruction of sorghum identifies genetic determinants of light interception efficiency[J]. Plant Direct,2020,4(10). DOI:10.1002/pld3.255.
[21]SUN Y Z, ZHANG Z X, SUN K, et al. Soybean-MVS:annotated three-dimensional model dataset of whole growth period soybeans for 3D plant organ segmentation[J]. Agriculture-Basel,2023,13(7):13071321.
[22]HE W, YE Z H, LI M S, et al. Extraction of soybean plant trait parameters based on SfM-MVS algorithm combined with GRNN[J]. Frontiers in Plant Science,2023,14:1181322.
[23]ZHU R S, SUN K, YAN Z Z, et al. Analysing the phenotype development of soybean plants using low-cost 3D reconstruction[J]. Scientific Reports,2020,10(1):7055.
[24]SALTER W T, SHRESTHA A, BARBOUR M M. Open source 3D phenotyping of chickpea plant architecture across plant development[J]. Plant Methods,2021,17(1):95.
[25]WANG L Y, MIAO Y L, HAN Y X, et al. Extraction of 3D distribution of potato plant CWSI based on thermal infrared image and binocular stereovision system[J]. Frontiers in Plant Science,2023,13:1104390.
[26]XIAO S F, CHAI H H, WANG Q, et al. Estimating economic benefit of sugar beet based on three-dimensional computer vision:a case study in Inner Mongolia, China[J]. Eur J Agron, 2021,130:126378.
[27]WANG Y H, HU S T, REN H, et al. 3DPhenoMVS:a low-cost 3D tomato phenotyping pipeline using 3D reconstruction point cloud based on multiview images[J]. Agronomy-Basel,2022,12(8):12081865.
[28]YU L, SUSSMAN H, KHMELNITSKY O, et al. Development of a mobile,high-throughput,and low-cost image-based plant growth phenotyping system[J]. Plant Physiology,2024. DOI:10.1093/plphys/kiae237.
[29]SZELISKI R. Computer vision:algorithms and applications[M]. Cham:Springer,2011.
[30]LOU L, LIU Y, HAN J, et al. Accurate multi-view stereo 3D reconstruction for cost-effective plant phenotyping[C]//International Association for Pattern Recognition. Proceedings of the 1th International Conference on Image Analysis and Recognition,October 22-24,2014. Porto:Springer,2014:467-474.
[31]SCHǒNBERGER J L, FRAHM J M. Structure-from-motion revisited[C]//Institute of Electrical and Electronics Engineers. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,June 27-30,2016. Las Vegas:IEEE,2016:4104-4113.
[32]WU C. Towards linear-time incremental structure from motion[C]//Institute of Electrical and Electronics Engineers. Proceedings of the International Conference on 3D Vision. Seattle:IEEE,2013:127-134.
[33]GHERARDI R, FARENZENA M, FUSIELLO A. Improving the efficiency of hierarchical structure-and-motion[C]//Institute of Electrical and Electronics Engineers. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,June 3-18,2010. San Francisco:IEEE,2010:1594-1600.
[34]SWEENEY C, SATTLER T, HǒLLERER T, et al. Optimizing the viewing graph for structure-from-motion[C]//Institute of Electrical and Electronics Engineers. Proceedings of the IEEE International Conference on Computer Vision,December 7-13,2015. Santiago,Chile:IEEE,2015:801-809.
[35]LHUILLIER M, QUAN L. A quasi-dense approach to surface reconstruction from uncalibrated images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(3):418-433.
[36]FURUKAWA Y, PONCE J. Accurate,dense,and robust multiview stereopsis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(8):1362-1376.
[37]YANG D N, YANG H J, LIU D F, et al. Research on automatic 3D reconstruction of plant phenotype based on multi-view images[J]. Computers and Electronics in Agriculture,2024,220. DOI:10.1016/j.compag.2024.108866.
[38]TIAN Y J, ZHANG J N, ZHANG Z J, et al. Research on super-resolution enhancement technology using improved transformer network and 3D reconstruction of wheat grains[J]. IEEE Access,2024,12:62882-62898.
[39]DETONE D, MALISIEWICZ T, RABINOVICH A, et al. Superpoint:self-supervised interest point detection and description[C]//Institute of Electrical and Electronics Engineers. CVF Conference on Computer Vision and Pattern Recognition,June 8-22,2018. Salt Lake City:IEEE,2018:224-233.
[40]SARLIN P E, DETONE D, MALISIEWICZ T, et al. SuperGlue:learning feature matching with graph neural networks[C]//Institute of Electrical and Electronics Engineers. CVF Conference on Computer Vision and Pattern Recognition,June 4-19,2020. Seattle:IEEE,2020:4938-4947.
[41]POTENA C, KHANNA R, NIETO J, et al. AgriColMap:aerial-ground collaborative 3D mapping for precision farming[J]. IEEE Robotics and Automation Letters,2019,4(2):1085-1092.
[42]GAO J, LIU J, JI S P. A general deep learning based framework for 3D reconstruction from multi-view stereo satellite images[J]. Isprs Journal of Photogrammetry and Remote Sensing,2023,195:446-461.
[43]LIU S, BONELLI W P, PIETRZYK P, et al. Comparison of open-source three-dimensional reconstruction pipelines for maize-root phenotyping[J]. The Plant Phenome Journal,2023,6(1):20068.
[44] XU B, WAN X Y, YANG H, et al. TIPS:a three-dimensional phenotypic measurement system for individual maize tassel based on TreeQSM[J]. Computers and Electronics in Agriculture,2023,212. DOI:10.1016/j.compag.2023.108150.
[45]ZIA A, LIANG J, ZHOU J, et al. 3D reconstruction from hyperspectral images[C]//Institute of Electrical and Electronics Engineers. Proceedings of the IEEE Winter Conference on Applications of Computer Vision,December 7-13,2015. Santiago,Chile:IEEE,2015:318-325.
(責任編輯:王 妮)