


計算機相關的圖形圖像技術在最近的幾年取得了長足的進展,個人電腦中出現了越來越多令人驚奇的圖像處理工具,借助數學研究領域的成果,PC已經開始學會看“懂”圖片,甚至看懂文字、分辨建筑物。
傳統的PC圖像識別技術主要基于統計學原理,其主要依靠分析視覺數據的特性,并將這些特性借助統計建模等數學分析方式提取出來,以最終應用到實際的圖像處理中。這種圖像識別技術仍舊是目前的主流,廣泛用于OCR文字識別、人臉識別、圖像處理等領域。但是這種傳統的數學分析方式存在很多局限,比如對圖片的質量要求很高,這一問題直到新的數學模型出現才得以改善。在2010年5月CHIP的“時尚科技”欄目中,我們就曾經向大家介紹過一種PC圖像識別技術的新進展。2009年以華裔澳大利亞籍數學家陶哲軒為代表的一些數學家率先發現了在高維空間中一些原先公認很難的(NP-hard)組合問題,可以用一系列高效的凸優化算法來解決。而由此產生的數學模型可以用來解決目前視覺計算所面臨的難題,而且最終的計算結果非常理想。
微軟研究院的研究員們當時利用這種數學思想取得了圖像識別領域的很大突破,使用這種新的數學模型帶口罩或墨鏡的人臉甚至都可以被PC讀取和識別。最近,微軟研究院的研究員們在這一技術領域再次取得了新的進展,他們讓PC能夠看“懂”建筑物,或者具備“認”字的能力,并糾正扭曲或變形的文字。
讀圖從看懂結構開始
傳統的二維圖像識別技術更多地依賴圖像特征點來工作,它首先通過統計學的方式來獲取圖像中最有代表性的點,之后在遇到新的圖像時會嘗試在其中尋找這些特征點,并將尋找到的點與原來統計得來的特征點進行對比。在圖片質量比較出色且沒有扭曲的情況下這種技術往往能工作得很好。但現實情況是,我們在拍攝圖片時,由于光線、所處的位置等諸多原因,最終無法獲得合格的圖像,這也就大大限制了這種圖像識別技術的發展。
微軟研究院的研究員們嘗試使用高維的數學模型和優化工具來解決這個問題。簡單地理解,高維的數學模型采用矩陣的模式,可以幫助我們以整體的概念來看待圖像中的物體,而不像傳統技術那樣只獲取局部特征點,這更像是尋求圖像中物體的整體對稱性和規則性。例如,通常的樓房窗戶都是平直的矩形,桌子總是四四方方擁有4條腿等。借助這些規則,即便圖片只能提供有限的信息,PC也能夠更容易地識別出圖片中的物體。在高維數學模型中,輸入每一個點的數據都可以被用來預測某種規則性,因此這種高維的圖像識別技術可以利用圖片中幾乎每個像素點來獲取圖像中物體的整體規則結構,這意味著往往只需圖片的一小部分即可完成圖像中物體的矯正和識別。例如,在傳統圖像識別技術中,100×100的圖像區域往往提供不了多少特征點數據,而在高維的圖像識別技術中,這意味著將有近10 000個像素點都可以用來獲取圖像的規則結構信息。
從人的角度讀圖
借助規則性和規律性來識別周圍的環境和景物是人類的基本技能,實際上一個人從出生開始就在學習各種各樣的規則。比如什么是矩形、什么是圓形,以及桌子一般什么樣、房子一般什么樣等等。而高維圖像識別使得計算機具備了與人類相同的圖像識別方式。當我們看到照片中樓房的窗戶因為拍攝視角的問題而變得傾斜時,并不會認為窗戶就真的是傾斜的,我們甚至知道窗戶本來應該是方正的,同時我們還能分辨出擋在窗戶前的樹杈并不是窗戶的一部分。類似地,通過建立高維圖像識別的物體規律,微軟研究院的研究員們已經能夠讓PC實現類似的功能,它能夠幫助我們把傾斜的樓宇校正,或者擦去樓宇前方的樹枝。
由此我們也可以了解這項技術的特長與不足,凡是遵循一定規則的物體或圖像,這項技術就能夠通過建立規則的方式對其進行識別,凡是規則性不強的物體或圖像,這項技術往往就會有較大的局限,例如在一個混亂的花叢中處理某個物體就不是這項技術能夠勝任的。通常來說,具備規則性的物體往往是由人所創造,因為從人類最基本的理念上來看,人類相信這個世界是簡單的,且具備規整結構的,在人類創造各種物品時都會遵循簡單、易用的原則,在這種原則的影響下,沒有規則性的事物就會被逐步淘汰。規則并沒有我們想象的那么復雜,我們并不需要給世界上的每一種物體都建立一個規則。這里的規則實際上是一種數學結構的分類,很多物體在數學結構角度上看是相同的東西,所以我們只需要建立一些重要的通行規則即可。當然也有一些特殊事物要單獨建立規則,例如文字。
文字這種由人類發明的圖形組合,在人類審美和規則性思維的調整下,逐步完善并建立了很好的規則性,比如橫平豎直以及各種整體或局部的上下左右對稱性等等。無論是英文、中文或是其他文字,基本都具備很強的規則性,而這種規則在數學上也是能夠歸納和總結出來的,這樣的圖像在高維空間中有著很低維的內在結構。例如,目前除了筆劃很少的漢字規則性不強外,絕大部分漢字都具備很強的規則性。
總的來說,這種高維圖像識別技術能夠解決以往我們根本無法解決的一些圖像識別問題,在逐步完善后,它將會徹底改變我們識別和操作圖片的方式。目前微軟研究院的研究員們正在努力完善這種高維圖像識別技術。首先,目前的高維圖像識別技術在識別圖像中的物體之前,用戶要告訴計算機正在識別的規則物體的位置。而下一步要做的就是要讓計算機能夠更聰明地發現,圖像中哪里存在規則性、哪里沒有規則性,以及針對圖像的不同位置使用不同的規則進行修復等。這種技術另外的一個努力發展方向就是提高運算效率,比如最終能夠實現在智能手機等終端上實時運行。目前微軟研究院的研究員們借助普通的主流PC,已經將1萬點圖像的識別速度提升至不足1s的時間,隨著后續算法和程序的改進,這一技術最終將能夠被普通用戶所使用。
目前,高維圖像識別技術主要適用于有結構的、有規則性的環境,它的優勢在于針對具備規則性的物體,能得到最精確、最穩定的幾何和結構恢復。
——馬毅 微軟亞洲研究院首席研究員、視覺計算組負責人