收稿日期:2008-01-15;修回日期:2008-03-21
基金項目:河南省自然科學基金資助項目(0611052900); 河南省杰出人才創新基金資助項目(521000100)
作者簡介:毛曉波(1965-),男,河南開封人,教授,碩導,博士研究生,主要研究方向為仿生型機器視覺研究、復雜系統控制理論及其應用(mail-mxb@zzu.edu.cn);陳鐵軍(1954-),男,教授,博導,主要研究方向為復雜系統控制理論及其應用
(鄭州大學 電氣工程學院,鄭州 450001)
摘 要:在深入分析人類眼球的神經機理、運動形式和特點及人類視覺神經通路的基礎上,
從模擬人類眼球運動構筑仿生機器眼和模擬人類視覺感知機理應用于機器視覺兩個方面,探討了視覺仿生研究的方式方法、研究進展、應用前景和發展趨勢。提出了采用復雜系統控制方法構建多自由度仿生型機器人雙眼運動模型的思路,分析了人眼固視微動機制的綜合利用和應用價值以及超人眼系統的研究設想等新的視覺仿生研究方向。
關鍵詞:視覺仿生;眼球運動;視覺通路;神經機制;人類視覺
中圖分類號:TP24
文獻標志碼:A
文章編號:1001-3695(2008)10-2903-03
Study on bionic machine vision
MAO Xiao-bo , CHEN Tie-jun
(School of Electrical Engineering, Zhengzhou University,Zhengzhou 450001,China)
Abstract:On the basis of analyzing the human oculomotor neural mechanism, oculomotor forms and its characteristics as well as visual neural pathway in detail, this paper introduced the research method, research progress, application prospect and development tendency of vision bionics research from two aspects of simulating human oculomotor to build biomimetic eye and applying visual perception to machine vision. Given some new ideas which included setting up muti-dimensional binocular visual motion model, integrated utilization of fixational eye movments and an assumption about superman vision system.
Key words:vision bionics; oculomotor; visual pathway; neural mechanism; human vision
科學研究和統計表明,人類從外部世界獲得的信息約有80%~90%來自于視覺系統。對于人類如何精確地感知和理解豐富多彩的外部世界,視神經科學家已經從視網膜信息獲取、視神經通路、大腦皮層等各個方面作了大量的研究,取得了一系列研究成果,為研究視覺系統模型和算法奠定了基礎。研究人類視覺系統至少有兩方面的重大意義:a)應用于醫學領域,為眼科臨床提供理論依據和指導,或用于研制人工視覺器官,如人工視網膜、視覺假體等,為視覺障礙者帶來光明;b)應用于工程技術領域,研究模擬人類視覺功能的機器視覺系統,即仿生(或仿人)機器眼,使機器能夠像人類那樣通過視覺觀察和理解世界。視覺系統是一個跨學科的復雜系統,不僅涉及眼的活動,還與大腦、小腦、腦干等神經活動密切相關。對于視覺系統,可以從醫學、認知科學及信息處理等不同的角度來進行研究。本文從人類眼球運動和視覺通路的神經機制出發,以控制論和仿生學的視角探討視覺仿生的研究方法、研究進展和發展思路。
1 眼球運動神經機制與特性分析
1.1 眼球結構
人類視覺系統包括眼球、視神經和視覺中樞。眼球是前端視覺器官,了解其生理解剖結構和運動機理對于眼球運動的視覺仿生研究至關重要。眼球位于眼眶內,近似球體,前后徑約24 mm;后側發出視神經與腦相連。從解剖學角度看,眼球由角膜、鞏膜、虹膜(中央小圓孔為瞳孔)、晶狀體、睫狀體、視網膜、脈絡膜、視神經和眼球內容物及其他附屬部分組成[1],如圖1所示。其中瞳孔、角膜和晶狀體、視網膜分別對應于機器視覺(攝像機)的光圈、透鏡和感光膠片。眼球中大量的內容物對機器視覺研究無貢獻,不作介紹。
視網膜在眼球臂的最內層,由三層細胞組成。外層為感光細胞 (包括視錐和視桿細胞),中間層為雙極細胞,內層為神經節細胞,神經節細胞的軸突即為視神經纖維,組成視神經。視網膜中心有一個直徑約1~3 mm的黃色區域稱為黃斑,黃斑的中央下陷稱為中央凹,僅有視錐細胞,是視力最敏銳的地方。眼球在眼眶中的運動由六條眼外肌相互協作、精確控制完成。這六條眼外肌分別是上、下、內、外四條直肌和上、下兩條斜肌。眼外肌是由顱神經推動控制的,顱神經指揮眼外肌收縮或松馳。一部分眼外肌收縮時,另一部分則松馳,眼睛就運動。其中上直肌、下直肌、內直肌和下斜肌由動眼神經支配;外直肌由外展神經支配;上斜肌由滑車神經支配。單眼運動包括上轉、下轉、內轉、外轉和內旋、外旋運動。
1. 2 雙眼協調運動形式及特性分析
人的雙眼不像雙手、雙臂等器官可以左右各自獨立運動。原因在于來自兩個視網膜的神經以半交叉的結構通向左右大腦半球,互相之間有神經聯絡和約束;雙眼是單個器官的兩個部分,中樞神經總是發出一對信號控制雙眼。因此,人眼視物是雙目聯動、協調運動的。雙目視覺不僅補償了單眼視覺存在的盲點和缺陷、擴大了視野,而且增加了深度感,產生了立體視覺,并增強了對物體大小與距離的判斷力。眼球復雜的協調運動受中樞神經系統支配。額葉是隨意性運動中樞;枕葉是反射性跟隨運動中樞;皮層下中樞在中腦動眼神經核的頂蓋前區。看遠方目標,雙眼視軸接近平行;看近處目標,兩眼集合,集合的高級中樞在大腦。雙眼運動的形式如下[1,2]:
a)同向運動(conjugate movement)。跟蹤左右或上下移動的物體,兩眼視軸共軛地向相同方向移動,又分為急動和平滑跟蹤兩種形式。
(a)急動性眼球運動(saccade),又稱為掃描或眼跳動。這是使眼球注視方位突然改變的隨意運動,其掃描角約為1~40°,持續時間在30~120 ms,掃描速度最高約600°/s[1]。中樞神經系統通過對視覺目標位置進行計算后發出控制信號,通過眼外肌給眼球一定的加速度和作用時間,使視線很快地切換注視點。眼球急動還具有適應性,經過若干次訓練后能自動調節眼球跳動的增益[3]。
(b)平滑跟蹤運動(smooth pursuit)。它是眼球追蹤低速運動目標時的運動,最大運動速度約30°/s[2]。運動目標的位置和速度信息傳入中樞神經系統,控制眼球做一種連續反饋的伺服運動,使目標物體所成的像始終保持在視網膜的中央凹上,實現清晰平滑的跟蹤。
b) 異向運動(vergence movement),又稱聚焦運動。它使眼聚焦于同一直線上不同景深的物體,跟蹤物體前后、遠近地移動。物體移近時,兩眼視軸向內匯合,做匯聚運動(convergence movement);物體移遠時,兩眼視軸向外分開,做散開運動(divergence movement)。
c)固視微動(fixational movment)。雙眼注視靜止物體時,眼球并未靜止,而是在做振幅很小的顫動,平均掃視0.2′,約為視錐細胞直徑的1/2,振動頻率達80~100 Hz[1]。這種自發的微動是人的視覺活動所必需的,其目的是為了防止適應。因為視覺系統對不隨時間改變的刺激會很快地適應,失去反應。固視微動產生給光—撤光效應,視覺細胞和視中樞才能處于興奮狀態,保持高度的視敏度。注視物體時還有另外兩種微小運動,分別稱為慢漂移和微跳動,前者使目標逐漸離開中央凹;后者則糾正這個偏差,跳回中央凹,以保持正確的注視姿態[4]。
d)反射性眼球運動(reflex movment)。內耳迷路中的三個半規管、橢圓囊和球囊組成前庭器官,是人體運動狀態和頭在空間位置的感受器[1]。人腦正是根據來自兩側水平半規管傳入信號的不同來判斷頭部是否開始旋轉和朝何方向旋轉。前庭器官與視覺系統密切相關,通過刺激前庭系統可誘發不受大腦控制的反射性眼球運動。
(a)前庭動眼反射(vestibule-ocular reflex)。當身體或頭部旋轉時,產生與旋轉相反方向的反射性眼動,使視線的位置在身體或頭部旋轉時維持不變。
(b)視機性反射(optokinetic reflex)。前庭反應中最特殊的是當身體快速旋轉或做直線加速度運動時出現的視動性眼震,例如,當身體向左側加速旋轉時,兩眼球先緩慢向右側移動,這稱為眼震的慢動相;當眼球移到右端不能再移動時,又突然返回正中位置,這稱為眼震的快動相。此后再出現新的快慢動相,循環進行。當旋轉突然停止時,也會引起眼震,但快慢相方向與上述情況相反。當人坐在火車上向外凝視路旁的景物時也會發生這種眼震。這種特性使人眼能夠清晰地跟蹤高速運動的對象。
人眼觀察物體時,往往需要上述多種運動形式的合成才能實現清晰觀察和動態跟蹤。
2 人類視覺通路與特性分析
2. 1 視覺通路
視覺信息在大腦中是按照一定的通路即視覺通路進行傳遞的。視覺通路主要包括視網膜、視神經、視交叉、視束、外側膝狀體、視放射和視皮層等[2],如圖2所示。
視網膜上的感光細胞接收來自外界的信息。其中視桿細胞感應光照條件的變化;視錐細胞感應信息顏色的變化。這些感光細胞將視網膜上接收的光能轉換成神經沖動,經視網膜神經節細胞加工,其發出的纖維(軸突)匯集成視神經,入顱后在蝶鞍處形成視交叉。來自雙眼視網膜鼻側部的纖維在此處互相交叉到對側,與同側未交叉的視網膜顳側部的纖維合成視束。視束經外側膝狀體中繼,換神經元后發出的纖維形成視放射,再經過內囊到達大腦視皮層的不同區域。目前被普遍接受的Ungerleider和Mishkin的理論認為[5,6],視覺系統中存在兩條通路:一條是視束沿背側經外側膝狀體(LGN)、初級視皮層區域(V1,V2)、中顳葉區(MT)、后頂葉皮層(PPC),最后到達背外側額葉前部皮層(DLPFC),稱為motion或where通路,用來處理動作和其他空間信息;另一條沿腹側經外側膝狀體、初級視皮層區域(V1,V2,V4)、下顳葉皮層(IT),最終到達腹外側額葉前部皮層(VLPFC),稱為form或what通路,用來形成感受和進行對象識別。
2. 2 視覺通路特性分析
由視覺通路可見,視網膜、外側膝狀體和視皮層構成了視覺信息處理的三個基本層次。另外,在大腦主皮層內,視覺信息是按照視皮層簡單細胞—復雜細胞—超復雜細胞—更高級的超復雜細胞這樣的序列,由簡單到復雜,由低級到高級分級、分塊進行處理的[2]。可見,視覺系統是一個縱向與橫向處理相結合的復雜系統。從控制論的角度來看,具有下列特點:
a)閉環控制機制。視覺通路中的大部分連接都是雙向的,前向連接往往伴隨著反饋連接。大腦中許多高層區域具有大量的反饋通路到達視覺初級皮層。這些反饋通路的存在被認為與人的意識有關,其信息處理的許多方面都表現為自底而上和自頂而下的閉環控制機制。
b)特征提取機制。視網膜由光感受細胞、雙極細胞和神經節細胞構成。研究表明,多個光感受細胞對應一個雙極細胞,多個雙極細胞又與同一個神經節細胞相聯系。光感受細胞接收的外界場景信息,經神經節細胞輸出后只是場景的特征信息,且神經節細胞僅為感光細胞的1%以下(中央凹附近除外)。可見,在視覺信息傳到大腦之前,視網膜已進行了相當程度的特征提取,因而大腦只對外界信息中部分重要的信息作出反應并進行控制。人眼的這種注意機制[2]對研究特征提取、目標識別、跟蹤及信息處理都具有重要的參考價值。
c)自學習機制。神經生理學研究表明,視覺皮層具有可塑性,通過不斷調整功能來適應重要的刺激從而逐漸形成特異性的腦區。這種自學習、自組織能力使大腦能夠從復雜的外界刺激中辨別出不變的、本質的東西。
3 視覺仿生的研究進展
從計算機和機器人誕生之日起,人們就希望給它們裝上“眼睛”,像人類那樣通過視覺觀察和理解世界。攝像機的出現使機器初步具備了“眼睛”。目前,機器視覺的發展迅猛,已廣泛應用于機器人、微電子、自動駕駛、醫療、印刷、包裝、軍事等眾多行業。但目前國內機器視覺的研究多是基于工學的視角和研究方法,直接從神經生理學和解剖學的角度出發,即從分析人類視覺過程的仿生學方法進行的研究還很少。由于人類視覺在視線跟蹤、自適應機制、感知和識別及信息處理等方面具有先天優勢,開展仿人眼視覺研究意義重大。美國和日本在視覺仿生研究方面處于世界領先地位。
3. 1 雙眼協調運動仿生研究
國外從20世紀80年代開始研制基于生理模型的眼球運動系統。Robinson、Lisberger等人較早提出了平滑跟蹤運動模型[4,5];東京醫科齒科大學Wakamatsu等人首先用人工神經網絡的方法同時實現了急動、平滑跟蹤和前庭動眼反射運動[6]。之后,美國、日本、英國的大學和科研機構在模擬人眼運動研究方面進行了各種嘗試,采用了神經網絡、卡爾曼濾波、變結構PID控制器等多種控制方法。具有代表性的是東京工業大學張曉林(張研究室)研制的兩套雙眼運動實驗裝置[7,8],如圖3所示。該裝置是基于人眼解剖結構和神經通路數學模型研制而成的,用CCD攝像機作為眼球、轉角和加速度傳感器模擬前庭器官功能,圖像處理和控制模塊的輸出給伺服電機(眼外肌)發出指令,控制眼球做各種運動。圖3(a)實現了眼球水平運動的各種功能;(b)的機械結構可使眼球做三維運動。但由于數學模型是一維的,目前仍只能實現眼球水平方向運動,且頭頸部運動也是一維的。
3. 2 眼球固視微動仿生研究
Hubel和Wiesel的視覺感受野(receptive field)理論[9]與固視微動機理相結合,可用于圖像邊緣檢測。眼球的微動使場景中物體在on-中心型感受野和off-中心型感受野上交替出現;平滑區域兩種感受野的輸出產生的生理電信號偏差很小,而在圖像邊緣處產生的偏差很大,突出了邊緣部分。這方面的研究文章不少,但固視微動是否還有其他利用價值卻很少有人問津。張研究室模擬固視微動所做的一項實驗發現,提取出來的邊緣寬度與邊緣在場景中的位置,即物體的景深有關,如圖4所示[10]。左邊物體距離“眼球”115 cm,檢出的縱向邊緣寬度為7 pixel,右邊物體距離“眼球”15cm,檢出的邊緣寬度為10 pixel。這一發現給立體視覺研究一個新的啟示。當然,這項實驗還只是初步的。
此外,模仿人類眼球運動的研究內容還有眼球運動的力學模型及動力學方程、眼動測量系統及在工效學中的應用[3]等。
3. 3 基于視覺感知和信息處理的仿生研究
相對于眼球運動仿生研究,基于視覺感知和信息處理的仿生研究則是多方面的。Hubel和Wiesel在視覺研究方面作出了開拓性貢獻,最早提出分級處理模型[9]。Attneave和Kosslyn等人相繼提出了有效編碼假說[11]、高層視覺加工模型[12]和眼優勢柱模型等。目前,世界著名大學和研究機構都設有專門的視覺研究部門,研究內容主要有視覺形成的神經機制、人類視覺感知機制模型、基于人類視覺的特征提取和特征選擇、注意機制及其在復雜場景中的目標搜索、人類視覺系統多通道傳輸與并行機制研究等。
4 探索與設想
1)多自由度眼球控制系統建模與實現
在視覺神經通路和眼球運動機制的基礎上,運用自適應控制、系統辨識等復雜控制理論的方法,建立一個兩眼各三個自由度、頭頸部多個自由度的較完善的仿人眼運動控制模型,實現目前機器視覺無法達到的人眼的各種自然功能,應用于機器人視覺系統、運動目標快速跟蹤、自動駕駛及安全監控系統等。目前國內外尚未研制出較完善的仿人眼運動控制模型。
2)固視微動機制的綜合研究與應用
人眼的固視微動特性有許多特異性能:a)可防止視網膜的適應現象,保持高度的視覺靈敏度;b)高頻眼動把一幅靜止的圖像調制成交流信號送入視覺通道,具有濾波特性;c)微動具有突出物體邊緣的作用且包含深度信息;d)微動一旦停止,人眼成像就變得模糊。因此,進行固視微動機制的綜合仿生研究,對于物體邊緣檢測、立體視覺測量、提高系統反應能力及改善動態圖像清晰度等方面具有積極意義。目前,對固視微動機制的綜合研究和利用是國內外無人探索過的一條思路。
3)超人眼系統的研究設想
人類視覺系統已進化到幾近完美的階段,機器視覺的研究應該多向人類視覺請教。但人類視覺并非完美無缺,機器(計算機)視覺也并非一無是處。人類視覺經過大腦加工處理才能形成知覺和判斷,在一定條件下,大腦也會判斷錯誤從而產生視覺錯誤。大家熟知的視錯覺包括長短錯覺、大小錯覺、平行錯覺和彎曲錯覺等,而這些錯誤在機器視覺中就不會發生。機器視覺的發展雖然得益于人類視覺研究的啟示,但其計算理論與算法的發展卻相對獨立,有些方面不必刻意去模仿人類視覺。例如,人眼急動時掃描角小于40°,掃描速度最高不過600°/s,機器視覺完全可以突破這些限制;再如,人的雙眼具有聯動性,但這一定是最佳組合模式嗎?雙眼只能注視同一目標自然不能“眼觀六路”,二郎神擁有三只眼使其本領出類拔萃;鷹眼的視野比人眼廣闊得多;蜻蜓和蒼蠅的復眼則具有奇特的成像特點……因此,視覺仿生研究應具有開放的思維,在模擬人類視覺的同時,借鑒其他生物視覺的特點、機器自身的優勢,并根據應用的需要構筑一種“生理”參數優于人類視覺的超人眼視覺系統,將是視覺仿生的理想目標。
5 結束語
人的視覺系統既是一個復雜的控制系統和高度完善的信息處理機,又是一個高度非線性的動力學系統,同時還是一個復雜的神經網絡系統。視覺仿生研究涉及神經生理學、醫學、控制科學、仿生學等多門學科,是一個前沿交叉學科的研究對象,需要用學科交叉的方法進行研究。本文從視覺的神經機制出發,對視覺仿生研究的發展和前景進行了探索。目前,機器視覺無論從哪方面看都遠未達到人類視覺的水平,人類對自身視覺在更高層次上的機理也還未完全探明,因此,視覺仿生研究的意義重大,面臨挑戰,任重而道遠。
參考文獻:
[1]徐雨維,高春圃. 工程生理學[M]. 杭州:浙江大學出版社,1997:282-303.
[2]羅四維. 視覺感知系統信息處理理論[M]. 北京: 電子工業出版社,2006: 12-30.
[3]劉偉,袁修干. 人的視覺—眼動系統的研究[J]. 人類工效學, 2000,6(4): 41-44.
[4]ROBINSON D A, GORDON J L, GORDON S E. A model of the smooth pursuit eye movement system [J]. Biological Cybernetics, 1986, 55(1): 43-57.
[5]LISBERGER S G, MORRIS E J, TYCHSEN L. Visual motion processing and sensory-motor integration for smooth pursuit eyemovements[J]. Annual Review of Neuro Science, 1987, 10: 97-129.
[6]WAKAMATSU H, KUWANO M, SUDA H. Realization of physiologi-cal eyemovements by automatic selection of control laws using artificial neural network[C]//Proc of the 3rd International Conference on Artificial Neural Networks. Brighton, UK: IEEE, 1993: 113-117.
[7]ZHANG X, WAKAMATSU H. An unified adaptive oculomotor control model[J]. International Journal of Adaptive Control and Signal Processing, 2001, 15(7): 697-713.
[8]張暁林,若松秀俊. 両眼眼球運動制御メカニズムの數學モデルと視軸制御システムの構築[J]. 日本ロボット學會誌, 2002, 20(1): 89-97.
[9]HUBEL D H, WIESEL T N. Receptive fields of cells in striate cortex of very young,visually inexperienced kittens[J]. Neurophysiol, 1963,26:994-1002.
[10]張暁林,川合拓郎. 両眼固視微動を用いた立體エッジ畫像生成法[C]//第11回畫像センシングシンポジウム講演論文集. 橫濱: 日本情報処理學會,2005: 303-306.
[11]ATTNEAVE F. Some informational aspects of visual perception[J]. Psychological Review, 1954,61(3):183-193.
[12]KOSSLYN S M, FLYNN R A, AMSTEROAM J B, et al. Components of high-level vision: a cognitive neuroscience analysis and accounts of neurological syndromes[J]. Cognition, 1990,34(2):203-277.