傅惟真,王靜,陸燕玉,吳昊,柴新禹
上海交通大學生物醫學工程學院,上海市,200240
根據世界衛生組織發布的統計報告,截至2010年,全球約有2.8億人患有由于眼睛疾病或者未經矯正的屈光不正所造成的視力受損,其中約3936萬為盲人。在中國,有大約7500萬人為視力受損患者,其中盲人數達到820萬[1]。致盲原因有多種,在視覺通路(Visual Pathway)上任何一段的損傷都可能會導致失明。視網膜色素變性(Retinitis Pigmentosa,RP)與老年黃斑變性(Age-related Macular Degeneration,AMD)等視網膜病變是造成失明的主要病癥,對此,目前仍缺乏有效的治療措施。近年來視覺假體(Visual Prosthesis)已經成為神經工程領域研究的熱點。隨著仿生學、神經科學及神經工程、信息科學、生物材料科學及臨床醫學等綜合交叉學科的發展,研究者們開展了視覺修復基礎理論和關鍵科學問題的研究,這將為盲人復明帶來希望。
視覺假體按電極陣列的植入位置分為視皮層視覺假體(Cortical Prosthesis),視神經視覺假體(Optic Nerve Prosthesis)以及視網膜視覺假體(Retinal Prosthesis)。其中,視網膜假體是由外置的微型攝像機采集外界圖像信息,然后通過信息處理模塊把圖像信息轉換為相應的電刺激模式,多路電脈沖通過微電流刺激器加載于微電極陣列上,通過電刺激視網膜神經節細胞并引起興奮,進而在視覺中樞產生光幻視(Phosphene),最終修復假體植入者的部分視覺功能。
由于電極制造工藝、能量傳輸系統、植入體封裝和植入電極的安全性等方面的技術局限,現階段視覺假體的電極數量仍然有限。盡管Humayun等[2]研制的視網膜上假體的電極數量從2002年的16個(Argus I)上升2006年的60個(Argus II),包含250及1000個刺激位點的微電極陣列的假體裝置也正在研制中;Zrenner等[3]研制的視網膜下假體的光電二極管數量達到1500個,但是,相對于正常視覺系統中約1.3億光感受細胞和130萬個左右的神經節細胞而言還是非常有限。視覺假體中較少數量的刺激電極也只能誘發有限數量的光幻視點,從而僅能實現低分辨率的視覺感受。
目前,在低分辨率視覺感受的假體視覺情況下,尋找最佳的圖像處理策略以優化光幻視陣列所呈現的信息,已經成為視覺假體研究中的一個重要方面。通過相應的圖像處理策略將最重要的視覺信息從攝像頭所采集的圖像序列中提取出來,并在低分辨率的條件下以最優方式呈現給假體植入者,提高其完成日常視覺任務的能力。而基于視覺注意機制模型的圖像處理策略能模擬人類視覺注意過程,并有效利用圖像中的最主要特征優化所呈現的視覺信息,在一定程度上彌補了低分辨率假體視覺下色彩信息的缺失以及低灰度級等不足,進而提高假體植入者的導航、躲避障礙物[4-5]、物體及場景識別[6-10]等能力。本文主要對仿真假體視覺下基于視覺注意機制模型的圖像處理策略以及相關心理物理學的主要研究和進展進行綜述。
視覺注意(Visual Attention)是人類視覺的一項重要的心理調節機制,是人類視覺系統根據圖像本身的特性以及有關場景、目標及其關系的知識選擇、過濾視覺信息的過程[11]。選擇性視覺注意機制幫助人類視覺系統在復雜場景中搜索感興趣的區域(Region-of-Interest,ROI)和目標。選擇性視覺注意由自上而下的任務驅動因素和自下而上的數據驅動因素相結合而產生,使人的視覺系統可以迅速感知外界信息[12]。自1972年Eriksen[13]提出關于視覺注意的描述,Posner和Raichle等[14]又從生理學和神經科學的角度研究了選擇性注意的大腦成像。隨著認知心理學,視覺心理學,信息科學等學科的發展,科學家們能夠更加深入得理解人類視覺注意機制,并提出了多種模擬視覺注意機制的計算模型[11,15-19]。
在1985年,Koch和Ullman[20]基于Marr[21]的視覺計算理論提出了視覺注意的第一個計算模型。他們首次提出顯著圖理論,并引入勝者全取(Winner-Take-All,WTA)機制與抑制返回(Inhibit of Return,IOR)機制對注意的選取和轉移過程進行初步探討與思考。Itti與Koch[19]在1998年率先將視覺選擇性注意機制模型的研究工作從建模思想的定性分析提高到了模型化定量計算分析層次。該仿生模型將視覺系統的“中心-外周”(Center-Surround,CS)機制、WTA、IOR和顯著圖的計算結合在一起,并實現了定量分析。該模型首先提取出輸入圖像的亮度、顏色和方向信息形成特征圖,再采用8層金字塔模型模擬CS機制,在每種特征圖內部進行競爭,然后通過線性組合得到總的顯著圖來引導注意,最后WTA和IOR機制進行注意轉移。這個內隱性模型成為了目前視覺選擇性注意機制研究領域中較為經典的模型。除了上述的建模思想外,另外還有外顯性即引入眼動的選擇性注意機制模型,以及自上而下與自下而上驅動相結合的計算模型也逐漸發展起來[15,22-23]。
顯著圖的生成是選擇性注意機制模型中的重點之一。自下而上的數據驅動機制中,圖像中物體在預注意階段通過比較每個位點的特征信息與其周邊信息的區別大小來定義顯著性[20]。視覺生理實驗結果表明,許多動物視網膜中的視椎細胞對顏色信息敏感,而視桿細胞對亮度信息敏感[24]。而方位、邊緣信息則能夠刺激大腦皮層VI區域[25],這可以利用Gabor 模型[26]來模擬這些方向選擇性神經元的反應。因此,較多文獻采用顏色、亮度、方向、尺度、大小和運動等初級視覺特征來衡量顯著性,如Itti提出的集合亮度、顏色、方向特征的顯著性計算,Wolfe提出的GS 2.0模型[15],Li提出的集合對比度、邊緣、方向和對稱性特征的顯著性計算。此外,還有基于信息熵的度量方法來衡量圖像中各區域的復雜度[27-28]。
另一方面,科學家們經過視覺生理實驗發現了視覺系統的CS機制[29]。視覺生理中將能影響某些特定視神經細胞反應的視網膜區域稱為該神經元的“感受野”。許多動物視神經細胞由顏色和亮度信息刺激產生反應的感受野為同心圓的形狀,而且如果對該類型感受野的中心和四周施加刺激將引起相反的反應。它有利于動物視覺系統對對比度信息的抽取。這個機制可以用DoG(Difference of Gaussian)模型[30]或者多層金字塔模型[19]來模擬。而神經生理學實驗也進一步證實了IOR機制[31],促進了視覺轉移控制的建模。
目前視覺假體還不能為植入者提供有效的圖像色彩信息,同時,植入者感受到假體視覺的灰度、紋理、等信息與正常視覺相比也不同程度地有所減弱。這使得圖像一些重要的特征信息不足以顯著到“跳出”(Pop-out)圖像。因此,假體植入者無法利用其視覺注意機制快速準確地選擇重要的、顯著的信息。研究者們希望仿照人類視覺注意機制運用機器算法確定圖像中感興趣的目標,然后對圖像進行特征信息提取,增強圖像中重要特征信息的顯著性,從而能夠充分利用有限數量的光幻視點來呈現圖像中的重要信息,達到提高圖像識別率的目的。許多小組開始研究仿真假體視覺下基于視覺注意機制模型的圖像處理策略。
清華大學的Li等[6]提出了一個假體視覺下基于視覺注意機制的低像素化圖像處理策略。該算法首先從圖像中提取視覺特征中對比度、邊緣、方向以及對稱性信息。然后對每一個特征信息進行心理物理學實驗評估,幫助確定最終顯著圖中各個視覺特征的權重。最終各個特征通道疊加成顯著圖,并根據每個點的顯著性找出圖像中的突出區域。通過以上方法依據突出區域的位置調整圖像各部分的分辨率并生成仿真假體視覺下的低像素化圖像,越突出的區域分辨率越高。Li等人通過仿真實驗平臺評估這一模型在物體、室內室場景中的有效性。結果表明,加入權重后的特征提取模型可以有效地找到視覺的感興趣特征和區域。
Boyle等[7]提出了假體視覺下基于ROI的圖像處理策略。他們將六類分別取自海灘、街道、辦公室、家、咖啡館的場景圖像和人體上半身圖像,在25 × 25分辨率下應用不同的數字變焦(Digital Zoom)圖像處理策略,并呈現給被試完成識別任務。分別采用六種不同的ROI放大窗口:(1)重要特征映射圖剪裁窗口。首先計算原圖的重要特征映射圖(Importance Map,IM),即用統計方法確定不同場景中亮度對比度、尺度、形狀、中心度、前景與背景對比度、邊緣等特征信息的權重,再將特征圖根據權重大小重新疊加處理形成IM。然后從IM的最邊緣開始逐步根據灰度值剪裁,若灰度值低于最大灰度值95%,則裁去該縱列或橫排。(2)重要特征映射圖掃描窗口。同樣應用了IM,定義一個原圖1/4大小的框對IM進行掃描,獲得灰度值總和最大的區域即為窗口。(3)顯著圖剪裁窗口。根據Itti提出的選擇性注意機制模型生成的顯著圖[19]進行剪裁,剪裁方法和(1)相同。(4)最大顯著性掃描窗口。仍然選用Itti提出的注意機制模型顯著圖,窗口的選取方法與(2)相同。(5)中央窗口。選取圖像中央大小為原圖1/4的窗口。(6)底部中央窗口。選取圖像底部居中的區域作為放大窗口,大小為原圖的1/4。這六種數字變焦策略與原圖進行比較,實驗結果表明基于選擇性注意機制的顯著圖剪裁法優于其它方法。
Parikh和Itti[4]在2010年報道了提高運算速度的選擇性注意機制改進模型。該自下而上的改進模型選取亮度、色彩飽和度以及邊緣信息引導注意,代替了之前的顏色和方向信息。模型共生成18張特征映射圖(原始模型為42張圖),減少了模型的運算時間。Itti同時用量化方法評估了模型的有效性,在150張場景圖片數據庫中將模型生成的顯著區域與人類注視焦點相匹配得到了較優的結果。簡化后的模型在基于TMS320 DM642 的數字信號處理器系統上運行速度達到了1 fps,處理速度遠遠快于原先的計算模型。希望該模型的進一步優化能夠應用到視覺假體的圖像處理中,幫助假體植入者完成躲避障礙物和導航等任務。
Van Rheede等[9]基于仿真假體視覺搭建了一套實時的處理系統,該系統可以實現基于眼動的ROI放大和魚眼放大的圖像處理策略。通過視敏度測試、表情識別、躲避障礙物、手眼互動及找路幾項視覺任務評估幾類策略的有效性。對于視敏度、表情識別任務,結果ROI放大和魚眼放大處理策略的識別率有顯著提高;對于眼手互動任務,ROI方法的準確率也有明顯提高。但是,對于找路任務來說,ROI放大和魚眼放大處理策略完成任務的時間相對均有所增加。結論表明:完成不一樣的視覺任務需要不同的有效算法,ROI放大可以更加細節地描述場景,而直接低像素化略組則可以提供更為宏觀的場景信息。
視覺假體圖像處理策略能夠優化低分辨率的假體視覺信息,是目前視覺假體中研究的重要內容。本文系統介紹了仿真假體視覺下基于視覺注意機制模型的圖像處理策略研究進展。在介紹視覺注意機制模型的基礎上,論述了了其在仿真假體視覺下的應用研究進展。基于視覺注意機制模型的圖像處理策略在仿真假體視覺下有助于找到圖像中顯著性高的目標和區域,提高其完成視覺任務的能力。希望這些圖像處理策略能在未來的視覺假體臨床中得到廣泛應用。
[1]Pascolini D,Mariotti SP.Global estimates of visual impairment:2010[J].Br J Ophthalmol,2012,96 (5):614-618.
[2]Chader GJ,Weiland J,Humayun MS.Artificial vision:needs,functioning,and testing of a retinal electronic prosthesis[J].Prog Brain Res,2009,175:317-332.
[3]Zrenner E.Restoring neuroretinal function by subretinal microphotodiode arrays[C].ARVO,Fort Lauerdale,USA,2007.
[4]Parikh N,Itti L,Weiland J.Saliency-based image processing for retinal prostheses[J].J Neural Eng,2010,7 (1):16006.
[5]顧柳君,王靜,陸燕玉,等.仿真假體視覺下的行動能力研究進展[J].中國醫療器械雜志,2012,36 (2):110-113.
[6]Li R,Zhang X,Hu G.A computational pixelization model based on selective attention for artificial visual prosthesis[M]. Advances in Natural Computation.Berlin:Springer,2005.
[7]Boyle JR,Maeder AJ,Boles WW.Region-of-interest processing for electronic visual prostheses[J].J Electron Imaging,2008,17(1):013002-1-12.
[8]Boyle JR,Maeder AJ,Boles WW.Image enhancement for electronic visual prostheses[J].Australas Phy Eng Sci Med,2002,25 (2):81-86.
[9]van Rheede JJ,Kennard C,Hicks SL.Simulating prosthetic vision:Optimizing the information content of a limited visual display[J].J Vision,2010,10 (14),pii:32.doi:10.1167/10.14.32.
[10]史靜茹,陸燕玉,顧柳君,等.基于仿真假體視覺的圖像識別研究進展[J].中國醫療器械雜志,2011,35 (3):48-52.
[11]Itti L,Koch C.Computational modeling of visual attention[J].Nat Rev Neurosci,2001,2:194-203.
[12]Bergen JR,Julesz B.Parallel versus serial processing in rapid pattern discrimination[J].Nature,1983,303 (5919):696-698.
[13]Eriksen CW,Hoffman JE.Temporal and spatial characteristics of selective encoding from visual displays[J].Percept Psychophys,1972,12 (2):201-204.
[14]Posner MI,Raichle ME.Images of mind[M].New York,US:Scientific American Library/Scientific American Books,1994.
[15]Wolfe JM.Guided Search 2.0 A revised model of visual search[J].Psychonom Bull Rev,1994,1 (2):202-238.
[16]Navalpakkam V,Itti L.An integrated model of top-down and bottom-up attention for optimizing detection speed[C].Proc CVPR 2006:2049-2056.
[17]Walther D.Interactions of visual attention and object recognition:computational modeling,algorithms,and psychophysics[D].California Institute of Technology,2006.
[18]Bamidele A,Stentiford FWM.An attention based similarity measure used to identify image clusters[C].EWIMT 2005,(Ref.No.2005/11099),67-71.
[19]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans Pattern Anal Mach Intell,1998,20 (11):1254-1259.
[20]Koch C,Ullman S.Shifts in selective visual attention:towards the underlying neural circuitry[J].Hum Neurobiol,1985,4 (4):219-227.
[21]Marr D,Poggio T.A computational theory of human stereo vision[J].P Roy Soc B,1979,204 (1156):301-328.
[22]Itti L,Koch C.A saliency-based search mechanism for overt and covert shifts of visual attention[J].Vision Res,2000,40 (10-12):1489-1506.
[23]Frintrop S,Backer G,Rome E.Goal-directed search with a topdown modulated computational attention system[M].Pattern Recogn.Berlin:Springer,2005.
[24]Selig Hecht.Vision:II,the nature of the photoreceptor process:a handbook of general experimental psychology[M].Worcester,US:Clark University Press,1934.
[25]De Valois RL,Albrecht DG,Thorell LG.Spatial frequency selectivity of cells in macaque visual cortex[J].Vision Res,1982,22 (5):545-559.
[26]Daugman JG.Two-dimensional spectral analysis of cortical receptive field profiles[J].Vision Res,1980,20 (10):847-856.
[27]Jagersand M.Saliency maps and attention selection in scale and spatial coordinates:an information theoretic approach[C].5th ICCV,1995:195-195.
[28]Ferraro M,Boccignone G,Caelli T.On the pepresentation of image structures via scale space entropy conditions[J].IEEE Trans Pattern Anal Mach Intell,1999,21 (11):1199-1203.
[29]Barlow HB.Action potentials from the frog's retina[J].J Physiol,1953,119 (1):58-68.
[30]Rodieck RW.Quantitative analysis of cat retinal ganglion cell response to visual stimuli[J].Vision Res,1965,5 (12):583-601.
[31]Posner MI,Rafal RD,Choate LS,et al.Inhibition of return:neural basis and function[J].Cogn Neuropsychol,1985,2 (3):211-228.