視線跟蹤及其在智能教育中的應用研究綜述

2020-11-30 05:48:16張俊杰孫光民

計算機應用 2020年11期

張俊杰，孫光民，鄭鯤

（北京工業大學信息學部，北京 100124）

（?通信作者電子郵箱zhengkun@bjut.edu.cn）

0 引言

傳統教育的授課方式是教師與學生面對面教授，教師需要在課前制定教學計劃，在課堂中進行講解并制定相應的作業，在課后對作業進行批改，同時，傳統課堂上教師需要主觀判斷學生的聽課狀態。受制于學生人數，教師不能有效地對所有學生的學習狀態進行判斷，缺乏對學生個性化的指導。在線教育具有高度靈活性，學生可根據自身學習情況對學習內容進行自主選擇。在線教育可以有效促進教育的公平。當前，有限的名師資源大多在體制之內，導致教育資源分配不均，而在線教育能夠實現教師同時對多個班級進行授課，縮短教育公平化的進程。當前在線教育多采取視頻點播的方式，即教師提前將教學內容錄制完成后供學生進行觀看。學生在居家環境中進行學習，會受到環境的干擾，教師無法對學生的學習狀態進行分析，學生的學習效率受到影響，特別對素質類教育，如書法、鋼琴、素描等，學生僅通過視頻學習，學習效果不佳。2017 年，國務院印發《新一代人工智能發展規劃》［1］，提出“實施全民智能教育項目，構建人工智能多層次教育體系”。2019 年3 月，聯合國教科文組織召開“以人工智能促進可持續發展”會議。1 200名參會代表圍繞“人工智能+教育”的政策制定等問題進行了討論。2019 年5 月，以“規劃人工智能時代的教育：引領與跨越”為主題的首屆國際人工智能與教育大會在北京召開，會議對人工智能時代的教育問題進行討論，并形成成果文件《北京共識》［2］。同年8 月，在北京召開的“人工智能與教育大數據峰會2019”峰會，以“A.I.+教育：跨界融合與創新發展”為主題，推進了人工智能與教育的深度融合，結合人工智能技術對學生的學習過程進行分析，對學習效果進行評測，從而制定有針對性的個性化學習方案，不僅可以為教師的個性化指導提供支持，同時可以為學生的自主學習提供支持。

視線追蹤是一種記錄真實、自然和客觀用戶行為的方法。通過利用眼動跟蹤技術準確記錄學生在線學習時的視線落點以及關注區域。基于數據驅動方式的顯著性區域（Regions Of Interest，ROI）檢測關注于圖像中的顏色以及紋理信息。在同一場景下，任務的不同，會使得基于任務驅動方式的顯著性區域發生變化。以圖1 模擬駕駛任務為例。駕駛員在高速行駛時，應將注意力集中于駕駛方向的正前方，如圖1（a）中方框區域所示。在該任務中，基于以上兩種方式檢測到的顯著性區域不同，圖中區域不能作為指導性的顯著性區域，任務驅動方式檢測到的顯著性區域更準確。真實任務場景下，數據驅動方式檢測到的顯著性區域不能有效反映真實的視覺關注區域。眼睛運動是快速、下意識的運動行為，可以反映用戶的潛在信息。如圖1 所示。表情可偽裝性較強，眼部狀態特別是瞳孔大小的變化人為可控性較弱。因此，眼動追蹤可以為教師教學的個性化指導提供支持。此外，眼動數據，如瞳孔大小的變化，還可以揭示學生學習過程中的情感以及生理信息。

圖1 視線跟蹤方法和算法的區域檢測結果Fig.1 Region detection results of gaze tracking method and algorithm

視線跟蹤技術在教育領域應用的研究和分析包括4 部分：首先，介紹視線跟蹤技術的起源及發展；其次，分析視線跟蹤技術的原理和方法；再次，歸納視線跟蹤技術在教育領域的應用方式；最后，展望該技術在教育領域的應用前景。

1 視線跟蹤技術的發展

視線跟蹤是一種利用專業設備對用戶的視覺關注點進行采集的技術。早期的視線跟蹤方法包括直接觀察法［4-5］、后像法［6］、機械記錄法［4，6］、電流記錄法［7-9］、電磁感應法［10］以及光學記錄法［11-12］等多種方法［3］，如表1所示。

1878 年法國眼科學家Javal 通過觀察放置在被測試者前方的反光鏡中眼睛的運動來反映出眼球的真實移動路線。Lamare 通過在眼鏡架上安裝小橡皮囊，同時使眼瞼輕微的接觸小橡皮囊，將橡皮囊的開口處通過橡皮管連接到馬利起鼓，此時當眼球發生運動時，會使橡皮囊氣壓發生變化，利用馬利起鼓來反映出橡皮囊的變化，間接反映出眼動信息。法國Metrovison 公司利用電流記錄法生產出的眼動儀不僅可以對眼動軌跡進行分析，同時可以計算出瞳孔的直徑；但是該眼動儀僅可以記錄水平和垂直方向上的眼睛移動情況。反光記錄法最早是由Adler 和Fliegeman 所提出的，通過投射一束光對附著在用戶鞏膜上的小鏡子進行照射，通過記錄小鏡子的反光情況對眼睛的移動進行測量。

表1 視線跟蹤技術的發展Tab.1 Development of gaze tracking technology

Guy Thomas Buswell 在芝加哥發明出了第一臺非侵入式眼動儀，該眼動儀用膠卷記錄眼睛的反射光以確定注視點位置。最早將視線跟蹤技術商業化的是美國、日本以及歐洲的公司和研究機構。視線跟蹤系統按照采集系統是否與眼睛部位進行接觸進行分類可分為穿戴式和非穿戴式兩種。穿戴式的視線跟蹤系統需要使用者佩戴特制的配有光學攝像頭的頭盔或眼鏡等設備，頭盔的重量影響了使用的便捷性；但是穿戴式的視線跟蹤系統的檢測精度較高，頭部可進行大范圍的移動。非穿戴式的視線跟蹤系統則通過攝像機獲取用戶面部圖像，通過對人臉以及人眼進行分析與特征提取，得到能夠反映視線變化的特征參數，然后通過特征參數與映射模型，將人眼特征參數轉化為視線的三維數據，從而對視線的方向和落點位置進行估計。非穿戴式的視線跟蹤系統具有干擾小，操作便捷，適用性廣等優點。當前商用視線跟蹤設備包括Tobii、Polhemus、ASL （Applied Science Laboratories）、SMI（SensoMotoric Instruments）和Eyelink等，詳細如表2所示。

表2 當前主流的視線跟蹤設備Tab.2 Current mainstream gaze tracking devices

當前視線跟蹤設備主要基于瞳孔角膜反射法，首先利用紅外光源在角膜上產生普爾欽斑，然后計算瞳孔中心與普爾欽斑之間的方向矢量，最后依據該方向矢量來估計視線的方向。該方法需要增加輔助光源，對圖像采集設備有較高的要求，并且設備昂貴，不利于大范圍的推廣使用。

2 視線跟蹤方法

人眼特征提取和視線參數檢測是視線跟蹤系統的兩個關鍵環節。人眼特征提取的質量會直接影響到視線跟蹤的精度。視線跟蹤方法可分為基于2D回歸的視線估計方法、基于3D 人眼模型的視線跟蹤方法、基于人眼外觀特征的視線跟蹤方法以及基于深度學習的視線估計方法。

2.1 基于2D回歸的視線跟蹤方法

基于2D回歸的視線估計方法主要包括瞳孔角膜反射法，瞳孔眼角特征點法、交比值法以及單應性歸一化法，視線檢測示意圖如圖2所示。秦華標等［13］使用模板匹配和凸包方法精確定位了瞳孔中心。該方法基于單目攝像頭，首先利用4 個紅外光源在眼睛角膜上產生4個光斑，然后根據4個光斑的位置計算光斑的中心位置，該中心位置與瞳孔中心建立瞳孔角膜反射向量，最后采用二次多項式將瞳孔角膜反射向量與屏幕坐標點進行映射。當頭部在16 cm×10 cm×14 cm 的空間范圍內進行移動時，平均精度可達1°。自然光下，基于單目攝像頭對視線進行檢測時，注視點的估計精度較低，同時頭部不能在較大范圍內移動。

圖2 基于2D回歸的視線落點檢測方法Fig.2 Gaze point detection method based on 2D regression

針對以上問題，秦華標等［14］構建了基于虹膜和眼睛內角點的動態注視點眼動向量；同時為了消除頭部運動對眼動向量的影響，利用虹膜的面積對眼動向量進行標準化。通過結合動態注視點眼動向量與多項式映射模型得到實時注視點，實現眼動向量與注視點的一一映射。實驗結果顯示，當頭部的移動空間為200 mm×100 mm×200 mm 時，平均精度為1.5°。結合紅外圖像，劉瑞安［15］提出了基于瞳孔橢圓邊緣及瞳孔中心的亞像素定位算法，對瞳孔中心進行定位。該方法使用單目攝像機，采用瞳孔角膜反射法，利用3 個光斑和瞳孔中心的相對位置關系對視線方向進行計算。在頭部固定以及移動情況下，檢測精度分別為0.5°和1°。Torricelli 等［16］首先利用Hough 算法對瞳孔進行檢測，然后根據眼部特征點分別對左眼以及右眼構建眼動向量V=[R1，R2，θ1，θ2]，其中R1為眼睛外角點到瞳孔的距離，R2為眼睛內角點到瞳孔的距離，θ1為R1在水平方向的夾角，θ2為R2在水平方向的夾角，最后采用神經網絡作為映射函數。在水平和垂直方向上對視線落點進行檢測，精度分別可達1.6°和2.6°。該方法在無輔助光源的情況下，可支持頭部小范圍移動。Zhu 等［17］采用多項式映射函數，建立瞳孔-普爾欽斑向量與屏幕坐標點之間的映射關系。利用當前時刻和上一時刻頭部的位置，以及上一時刻眼動向量，得出當前時刻相對于標定位置的眼動向量。頭部移動范圍為200 mm×200 mm×300 mm 時，在垂直方向上的精度為1.3°，水平方向上的精度為1.7°。該方法解決了頭部移動導致精確度下降的問題。Zhu 等［18］使用邊緣和局部模式獲得亞像素精度上眼睛部位的特征。首先對虹膜邊緣像素點使用橢圓擬合的方式找到瞳孔中心，然后對眼角到瞳孔中心的特征向量與視線角度建立二維線性映射模型，最后通過插值的方式對連續幀的視線方向進行估計。結果顯示當頭部在較大范圍內移動時，精度為1.4°。Villanueva等［19］通過橢圓擬合的方式尋找瞳孔的中心點。基于單目攝像頭在兩個紅外光源進行輔助的情況下對視線進行檢測。當用戶到屏幕的距離為60 cm，頭部的移動范圍為20 cm×20 cm×20 cm時，視線落點的精度為1.57°。Morimoto 等［20］使用寬視角的單目攝像機對視線進行檢測。首先采用亮暗瞳技術對瞳孔進行分割；然后利用兩個近紅外光源在瞳孔形成普爾欽斑，建立瞳孔與普爾欽斑的眼動向量；最后使用二階多項式分別在x方向和y方向對眼動向量和屏幕坐標點進行映射。Zhu 等［21］基于主動紅外光源，使用廣義回歸神經網絡對瞳孔參數與屏幕坐標進行映射，不需要進行額外的標定，在頭部小范圍移動的情況下，水平方向上的注視精度為5°，垂直方向上的注視精度為8°。Zhu等［22］提出利用SVR（Support Vector Regression）建立眼動向量與屏幕注視點的關系。在頭部自然移動情況下，精度可達1.5°。

以上基于2D 回歸的視線估計方法不能很好地處理頭部移動的問題。Kolakowski 等［23］引入啟發式規則，能夠在頭部移動的情況下更準確地對視線落點進行檢測。

為了在頭部移動范圍較大時準確檢測到視線落點，Zhu等［24］使用兩個攝像機基于回歸的方式來估計頭部在三維空間中的位置，并通過獲得眼睛在空間中的位置來修正回歸函數，從而補償頭部運動帶來的誤差。該方法檢測準確率較高，但是需要對攝像機進行標定。

瞳孔的移動反映視線的變化，瞳孔的精確定位是準確檢測視線落點的前提。在線教育應用環境下，佩戴眼鏡以及光照變化會對瞳孔的定位造成影響。Zhang 等［25］提出基于相對線密度的正、反斜向積分投影算法。通過多項式映射函數f(x)，建立眼動向量V 與坐標點(X，Y)的對應關系，當用戶距離攝像機距離為60～80 cm時，精度可達1.5°～2.2°。

基于2D 回歸的視線跟蹤方法在頭部相對固定情況下視線落點檢測準確，當頭部距離攝像機的距離、角度發生較大偏轉時，檢測準確率下降。

2.2 基于3D人眼模型的視線跟蹤方法

基于3D人眼模型的視線跟蹤方法通過直接對人眼結構進行建模，計算出視線的方向。通過定義注視方向矢量，并與屏幕相結合，注視方向矢量與屏幕的交點即為注視點。頭部在空間中確切位置可以通過眼球或角膜在空間中的位置直接反映出來。基于3D人眼模型的視線跟蹤方法主要包括基于深度相機的視線跟蹤方法以及基于普通相機的視線跟蹤方法。

基于深度相機的視線跟蹤方法是使用深度攝像頭，如Kinect，獲取到原始圖像以及圖像的深度信息。結合原始圖像信息和深度信息，對眼睛部位進行3D 建模，從而估計視線的方向。Kim 等［26］利用Kinect 建立三維頭部模型。首先根據三維空間中左、右眼瞳孔的位置和嘴部中心點的位置確定面部平面，然后以鼻尖部位的法向量作為面部朝向的法向量，最后將左、右眼瞳孔部位的兩個眼動向量通過加權和的方式合并為一個眼動向量，根據眼動向量和面部朝向向量確定三維注視向量，將三維注視向量與顯示屏的交點計算為視線落點。在分辨率為1 920×1 080 的顯示屏上進行測試，平均誤差為23 pixel。Takahashi 等［27］結合2D 頭部姿態和3D 頭部姿態對視線落點進行檢測。Sakurai等［28］利用Kinect結合眼電圖對視線進行跟蹤。利用該種方式可使頭部在-90°～90°的范圍內進行移動。Sun 等［29］對眼睛部位建立三維幾何模型，結合瞳孔以及眼角點的三維空間位置，構造眼動向量，從而確定視線的方向。當用戶距離攝像頭55 cm 時，頭部運動范圍為300 mm×300 mm×200 mm。該種方法對頭部的大范圍移動具有較好的魯棒性，但是該種方法需要對攝像機以及用戶的位置進行標定。Jang等［30］利用視線跟蹤的方法對家用電器進行眼動控制。在顯示屏的四角放置4 個近紅外光源，利用兩個攝像頭分別捕捉場景信息以及眼動信息。用戶首先注視屏幕的4 個角得到注視每個角時的眼睛圖像，紅外光源在角膜上會形成4 個普爾欽斑，連接普爾欽斑，構成正方形區域，利用模板匹配法對瞳孔進行粗定位，對粗定位后的圖像區域進行邊緣檢測后使用橢圓擬合的方式對瞳孔中心進行檢測。瞳孔在普爾欽斑構成的正方形區域的變化表征了視線的變化。將正方形區域與物體進行映射，可以得到視線的注視點。利用該種方式進行視線跟蹤的精度為4°。

基于深度攝像機的視線跟蹤方法，系統配置簡單并且可以允許頭部的移動，但是該種方法需要十分精確地計算眼睛部位的特征，對硬件的精度要求較高。

根據使用相機以及輔助光源的個數，基于普通相機的3D視線跟蹤方法可分為單相機單光源、多相機多光源和單相機多光源三種方法。

單相機單光源系統結構簡單、操作容易。文獻［31-33］利用該方法對視線落點進行檢測，其中Meyer 等［31］的視線落點檢測精度為0.5°；頭部的移動范圍為14 cm×12 cm×20 cm 時，Hennessey等［32］的視線落點檢測精度為1°；與Hennessey相同，Guestrin 等［33］也取得了1°的精度。但該方法需要對用戶位置進行標定。

多相機多光源可改善頭部移動以及光照變化對視線跟蹤準確性造成的影響。文獻［34-36］使用兩個或多個攝像頭對視線進行檢測。Beymer 等［35］提出利用兩個攝像機對視線進行檢測，首先利用寬視角攝像機對眼睛進行定位，然后使用窄視角攝像機對視線進行檢測；Ohno 等［36］使用兩個攝像機，首先基于兩點標定的方式對攝像機進行標定，然后使用窄視角攝像機對眼睛部位進行定位的同時對視線進行檢測。利用該種方式頭部可自由地移動。

單相機多光源系統將眼睛上形成的兩個普爾欽斑的位置關系引入映射模型，減少頭部運動的敏感性，在保證視線精確的情況下，允許頭部在一定范圍內移動。Nagamatsu等［37］基于眼球模型，利用兩對立體攝像機，光源輔助下的無需標定的視線跟蹤方法。首先利用兩對攝像機分別獲得眼睛的光軸以及角膜的中心位置，然后利用三維眼球模型對雙眼的光軸進行估計，最后得到注視點位置，精確度可達2°。Model 等［38］提出基于瞳孔角膜反射法的多攝像機無需標定的視線跟蹤系統。在立體圖像中對眼睛參數進行提取。如瞳孔的中心點、角膜反射點等，得到不同人的眼睛特征參數，利用不同人的特征參數和眼睛特征對視線落點進行估計。在3～5 m 的距離內對用戶的視線進行檢測，準確率為2°。Morimoto 等［39］利用1 個攝像機結合2 個光源，對視線落點進行檢測。該種方法僅需對攝像機標定1 次，利用Gullstrand 模型和視線追蹤技術來估計角膜和瞳孔的中心。根據輔助光源位置的不同，可以達到2°～4°的準確性。

基于3D 人眼模型［40］的視線跟蹤方法，如圖3，通過使用多目攝像機或深度攝像機獲得眼部f(x)以及頭部h(x)的三維位置信息，當用戶距離攝像頭的距離以及姿態發生變化時，利用頭部姿態數據g(x)對視線落點進行補償，從而得到視線落點(X，Y)。

圖3 基于3D人眼模型的視線落點檢測方法Fig.3 Gaze point detection method based on 3D eye model

基于3D 人眼模型的視線跟蹤方法可以有效克服頭部位置、姿態的變化對視線落點的影響，提高視線跟蹤的精度［25］；然而，當使用多目攝像頭進行視線跟蹤時，需要復雜的標定過程。基于3D 人眼模型的視線跟蹤方法和基于2D 回歸的視線跟蹤方法的對比結果如圖4所示。

圖4 3D人眼模型方法的視線跟蹤結果與2D回歸方法的視線跟蹤結果對比Fig.4 Comparison of gaze tracking results of 3D eye model method and 2D regression method

2.3 基于人眼外觀的視線跟蹤方法

基于外觀的視線跟蹤方法通過對眼睛部位提取相應的特征參數，從而進行視線跟蹤，在不同方位上采集到的眼部圖像如圖5所示。Lu等［41］提出了一種基于L1正則化的自適應線性回歸方法。通過對眼睛部位的特征向量與注視點之間的關系進行學習，利用稀疏的低維訓練樣本從輸入的眼睛圖像中預測視線方向。該種方法可以大幅減少輸入特征的維度。在無外加光源輔助的情況下，頭部在小范圍內移動時，視線落點精度為0.59°。Valenti 等［42］利用眼睛的徑向對稱性對瞳孔進行定位，使用CHM（Cylindrical Head Model）算法對頭部姿態進行估計，補償頭部運動對視線落點造成的誤差。通過單目攝像機在無外加光源輔助的情況下對視線落點進行檢測，檢測精度為2°～5°。Sugano等［43］提出了一種基于姿態聚類的方法，能有效地對大范圍的頭部姿態變化進行處理，同時通過使用增量學習避免了長時標定問題。實驗結果表明，當頭部在較大范圍內移動時，精度為4°～5°。Baluja等［44］利用神經網絡對2 000張眼部圖像進行訓練，學習到眼睛圖像與注視點之間的關系。Tan 等［45］利用局部插值的方法使用252 張稀疏圖像對未知視線落點進行估計。Williams 等［46］提出基于稀疏的半監督高斯過程，對16張眼部圖像進行訓練，用于注視點估計。

基于形狀特征的視線跟蹤方法利用可變形模板對眼睛區域進行檢測，其中，眼睛的輪廓用兩條閉合拋物線進行表示，瞳孔利用圓進行表示。目的是確定所選區域的模板與該區域圖像之間的相似性。Wang 等［47］采用可變形模板法對眼睛區域進行檢測，利用匹配到的眼睛區域獲取眼睛的大小、形狀、方向、眼睛中心點以及瞳孔中心點等信息，通過獲得到的眼睛信息對視線方向進行檢測；Reinders［48］使用模板匹配的方式在不同幀中對眼睛部位進行定位；Ince 等［49］使用DAISMI（Deformable Angular Integral Search by Minimum Intensity）算法對眼球進行檢測。基于2 維視線估計的可變形模板法可去除噪聲，實現對瞳孔的穩定跟蹤，在水平方向上和垂直方向上精度分別為2.07°和2.48°。

基于外觀的視線跟蹤方法需要采集大量不同環境下的臉部圖像，提取面部特征。當學生面對屏幕時，視線方向的改變會造成眼睛大小、形狀的變化。在不同視線落點下提取眼部特征，通過眼部特征的變化反映視線落點的改變。該種方法會受到光照變化、位姿以及圖像質量的影響，魯棒性較差。周圍環境發生變化以及視線落點變化較小時，檢測精度下降，基于人眼外觀的視線落點檢測結果如圖6所示。

圖5 基于外觀的視線落點檢測方法的圖像采集示意圖Fig.5 Schematic diagram of image acquisition of gaze point detection method based on appearance

圖6 基于外觀的視線落點檢測結果Fig.6 Gaze point detection results based on appearance

2.4 基于深度學習的視線跟蹤方法

視線落點檢測的精度受到光線變化、頭部姿態變化以及采集圖像質量的影響，傳統方法需要在理想條件下進行視線跟蹤，制約實際的應用。基于深度學習的視線跟蹤方法在多方位、多角度以及不同光照環境下采集眼部圖像，利用卷積神經網絡建立眼部圖像與屏幕注視點之間的關系，基于深度學習的視線落點檢測示意圖如圖7 所示。Zhang 等［50］在2019 年提出了注視點估計網絡GazeNet，該網絡基于VGG-16（Visual Geometry Group-16）深度卷積神經網絡提取深度外觀特征，檢測用戶實際使用電腦過程中的視線落點；Vera-Olmos 等［51］提出基于空洞卷積和多分辨率金字塔的深度卷積神經網絡進行視線跟蹤，利用該種方式可以解決光照變化、運動模糊以及反光等問題；2016年，Krafka等［52］提出iTracker深度模型，實現了基于移動媒體的視線跟蹤檢測，該模型以左眼、右眼、面部圖像以及包含臉部大小和位置信息的面部網絡二值圖作為輸入，移動設備屏幕中的注視點作為輸出；Lian等［53］結合多攝像機在不同角度下采集用戶圖像，使用卷積神經網絡同時對注視點和注視方向進行建模，基于MPIIGaze 數據庫進行測試，左眼誤差為6.62°，右眼誤差為6.57°；Zhang 等［54］將眼睛部位圖像與頭部姿態數據圖像結合，使用卷積神經網絡對視線落點進行估計。

基于深度學習的注視點檢測也被廣泛地應用于移動設備。Naqvi 等［55］使用紅外傳感器采集駕駛員駕駛時的面部圖像，提取圖像中的左、右眼以及左、右眼的普爾欽斑，結合面部圖像作為卷積神經網絡的輸入，進行視線跟蹤；Wong 等［56］使用ResNet-18（Residual Neural Network）網絡進行訓練，檢測使用移動設備時的視線落點；Wu 等［57］提出多任務深度網絡EyeNet，利用該網絡可以同時完成多個任務，包括注視點檢測、眼睛部位分割、普爾欽斑檢測以及瞳孔和角膜中心點的檢測。

圖7 基于深度學習的視線落點檢測Fig.7 Gaze point detection based on deep learning

當前視線跟蹤需要限定使用環境，利用專業設備采集面部圖像，視線落點檢測的準確性受到圖像分辨率的影響。為了能夠提高普適性，Lemley等［58］基于眼部外觀特征，使用卷積神經網絡在低分辨率圖像上進行視線跟蹤。實驗結果表明，在非限定條件下和低分辨率圖像上可以取得較好的結果。基于深度學習的視線落點檢測方法不需要對攝像機進行復雜的標定，當訓練數據充足時，可以準確檢測到視線落點；但是模型的訓練需要采集不同環境下的大量圖像數據，相關數據集較少，制約了該方法的發展。

MPIIGaze數據庫可用來評估視線落點檢測的準確性。數據庫包含15 名受試者在真實使用筆記本環境下的圖像數據。不同受試者采集的攝像機位置不同，頭部姿態、視線方向以及光照變化具有多樣性，因此常用來評估視線落點的精度。利用MPIIGaze數據庫對模型的檢測結果如表3所示。

表3 視線跟蹤模型的平均錯誤率單位：（°）Tab.3 Mean error rate of gaze tracking models unit：（°）

2.5 視線跟蹤方法對比

已有的視線跟蹤方法如表4 所示。通過對表4 進行分析可以發現，基于2D 回歸的視線估計方法對人眼進行特征提取，如瞳孔位置、虹膜中心點、內眼角以及外眼角等。當具有輔助光源時，可以提取光源在角膜上反射形成的普爾欽斑，通過特征點在眼睛區域中的運動來表征視線的變化。利用多項式映射函數、神經網絡、支持向量回歸等方式建立眼動向量與屏幕區域的映射關系。當無輔助光源時對視線進行檢測，頭部必須保持靜止。當使用兩個及以上的光源在角膜形成普爾欽斑時，可建立瞳孔與普爾欽斑之間的關系。將頭部移動考慮在內，使得頭部可以在小范圍內進行移動。基于2D回歸的視線估計方法系統配置簡單，不需要進行額外的標定操作，但是頭部移動范圍受到很大的限制。

基于3D 人眼模型的視線跟蹤方法需要利用多個攝像頭獲取頭部的深度信息，從而獲取瞳孔以及面部特征點的三維空間點坐標，允許頭部在一定范圍內進行移動；但是多個攝像機需要進行復雜的標定工作，包括光源位置的標定、用戶位置的標定、顯示屏位置的標定以及攝像機的標定等。視線跟蹤的精度會受到人眼特征檢測精度的影響。

表4 視線跟蹤算法分類Tab.4 Classification of gaze tracking methods

基于外觀的視線跟蹤方法使用眼睛部位的形狀和紋理特征以及瞳孔相對于眼角的位置對視線進行估計。在無高分辨率相機或附加光源的情況下使用該種方法，對硬件的要求較低；但是該種方法在頭部移動以及光線變化情況下的精度較低，而且為了獲得較高的魯棒性需要大量的訓練數據。

基于形狀特征的視線跟蹤方法可在低分辨率的圖像上對視線進行估計；但是頭部姿態變化、眼睛部位遮擋以及眼睛形狀變化會造成視線落點檢測精度下降，并且計算復雜度高。

卷積神經網絡被廣泛地應用于視線跟蹤任務，基于深度學習的視線跟蹤方法不需要對攝像機進行復雜的標定，同時能夠適應光照的變化；但是，該種方法需要采集大量的訓練數據，相關數據集較少，已有算法的優缺點如表5所示。

表5 視線跟蹤算法比較Tab.5 Comparison of gaze tracking methods

3 視線跟蹤技術在教育領域的應用

在國家政策和相關企業的大力支持下，在線教育為傳統教育提供支持，得到了大力的發展及普及。特別是在疫情期間，在線教育呈現出了獨有的優勢。利用視線跟蹤技術對學生在線學習時的視線落點、瞳孔大小變化、注視時間、注視次數、注視點序列、眼跳距離、表情變化以及生理信息等進行采集，獲取學生上課時的相關狀態數據。相關狀態數據包括專注度、情緒變化以及閱讀習慣等，不僅可以為教師的個性化指導提供支持，同時可以為學生制定個性化的學習方案，實現教學相長。視線跟蹤技術在教育領域的應用流程如圖8所示。

學生在線學習時，使用單目攝像頭、雙目攝像頭、深度攝像頭或者專業設備采集學生面部圖像。對采集到的圖像進行分析，不僅可以獲得學生學習時的心率變化、面部表情變化，而且利用視線跟蹤技術可以獲得學生學習時的視線落點。視線落點是分析學生實時關注區域的重要數據來源。將采集到的數據進行匯總分析，反饋學生的學習狀態。

圖8 視線跟蹤技術在教育領域應用流程Fig.8 Flowchart of the application of eye tracking technology in the field of education

近年來，隨著人工智能技術、圖像處理技術以及相關算法的不斷發展和完善，國內外研究者對視線跟蹤技術在教育領域的應用進行了深入的研究。按照研究目的進行分類，可將視線跟蹤技術在教育領域的應用分為以下4 類：1）視線跟蹤技術在教學方式改變的應用；2）視線跟蹤技術在提高學習成績的應用；3）視線跟蹤技術在優化工作流程的應用；4）視線跟蹤技術在其他方面的應用，如表6所示。

表6 視線跟蹤技術在教育領域的應用Tab.6 Applications of gaze tracking technology in education field

3.1 視線跟蹤技術在教學方式改變的應用

知識呈現方式的不同使得學生對知識的接受程度不一致。相同的學習內容，由于個體差異學生會采取不同的學習方式。通過視線跟蹤技術可以動態地對學習者的行為進行分析，根據不同學習者的學習偏好，制定有針對性的學習方式以及內容的呈現形式。Klein 等［63］利用視線跟蹤技術對同一物理概念的不同呈現方式對學習效果的影響進行研究。將平均年齡為20.9歲的41名物理學專業的學生分成兩組，對“散度”概念進行講解。一組學生采用基于偏導數的圖形化方式進行講解，另一組學生采用基于通量概念的方式進行講解。實驗結果表明，結合兩種方式的講解效果（測試正確率為74%）要優于某一種方式的效果（測試正確率為64%），學生自主選擇某一種講解方式的效果要優于指定講解方式的效果（測試正確率為88%）。眼動數據顯示，對于不同的講解方式，學生眼動數據存在差異，反映了對“散度”概念不同的理解過程。Molina等［64］利用視線跟蹤技術對多媒體教學材料中圖像以及文字的不同排版方式對教學效果的影響進行了研究。使用Tobii X60 視線跟蹤設備記錄學生觀看多媒體教學材料時的視線落點。實驗結果表明，當文字和圖像更加接近時，將會提高學生的學習效率，相同的學習內容，學習時間減少40%。同時，相較于視覺方式，聽覺可以更加有效獲取到有用的信息。當學生在觀看PPT（Microsoft Office PowerPoint）時，教師對圖像內容進行講解的方式更有助于學生對教學內容的掌握，利用文字對圖像內容進行補充更有助于對內容的記憶。與Molina 所做工作不同，Mason 等［65］將64 名7 年級學生（35 名女生和29 名男生，平均年齡為12.52 歲）隨機分為兩組，使用Tobii T120對視線落點進行檢測。兩組參與者的眼動無差異，先驗知識和理解能力無差異（F（2，61）=1.16，p=0.319，0.03）。其中一組學生在閱讀完成后，可觀看自己閱讀過程中的眼動數據，然后讓兩組學生閱讀新的材料。結果顯示觀看閱讀時眼動數據的學生對文本內容的綜合處理能力更強，同時對內容的理解更加透徹（F（1，62）=7.69，p=0.001，傳統的課堂教育，教師面對學生，通過與學生進行眼神交流，對學生進行引導。在線教育會出現以下兩種情況：1）教師未出現在視頻中，僅展示講授的內容；2）教師出現在視頻中對內容進行講解。Van Wermeskerken 等［66］利用視線跟蹤技術對在線課堂中，出現教師面部是否會對學生的學習效果造成影響進行研究。

研究人員分別設計了以下3 個實驗：1）教師面部不出現在視頻中；2）教師面部出現在視頻中并通過視線對學生進行引導；3）教師面部出現在視頻中但是不通過視線對學生進行引導。研究人員分別對以上3 種情況下的視線落點進行采集。實驗結果顯示，教師面部是否出現不會對學習效果產生影響，學生可以合理地將視線分配在教師的面部以及講授的內容。不僅學習內容的呈現方式會對學生的學習效果造成很大的影響，認知水平的高低也會對學生知識的接受能力帶來很大的影響。Clinton 等［67］使用EyeLink 1000桌面式視線跟蹤系統采集視線落點，62名10～12歲的中學生參加了此次實驗，對數學教材的修訂是否會提高學生的學習成績進行研究。62名學生分別閱讀修訂前的教材以及修訂后的教材，分別記錄學生的視線落點。結果顯示，擁有一定先驗知識的學生閱讀修訂后教材的認知加工和處理過程要多于原始教材，先驗知識較少的學生無明顯差異。因此，學生認知水平的影響取決于學生先驗知識的多少，修訂教材對學習效果無明顯影響。

3.2 視線跟蹤技術在提高學習成績的應用

成績優異的學生與成績落后的學生在學習方式上會存在不同。通過視線跟蹤技術采集學生學習過程中的視線落點，通過對成績優異學生的視線落點進行分析，為成績落后學生提供相應的學習指導，改變學生的學習方式。Zhou 等［68］使用Tobii Pro X2-30眼動儀采集學生瀏覽網頁時的視線落點，發現成績好的學生與成績差的學生在搜索信息時的視覺注意力分布不同。成績優異學生的信息搜索頻率為165.3 s，成績較差學生的信息搜索頻率為80.9 s。熱力圖結果顯示，成績優異學生沒有花費更多的時間來查看結果頁面（成績優異學生：16.15 s，成績較差學生：13.35 s），將更多的注意力分配在閱讀和評估所選頁面中的信息和搜索問題與答案的相關性方面（成績優異學生：483.8 s，成績較差學生：131.3 s）。實驗表明成績好的學生擁有更好的閱讀和處理相關搜索信息的能力，同時搜索信息的策略更優。蘇黎世理工學院研究人員Hess等［69］利用SMI（SensoMotoric Instruments）頭戴式視線跟蹤設備對12 名機械工程專業學生在工程設計課程中的視線落點進行采集。眼動數據表明，表現優異的學生對機器系統的分析更具有洞察力，可以對學習過的知識進行靈活應用，同時可以更加有效地判斷知識之間的相關性。Rajendran 等［70］使用Tobii 4C 眼動儀對16 名學生閱讀時的視線落點進行采集，通過對熱點區域進行分析發現，成績較好學生與一般學生的閱讀策略存在差異，成績較好學生可以更好地建立知識之間的聯系，準確率為80%（F1=0.82，kappa=0.62）。不同成績學生對文本內容與圖像內容的關注點不同。Jian 等［71］對六年級學生閱讀時的眼動模式和閱讀特點進行研究，利用眼動儀記錄學生閱讀文本內容時的視線落點。當閱讀完成后，回答相應問題，根據回答問題的正確率將學生進行分組。實驗結果顯示，成績較好學生擁有更好的理解能力以及閱讀效率，對于圖表的關注度更高（Z=3.36，p＜0.01）。分析眼動序列可以發現，成績較好學生在閱讀完題目后相比于文本信息更愿意閱讀圖表信息。Karch 等［72］通過Tobii X2-60眼動儀采集22名大學生回答不同類型問題時的視線落點以及瞳孔大小數據，探究學生的認知水平與問題類型之間的關系：當學生在回答較難的多項選擇題時，瞳孔的大小會發生變化；當學生在回答判斷題時，正確回答題目的學生的瞳孔呈現逐漸增大的趨勢，錯誤回答題目的學生的瞳孔大小變化與回答多項選擇題時的變化相似。因此，可通過學生回答問題時瞳孔的變化對學生回答問題的準確性進行初步判斷。研究人員發現在15 歲以后，學生的閱讀能力會隨著教育年限的增加呈現下降趨勢。Krstic 等［73］利用SMI RED-m 眼動儀采集學生閱讀時的視線落點，對不同閱讀能力學生在閱讀時眼動模式的相似性以及不同點進行研究。為了篩選出高閱讀能力以及低閱讀能力的學生，首先對92 名學生的閱讀能力進行測試。基于測試結果選出20 名學生，其中10 名學生閱讀能力較強，另外10 名學生閱讀能力較弱。對眼動數據分析發現，閱讀能力強的學生視線掃視平穩。根據熱力圖結果顯示，閱讀能力強的學生定位關鍵信息的準確性更高。16名學生以及3名專家分別對25張婦科細胞學標本進行評價，使用Mirametrix S2 型眼動儀對視線落點進行采集。培訓教師分別對16名學生進行4個月到11個月不等的培訓，而對專家僅進行一次培訓。實驗結果顯示，專家評價圖像的時間為21.1 s，經過培訓后，學生評價圖像的時間由34.6 s 減少為24.9 s。專家關注局部區域的注視點數量為14.5。經過培訓后，學生關注局部區域的注視點數量由52.2 減少為35.3，判斷速度得到了提升。專家對于一幅圖像平均注視點個數為77.93。經過培訓后，學生對于一幅圖像的平均注視點個數由142.79減少為92.46。該研究表明經過培訓后的學生查看細胞圖像的能力得到了提高，并且逐漸接近于專家的水平［74］。識別數字是兒童需要掌握的一項基本數學能力，不同的兒童對數字識別的能力不同。Schindler 等［75］對數字識別困難兒童與普通兒童的差異進行研究發現數字識別困難的兒童與普通兒童在數字識別錯誤率上沒有明顯的差異，但是擁有更長的識別時間（F（3，18）=5.89，p=0.026，0.25）。Kim 等［76］通過研究發現，患有閱讀障礙的學生將會花費更長的時間來觀看圖片，改變閱讀材料內容的呈現方式可以改善學習效果（F（2，150）=6.91，p=0.001，例如閱讀文本可獲得比觀看圖片更好的結果。將圖片輔助音頻進行展示時，閱讀障礙學生和普通學生關注點相同。

3.3 視線跟蹤技術在優化工作流程的應用

視線跟蹤技術也被廣泛地應用于工業與醫療等領域，為提高學生的專業技能提供支持。學生與專業工人具有不同的學歷以及工作經驗，因此通過比較學生以及專業工人對生產流程的關注區域，從不同的角度對生產流程進行改進，可將每一件產品的生產時間減少20～180 s，提高了生產效率［77］。在外科手術的過程中，關注區域會發生變化，專家手術時的關注區域與缺乏豐富經驗醫生的關注區域也會存在差別。利用SMI REDn非接觸式眼動儀采集專家手術時視線的關注區域，為年輕醫生提供支持，從而減少醫療事故的發生［78］。

3.4 視線跟蹤技術在其他方面的應用

學生在瀏覽網站時，網站內容的設計方式會對學生能否快速搜索有用信息造成影響，同時由于生活環境以及文化差異，使得東、西方學生的學習方式存在一定差異。因此，通過分析東、西方學生的學習方式，對內容呈現方式以及教學方法進行改變具有十分重要的意義。Yilmaz等［79］記錄學生瀏覽教育網站時搜索信息的過程，從中學生的角度對教育類網站的可用性進行分析，從而優化網站的設計，增加使用的便捷性。Mclntyre 等［80］召集40 名中學教師進行實驗，其中包括20 名英國教師（10名教學經驗教師，10名新教師）以及20名香港教師（10 名教學經驗教師，10 名新教師），使用Tobii 1.0 glasses 視線跟蹤設備記錄教師上課時的視線落點。通過對教師掃視路徑進行分析發現，擁有豐富教學經驗的教師與學生之間眼神交流頻繁。相較于英國教師，香港教師與學生進行眼神交流的次數更多。具有不同專業背景的學生在學習相同內容時，會有不同的解決方法和策略，關注區域也會有所不同［81-82］，根據不同專業背景的學生推薦不同的學習方法，提高學習效率。

通過視線跟蹤技術對學生學習時的視線落點進行分析。已有相關研究表明，注視時間、注視次數、注視點序列、眼跳距離、回視次數以及瞳孔直徑等通常被視為思維活動和心理變化的重要參數［83］。學生在線學習時，學習狀態以及心理狀態的變化可以反映在眼睛狀態以及視線落點的變化。因此，實時觀測學生在線學習過程中的眼動信息，可作為分析和引導其學習的依據。通過分析眼動模式、視線落點和相關眼動參數，可以獲得許多重要信息，例如，視線落點可反映學生關注的區域以及感興趣的內容。根據眼跳的速度、眨眼速度和眼睛睜開程度等對學生的疲勞程度進行判斷。同時，已有相關文獻表明眼跳速度與學習內容的難易程度有關。因此，可以根據相關參數確定學生的精神狀態，對學習過程進行分析，進而采取相應的學習策略以及干預措施，以適應不同的學習需求。

4 結語

視線跟蹤已經在更廣闊的教育領域起到了十分重要的作用。智慧教育的需求以及硬件成本的下降和圖像處理算法的完善使得視線跟蹤技術在教育領域的應用越來越廣泛。但是，當前的視線跟蹤技術依然存在許多問題。基于2D回歸的視線跟蹤方法，不能保證頭部在較大范圍內移動時，視線落點檢測的準確性。基于3D建模的方式對視線進行檢測，存在如下缺點：1）需要對眼睛部位進行3D特征提取，增加了特征提取的復雜性；2）需要利用立體攝像頭對眼睛部位進行3D建模，對硬件的精度要求較高，且3D建模的精度會影響視線估計的準確性；3）需要對立體攝像機進行復雜的標定過程，包括光源位置的標定、用戶位置的標定以及屏幕位置的標定等。瞳孔大小的變化可以反映用戶心理以及情緒狀態的變化，瞳孔相對于虹膜區域更小，瞳孔與虹膜顏色接近。因此，利用普通攝像頭在光照變化、佩戴眼鏡以及距離較遠時的瞳孔大小檢測成為了難點。在成本控制角度上，不利于大范圍推廣。在設備檢測方式上，目前還缺少成熟的適合于教育場景的非接觸式視線跟蹤方法。視線跟蹤技術雖然能為學習狀態提供數據支持，但是不足以作為學生學習狀態的唯一決策依據。另外，缺乏基于視線追蹤技術的學習狀態數據，以及對應的常態模型。

綜合以上分析，今后進行普及應用研究的重點應該關注以下方面。首先，基于普通攝像頭開發具有魯棒性的視線落點檢測算法。其次，建立健全學習過程中的視線跟蹤數據，并基于大數據提取學生反映學習狀態的視線落點群體特征和個體特征。最后，將視線落點與生理信號、表情、微表情與教學情境等結合，將多維度數據進行精確的學習過程狀態分析，為學生學習過程的個性化學習指導和形成性評價提供數據支持。