王羅景
(商丘職業技術學院,河南 商丘 476100)
人類通常只要看過例子就能識別新的手勢,但這對于計算機來說,即使是識別定義明確的手勢,如手語,也具有很大的挑戰性,一般需要數千個訓練示例才能學會.每個班級給出的單個訓練示例的手勢識別問題,就是所謂的一次學習.在每個類只有一個訓練示例的情況下,統計機器學習的數據很可能會失敗,因為它們會受到過度擬合問題的影響.此外,手勢可以是靜態的,也可以是動態的,更有甚者,有些手勢既有靜態元素也有動態元素,就像人類的手語一樣.靜態手勢是將單個姿勢保持一定持續時間的一種手勢,而動態手勢由一系列姿勢組成,這些姿勢可以是重復的,也可以不是重復的,并且其中姿勢順序和序列的定時可能是關鍵的[1].試圖識別典型體育視頻中裁判員的動態手勢,對圖像分割技術提出了巨大的計算要求[2].它需要對圖像進行復雜的分析,并提取大量的圖像特征,為進一步的分類和決策提供支持[3].
在籃球比賽中,裁判員有責任執行比賽規則并使用手勢與得分表進行通信,如圖1所示.但是,有時裁判和得分手之間可能存在手動溝通,這有可能會引起誤解,從而延誤比賽進程.裁判手勢的自動識系統別既可以減少籃球比賽中對裁判決策的誤解,還可以減少對比賽錄像的自動注釋,為觀看比賽的觀眾提供實時信息.隨著傳感器和計算機技術的進步,人機交互(HCI)系統在我們的日常生活中變得越來越流行,而HCI技術可用于促進裁判員與運動員和比賽官員之間的交互[4].

圖1 籃球裁判員的官方手語
通常,有兩種檢測手勢的方法:可穿戴傳感器和計算機視覺.可穿戴傳感器的方法是將傳感器附著在受試者的手臂上或緊貼在手臂的襯衫上. 例如,Chambers等人[2]使用從腕帶收集的加速度數據對板球比賽中的10個裁判手勢進行了識別,已實現了99%的準確性.Yeh等人[5]使用具有深度置信網絡和時域特征的表面肌電(sEMG)和三軸加速計(ACC)傳感器來識別官方籃球裁判員的手部信號,準確率達到97.9%.
基于計算機視覺的方法分析是從相機拍攝的裁判員圖像或記錄的籃球比賽的視頻序列中提取的靜止圖像,然后使用各種圖像處理技術進行圖像分割,提取出手勢識別所需的圖像特征.例如,Verma[6]通過使用有限狀態機(FSM)來識別手部的運動.這些狀態被假定為由模糊c-均值聚類形成的簇,然后在數學上找出每個簇的質心,從而確定有限狀態機的狀態,最終識別出手勢.Guyon[7]描述了使用Kinect攝像機記錄的Chalearn手勢數據集,包括裁判摔跤信號和裁判排球信號.Trigueiros[8]等人提出了一個基于視覺的系統,該系統能夠理解裁判的動態和靜態手勢,并且進行實時手勢跟蹤和特征提取,采用支持向量機(SVM)進行靜態手勢識別,采用隱馬爾可夫模型(HMM)進行動態單程手勢識別,其對于手勢的識別,準確率達到98.2%.Shanjia[9]利用膚色信息和形態過濾器生成用于識別手勢含義的特征向量,并將其應用于體育教學.
在這里,我們使用基于計算機視覺的方法進行籃球裁判手勢信號的識別,這是科學文獻中首次嘗試從靜止圖像中識別籃球裁判手勢信號.
圖像顏色及其相互關系通常用顏色圖案或調色板來描述.我們分析的視頻剪輯使用RGB調色板,由三種原色組成:紅色(R)、綠色(G)和藍色(B).在技術上,RGB三原色很容易使用,但它不太適合于圖像處理,因為這些顏色的成分高度相關.這是分析圖像和實現識別算法的一個問題.出于這些原因,使用式(1)將RGB圖像轉換成黑白兩半:
BW=0.333R+0.333G+0.333B
(1)
如圖2所示,圖中這些點是以8位來描述的,因此,當查看點的強度時,它的范圍從0(黑色)到255(白色).

(a)裁判圖像 (b)直方圖圖2 籃球裁判員圖像及其直方圖
下一步是找到邊緣,以便更好地區分裁判的形狀,這樣的點用兩個比特來描述.使用邊緣檢測方法,可以補償由于不同圖像光照或質量引起的誤差.在對Kirsch[10]、Sobel[11]、Prewitt[12]、Canny[13]和增強型Canny[14]方法進行實驗測試之后,我們決定使用Sobel的方法,通過選擇適當的閾值,可以看到裁判的輪廓.Sobel使用運算符計算圖像的二維空間梯度,突出與邊緣相對應的空間頻率區域.通常,它用于確定灰度圖像中每個點的近似絕對梯度大小.
Sobel使用的運算符由一個3×3點窗口組成,并在圖像中滑動.其內核被設計為最大限度地響應與像素網格相關的垂直和水平邊.假設Gx是水平邊緣的漸變,而Gy是垂直邊緣的漸變,則漸變大小表示為如下式子:

(2)
當3×3窗口在整個圖像中移動時,轉換每個像素的值(范圍從0到1),選擇一定的值(裁判輪廓檢測選擇的值為0.7),區分期望圖形的輪廓.樣本圖像的邊緣檢測結果,如圖3所示.

圖3 使用Sobel方法進行邊緣檢測
在圖3中,照片中只有一個人(裁判),因此,最重要的是將裁判從背景中分離出來,然后識別他的手勢.即使在不知道這些參數的情況下,也可以根據局部強度或邊緣方向來描述對象的外觀和形狀.實際上,這是通過將窗口劃分成小的空間區域(又稱單元)來實現的,而在每個單元中有一維梯度方向的局部直方圖.通過將利用直方圖獲得的圖像與區分特征相結合,該特征提取方法被稱為定向梯度直方圖(HOG)方法.
求梯度,需要窗口i的灰度圖像(大小取決于單元格的大小),則梯度Ix和Iy表示如下:

(3)
然后將漸變轉換為極坐標,并將它們的角度限制為0度到180度,以便在不同方向顯示的漸變具有相同的角度:

(4)
對每條軌跡,在方向B(B=9)上計算定向梯度的直方圖.但由于每條軌跡上的方向較少,所以方向比較接近的兩條軌跡的像素在分配時可能會相互干擾.為了避免這個問題,每個單元被分配到兩個封閉的隱窩,像素梯度大小的一小部分μ值線性減小,這取決于來自兩個相近方向的像素灰度.
如圖4所示,我們可以看到梯度是如何分配給相鄰的70度和90度中心的.該波瓣的漸變方向為77度,第三個方向的漸變指定為0.65μ,第四個方向的漸變指定為0.35μ.兩個賦值之和始終等于μ.

圖4 當B=9時查找梯度
框架被分組為重疊的2×2塊,每個塊的大小為2C×2C像素.兩個垂直或水平連續的塊被兩條路徑覆蓋,這意味著塊的步長是C個像素.結果,每個單元格被四個塊覆蓋.組合四單元直方圖,并在每個塊中獲得一個特征值b,并使用歐幾里得形式對其進行歸一化:

(5)
這里ε是一個小的正常數,以避免在沒有梯度的塊中除以零.
最后,通過將歸一化塊的特征組合成一個向量(在最小搜索前后進行兩次歸一化)來計算HOG特征:

(6)
這里hn是h的第n個輸入,τ是一個正閾值.
裁剪h輸入以使其不超過τ(在第一次歸一化之后)可確保非常大的漸變不會有太大影響,否則將丟棄其他圖片的細節.最終的歸一化使得HOG特征獨立于整個視頻對比度.得到的HOG特征由許多直方圖組成,這些直方圖比塊大四倍.在本文中,所有訓練照片都被裁剪到128×64像素.如果使用4×4像素路徑,則照片將水平適合16個單元格,垂直適合32個單元格,從而產生垂直31個塊和水平15個塊,因為塊由4個軌道組成,每個直方圖有9行,然后按以下方式計算矢量h的結果長度:
h=31×15×4×9=16 740
(7)
使用不同單元格大小的HOG特性的可視化圖,如圖5所示.

圖5 使用不同單元格大小的HOG特性圖
由于視覺上很難確定哪個單元的大小最適合用于裁判,為了可以方便將其標志與背景區分開來,因此,具有不同單元格大小的求和向量之間的差值計算如下(差值越大,裁判手勢越容易分類):
ndiff=∑(h1-h2)
(8)
支持向量機(Support Vector Machine,簡稱SVM)是一種帶有監督器的分類器,其運算的基礎是不同類別的點之間的最優分離.支持向量機根據訓練數據定義超平面.超平面形成了進行分類的決策的邊界.超平面的設計基于核函數將輸入數據分成兩類.大多數SVM分類器可以將對象分為兩類,但如果需要,也可以采用多級分類方案.超平面可以描述為由某一函數表示的直線.這條線是在距所有數據點的最大距離處選擇的,因此,減少了數據中噪聲的影響.SVM算法的目標是尋找最優邊界,超平面是尋找類間的最大數據邊界.
從Youtube下載的視頻資料被用來作為識別籃球裁判的信號.在這些信號中,裁判站在攝像機前,所有的手勢都清晰可見.總共有20個圖像被裁判員剪下,分為四類數據:站立裁判(無手勢)、三分手勢、停鐘手勢和球員替補手勢.圖6顯示了從視頻剪輯中剪切出來的樣本圖像.

圖6 數據集中的示例圖像
三個手勢標志(三分,替補,停止鐘)加上一個站立裁判標志(沒有顯示手勢),總共有四類手勢試圖被識別.對于每個類,使用20種不同的圖像,并顯示不同的手勢標志.通常,SVM分類只用于兩個類(正類和負類),但是在這種情況下卻使用了多級分類.用4×4路徑區分HOG方法的特征,將20×16 740向量分配給一個類.
我們使用標準準確率和F-Score度量對分類結果進行評估,獲得了0.975 0的準確率和0.949 5的F分數.分類結果的混淆矩陣,如圖7所示.停鐘和三點信號很容易區分,但由于訓練數據量小,單個站立裁判和替換信號混合在一起,它們之間的差異很小.

圖7 手勢標志類混淆矩陣
本研究實現了籃球裁判員手勢信號的分類器設計.首先,將來自視頻流的圖像轉換為黑白兩半,并將其改為128×64像素,同時使用Sobel邊緣檢測方法識別邊緣.其次,使用HOG特征提取方法,獲得由向量描述的大小為4×4的單元圖像,長度為h=16 740像素.最后,在應用SVM分類后,我們獲得了0.975 0的識別精度,F分數為0.949 5的分類器.在今后的工作中,我們將不采用靜止圖像,而是在一個更大的籃球裁判員手勢信號圖像數據集中,去評估我們的方法,并在現場視頻資料中測試該方法,旨在將此研究應用于現實的籃球比賽中.