楊明羽,葉春明
(上海理工大學 管理學院,上海 200093)
手語通過擺出不同的手臂與手的姿勢,輔以表情及其他肢體動作傳達信息,是聾啞人重要的溝通語言,也是幫助他們融入社會的重要工具[1]。美式手語(American Sign Language,ASL)是適用于美國、加拿大等地區的手語語言[2-3]。在ASL 中,包含靜態手勢和動態手勢,以J 和Z 表示動態手勢,其余字母表示靜態手勢。但由于人類的手非常靈活,可以擺出很多形狀,因此增加了手勢識別的難度。
近年來,許多學者在ASL 圖片的識別問題上,使用流行的神經網絡進行研究。ASHA 等[4]提出一種通過提取靜態ASL 圖片的特征直方圖、統計量度等進行神經網絡訓練的識別算法,最高識別率為98.17%。QUTAISHAT 等[5]通過使用霍夫變換和神經網絡開發了ASL 語言翻譯及標志系統,識別準確度率為92.3%。ADITHYA 等[6]通過使用卷積神經網絡(Convolutional Neural Network,CNN)[7]對ASL 數據集進行訓練預測,準確率達到94.7%。但在使用神經網絡訓練時,往往需要花費大量的時間在訓練模型上[8]。特別是近年來CNN的網絡層數不斷加深[9]和可訓練參數驟增,更凸顯了模型訓練時間過長的問題。因此,一些學者提出了將主成分分析(Principal Component Analysis,PCA)與神經網絡相結合的觀點。吳偉[10]提出PCA 與CNN 相結合識別ASL 圖片的方法,通過在CNN 前插入PCA 層進行特征降維,大幅提升了訓練速度,且識別率達到94.45%。鐘健等[11]提出一種PCA 與自組織神經網絡SOM 相結合的識別方法,使用SOM 作為分類器進行圖片分類,同樣顯著提高了識別速度,且識別率穩定在90%左右。上述方法使用的PCA 均在一維數據中使用,針對圖片等二維數據,學者們又發展了二維主成分分析(Two-Dimensional PCA,2DPCA)[12]和雙向二維主成分分析(Bidirectional 2DPCA,Bi-2DPCA)[13]方法?!?br>