王 祎, 林 馳, 王勝法, 謝 玲, 劉日升
(大連理工大學 軟件學院, 遼寧 大連 116620)
?
空中手寫漢字交互輸入與識別實驗平臺構建
王祎, 林馳, 王勝法, 謝玲, 劉日升
(大連理工大學 軟件學院, 遼寧 大連116620)
設計與實現了基于微軟Kinect攝像機的在線空中手寫漢字交互輸入與識別實驗平臺。在研究現有聯機手寫漢字識別的方法基礎上,提出了基于視覺漢字筆畫順序和統計特征的空中手寫漢字特征向量提取方法,并利用流形學習方法訓練大漢字集的低維流形表示和顯式映射函數,結合鄰域搜索策略和語義聯想可實時高效的進行空中手寫漢字識別。該實驗平臺為空中手寫漢字識別方法提供了的客觀分析、評價的方式和手段。
漢字識別; 實驗平臺; 人機交互
文字識別技術的研究開始于20世紀60年代,具有重要的人文社會意義和市場經濟價值。近二十年來借助觸摸屏幕(板)的聯機手寫識別技術,使文字輸入的實時性與交互性大大提高,已經被廣泛地應用于智能手機、平板電腦等計算機終端,用于信息記錄、簽名驗證、圖標標注等[1]。但這種輸入方式受到設備的尺寸限制,不能達到自然、自由的人機交互目的[2-3]。
隨著計算機視覺技術的不斷發展與完善,通過識別人體或人手姿態進行人機交互得到了越來越廣泛的關注[4-5]。基于這種技術,用戶可以不攜帶任何硬件設備直接用最自然的手勢和肢體語言等與計算機進行交流,例如三星、海信等品牌的電視機的基于手勢的選單選擇,微軟Xbox的基于肢體動作的視頻互動游戲等。但是這些僅限于利用手勢代替鼠標進行有限的“點”“選”“揮動”等簡單操作,不能令人與計算機,或人與人通過計算機進行更復雜深入的交流。
而利用手與手臂按照正常文字書寫方式在空中書寫文字,再通過計算機視覺、模式識別等技術對其進行識別,已成為一種新型的交互方式,在語言教育教學、助殘(尤其對于肢體不全的人士,無法通過手握筆進行文字書寫),文化傳承與推廣、數字家庭娛樂,以及安保等領域具有較強的實用價值[6-8]。該項技術的難點在于:
(1) 輸入與交互控制。需要設計用戶友好的交互性的控制策略。尤其在環境中存在多個人體對象的時候,需要快速準確定位“控制手”,并對其進行跟蹤形成文字。
(2) 噪音筆畫。與在紙面或觸摸屏上書寫不同,空中書寫文字過程中并無“抬筆”和“落筆”的動作,“控制手”的運動軌跡在視覺層面的觀測結果是連續的,因此存在著一些筆畫之間的過渡,以及用戶無意識的手部運動軌跡等,這給文字的識別增加了難度。
(3) 字體變形。由于沒有支撐面,在空中書寫漢字時,可能出現部首之間的重疊、字體比例失調等問題,所以必須找到滿足具有較強魯棒性的文字特征作為識別的基礎。
(4) 多類別分類與識別。從模式識別角度,每個文字代表一個類別。文字集一般數目眾多,如常用漢字集就包含3 000多個字,需要結合文字特點設計計算復雜度低分類效果好的分類器。
本文利用微軟Kinect攝像機和增強現實思想,設計和實現了一個空中手寫漢字人機交互輸入與識別實驗平臺,不但為空中手寫漢字識別方法進行客觀分析、評價提供了重要手段,而在該實驗平臺基礎上,對漢字識別相關算法進行了如下深入研究:
(1) 對空中手寫漢字形態與特點進行了研究,設計樣本采集方法,并構建了一個含有一千個常用漢字的空中手寫漢字樣本庫。
(2) 提出了“視覺漢字”概念和兼顧視覺漢字結構與統計特性的特征提取方法。
(3) 提出通過流形學習算法構造視覺漢字集的低維流形表示,以及顯式映射矩陣進行分類識別的方法。實驗證明,本文提出的特征提取方法與分類器設計具有實時性好,識別率高等優點。
空中手寫漢字交互輸入與識別實驗平臺分為離線訓練和在線輸入與識別兩個部分,如圖1所示。離線部分主要由樣本采集、樣本特征庫,分類器和詞組語意聯庫4個模塊組成。在線輸入與識別由控制手識別、視覺漢字特征實時計算、視覺漢字實時識別與詞組語意聯想輸入4個模塊組成。該平臺設計依據模塊化思想,把各個關鍵處理部分封裝成獨立的模塊單元,耦合度較低,并設計通用存儲和結構數據結構,適合多種算法的組合實驗和客觀評價。

圖1 空中手寫漢字交互輸入與識別實驗平臺系統框架
2.1視覺漢字
視覺漢字定義為在空中書寫一個漢字從開始到結束整個過程的控制手的軌跡,圖2(c)為正常手寫的一個字“漢”,圖2(d)為“漢”字的視覺漢字。

圖2 “漢”字對比
此外,視覺漢字與連筆漢字或漢字草書不同,它的筆畫書寫順序以正楷體為基準,只不過增加了筆畫之間的過渡。本平臺還可作為對漢字初學者練習漢字筆順和寫法的一個輔助教學平臺,所以只以正楷字體為標準。
2.2視覺漢字特征提取
特征提取方法必須滿足以下條件:特征具有代表性、具有區分性、特征之間相互獨立,可增大類間距離的同時減小類內距離,特征向量的維數盡量小。因此特征是影響系統識別率的重要因素[1,9]。
由于在漢字書寫過程中,筆畫和筆畫之間的過渡都可以看作一個向量,本文統稱之為“方向邊”。可把其量化到8個基本方向上。因此,視覺漢字的特征向量可為其方向邊在8個方向上的統計量,υ=(υ1,υ2,…,υ8),當相應的第k(k=1,…,8)方向邊出現一次,υk值遞增1。例如,字“漢”的特征向量為[2 1 1 0 0 3 0 2 ]。“8方向特征”計算簡單,不受方向邊的長度粗細影響。
為了減少某一個方向的累積誤差,還可以對該特征進行進一步優化,可以把該特征向量擴展為N×8大小的一維向量。每過M個方向邊,則做8方向向量統計,形成一個方向組,即“8方向分組特征”。據統計,1 000個常用漢字的筆畫總數與其方向邊總數之比大約為0.43。而常用漢字中最復雜的筆畫數一般小于26劃。所以該特征在本系統中的方向組數為[N=50/M]+1,[]為下取整。
2.3視覺漢字訓練庫
根據國家標準GB2312—80《信息交換用漢字編碼字符集—基本集》一級字庫,常用字為3 755個,使用頻率合計達99.7%,其中前1 000個字使用頻率也大于90%[10]。其中排序最前的140個漢字使用頻率為50%,排序在141—232的漢字為10%,排序在233—380的為10% ,排序在382—500的為5.43%[10]。選取一級漢字庫中使用頻率高的前1 000個漢字為本實施系統的總字庫,記為C,并按漢字的使用頻率分為4子字庫{C1,…,C4}。為每個漢字編號,為5位碼:#####。第1位為所在子庫序號,后4位為在子庫中的序號。
為保證訓練集的正確性與規范性,采用電腦數位板和壓感筆代替人手進行視覺漢字樣本錄入,主要步驟如下:
(1) 把需要訓練的漢字(正楷體)打印出來,作為臨摹頁置于數位板上;
(2) 讓操作者使用壓感筆,嚴格遵守漢字規范書寫筆畫順序進行對印刷體漢字進行臨摹,并且保證書寫過程中壓感筆不離開數位版面;
(3) 設計程序自動計算出其對應的視覺漢字特征向量。
圖3為訓練集里的3個視覺漢字圖像表示。

圖3 漢字“衣”“晶”“映”在訓練集中對應的視覺漢字
本平臺為視覺漢字提供除了“8方向特征”和“8方向分組特征”供選擇,還是實現了Hu不變矩特征[11]和Gabor特征[12]可供對比實驗。表1為本文提出視覺漢字特征和常用漢字特征在各個庫中的重復率。

表1 視覺漢字特征向量在各個庫中的重復率 %
可以看出,把字庫分解成4個子庫都能保證較少的特征向量重復率。此外,雖然本文提出的“8方向分組特征”重復率略大于頻率特征Gabor,但Gabor特征屬于圖像特征,必須漢字輸入完畢再進行計算,且計算復雜度較高。離線部分尚可接受,但在在線輸入視覺漢字特征計算時,計算速度受圖像分辨率大小影響,且對漢字變形、部首重疊不具魯棒性;而“8方向分組特征”不但可隨著漢字輸入實時計算,復雜度和重復率低,而且只統計筆畫的方向結合分組策略,可對漢字的變形、部首重疊具有較強容錯性。
對視覺漢字識別采用局部保形映射LPP(localitypreservingprojections)算法[13],通過訓練樣本集計算出一個高維低維映射函數。在低維空間中,視覺漢字之間的幾何和統計特性可以得到體現。實時識別時再利用其顯式的映射函數,快速計算得到測試樣本在低維流形空間中的位置,對鄰域點進行相似度匹配,最終達到識別的目的。主要包括以下步驟:
(1) 構造一個二維視覺漢字特征向量相似度矩陣G,橫縱軸分別為視覺漢字特征向量編號;
(2) 計算與每個視覺漢字特征向量Fvi(i=0,…,n-1)相似度最高的l個特征向量Fvj(j=1,…,l)為其鄰域;
(4) 通過LPP的最小化目標函數過程和廣義特征值的計算,得到高維低維映射的顯式表達式Y=WTX,X為高維特征向量空間,Y為低維流形空間,W為矩陣;
(5) 重復執行上述步驟,為4個子漢字庫分別訓練4個低維流形空間{Y1,…,Y4}。
(6) 化4個低維流形空間{Y1,…,Y4}中的特征向量點坐標為整數單位,并用分辨率為500×500像素的RGB圖像存儲,寫數據庫時將坐標為(x,y)的像素點的R值置255,表示存在該字,像素的B和G 2個字節用來存儲漢字編號。
此外該平臺還實現了漢字識別中較為通用的支撐向量機(SVM,supportvectormachine)分類器[9],可供實驗對比使用。
為每個訓練漢字根據字典給出其使用頻率最高的5個詞組中的漢字作為聯想字(需在訓練集內)。語意聯想可使系統使用更便捷,減少用戶輸入量。
本平臺系統在線部分采用VS2012和Qt5.2.0實現,同時借助計算機視覺開源庫OpenCV2.4.6和KinectSDK實現計算機視覺相關功能。本平臺用戶界面借鑒增強現實思想,把操作者和其所在環境與輸入的虛擬漢字,漢字識別的結果綜合在一個畫面上顯示,增加了手勢輸入的準確性和交互界面的友好性。該界面分為三部分:“書寫區”“識別與聯想區”和“識別確認區”,界面圖見圖4。
對于控制手的識別,使用KinectSDK提供的骨骼跟蹤技術來識別出書寫者的右手末端為控制手。控制手在 “選字狀態”、 “寫字狀態” 和 “確認狀態” 3種狀態下進行操作,進入系統后初始狀態為“寫字狀態”。控制手在“書寫區”停留2s后代表書寫結束。“選字狀態”為控制手停留在“識別與聯想區”某個字上方停留1s為確認,并在下方“識別確認區”顯示,同時在上方“識別與聯想區”顯示聯想的漢字。

圖4 平臺在線交互輸入與識別界面
在“寫字狀態”中控制手又分為3種模式:“第一筆書寫”,“續寫當前邊”,“開始新邊書寫”。主要通過獲得控制手的運動方向、拐點等信息在實時處理部分構建視覺漢字特征向量,具體步驟如下:
(1) 記錄t1幀控制手位置為P1。由于仿真設定在25幀/s下進行,每個字在書寫初始時前5幀,直接把控制手軌跡當作方向邊并進行繪制,之后在每幀做判斷。
(2) 在t2到t5幀連接(P1,P5)得到4個方向向量,并取它們的平均值作為該方向邊的基準方向μ和與之垂直的方向ν。
(3) 在第i幀(i≥6),對于每一個點Pi,連接(P0,Pi)得到向量d,計算向量d與基準直線之間的距離,即d=d·ν0
① 若d>threshold。Pi,為拐點,為該方向邊的終點,返回這條方向邊的方向為(P1,Pi)的方向。開始新邊的書寫,當前點作為新邊的起始點P1= Pi,執行步驟(1)。
② 若d≤threshold。還在進行同一條方向邊的書寫,P1還是該邊起點,繼續跟蹤控制手坐標確定終點。
重復上述步驟,直到檢測到結束輸入狀態,則根據2.2節所述,返回該視覺漢字特征向量。
把實時計算得到的視覺漢字特征向量,依次通過LPP離線訓練好的高低維映射函數在4個漢字集的低維流形空間內進行查找。具體步驟如下:
(1) 計算當前視覺漢字在低維流形坐標系i下的坐標P(初始化時i=1);
(2) 以P為中心,半徑r像素范圍內采用菱形搜索法查找候選特征向量,記錄其對應的漢字序號,如圖5所示;
(3) 如果半徑r范圍內不存在候選字,則返回步驟(1)選擇下一個映射函數和字庫進行識別;
(4) 如果半徑r范圍內存在候選字,把對應漢字按與當前測試漢字的相似度從大到小排序前5個并顯示在界面上的“識別與聯想區”的漢字候選區中;

圖5 低維流形空間中漢字查找過程示意圖
(5) 如果所有映射函數計算完畢,沒有候選向量,則顯示無此漢字信息。
擴大半徑r將會擴大搜索范圍,會增加漢字識別的準確率,但同時也會延長搜索時間。實驗表明,當搜索半徑到達某一閾值時,準確率將不再隨著半徑的增加而增加。系統只要將半徑設置為這一閾值附近,即可權衡效率與準確率之間的矛盾。
LPP算法可將屬于多類漢字組織在統一的低維流形空間,對于待識別的漢字類別歸屬概率可直接利用其與鄰近類別距離來統一衡量,而且通過顯式映射函數系統在常數時間內即可計算其在映射空間中的位置,不隨字庫規模增加而增加,完全滿足實時性需求。
此外,系統還提供5個候選漢字,供用戶交互選擇輸入,該方法可使識別率大大提高,如圖6為在8方向分組特征下LPP算法和SVM算法的候選字數目與識別率關系曲線。

圖6 候選字數目與識別率關系曲線
本文設計和實現了一個空中手寫漢字人機交互輸入與識別實驗平臺,并對漢字識別相關算法進行了深入的研究。提出空中手寫漢字的新型人機交互方法,操作者可以不攜帶任何硬件設備直接用手和手臂按照標準漢字書寫方法進行漢字的輸入。提出了視覺漢字特征向量計算方法和基于流形學習的漢字識別方法。實驗證明,本文提出的特征提取方法與分類器設計具有實時性好,識別率高等優點。該方法也可推廣到韓文、日文、甚至英文等文字的空中交互輸入與識別中。本實驗平臺可作為對空中手寫漢字識別方法的客觀分析、評價的重要方式和手段。
References)
[1] 張忻中. 漢字識別技術[J]. 北京: 清華大學出版社,1992. [2]LiuCL,YinF,WangDH,etal.OnlineandofflinehandwrittenChinesecharacterrecognition:benchmarkingonnewdatabases[J].PatternRecognition,2013,46(1):155-162.
[3] 陳喆,手指屬性和中文特性對智能手持設備手寫界面設計的影響[D].北京:清華大學,2014.
[4]MurthyGRS,JadonRS.Areviewofvisionbasedhandgesturesrecognition[J].InternationalJournalofInformationTechnologyandKnowledgeManagement,2009,2(2):405-410.
[5]RautravSS,AgrawalA.Visionbasedhandqesturerecognitionforhumancomputerinterction:asurvey[J].ArtificialIntdligenceReview, 2015,43(1):1-54.
[6] 萬華根,肖海英,鄒松. 面向新一代大眾游戲的手勢交互技術[J].計算機輔助設計與圖形學學報,2011,23(7):1059-1065.
[7] 金枚,外國學生識別漢字形體的認知層次從整體字形開始的原因略論[J].當代教育實踐與教學研究,2015(11):98.
[8] 呂新橋.聯機手寫漢字識別技術研究[D].武漢:華中科技大學,2009.
[9]TheodoridisS,KoutroumbasK.PatternRecognition[M]. 北京:機械工業出版社,2006: 483-525.
[10] 北京語言學院語言教學研究所.現代漢語頻率詞典[M].北京:北京語言學院出版社,1986.
[11] 張偉,何金國,Hu不變矩的構造與推廣[J].計算機應用,2010,30(9):2449-2452.
[12]Wikipedia.Gaborfilter[EB/OL].[2015-12-20].http://en.wikipedia.org/wiki/Gabor_filter.
[13]HeXiaofei,YanShuicheng,HuYuxiao,etal.LearningaLocalityPreservingSubspaceforVisualRecognition[C]//InProceedingsofIEEEInternationalConferenceonComputerVision. 2003:385-392.
ConstructionofaninteractiveinputandrecognitionexperimentalplatformforhandwrittenChinesecharactersinair
WangYi,LinChi,WangShengfa,XieLing,LiuRisheng
(SchoolofSoftware,DalianUniversityofTechnology,Dalian116620,China)
ThispaperdesignsandrealizesanonlinehandwrittenChinesecharacterintheairinteractiveinputandrecognitionexperimentalplatformbasedonMicrosoftKinectcamera.BasedontheresearchofexistingonlinehandwrittenChinesecharactersrecognitionmethods,theplatformutilizesthestrokeorderandstatisticinformationofcharacterstolearnlow-dimensionalspacesandexplicitprojectingfunctionsforbigcharactersetsbasedonamanifoldlearningmethod.Besides,combinedwithneighborhoodsearchingstrategyandsemanticassociation,thehighrecognitionaccuracycanbeachievedinrealtime.ThisplatformprovidesanobjectiveanalysisandevaluationmethodfortherecognitionofChinesecharacterwritteninair.
Chinesecharacterrecognition;experimentalplatform;human-computerinteraction
DOI:10.16791/j.cnki.sjg.2016.07.013
2015-12-23修改日期:2016-01-26
國家自然科學基金項目(61402072, 61402078,61300083)
王祎(1980—),女,遼寧沈陽,博士,講師,研究方向為機器學習、圖像處理、虛擬現實
E-mail:dlutwangyi@dlut.edu.cn
王勝法(1984—),男,遼寧莊河,博士,講師,研究方向為計算幾何、模式識別.
E-mail:sfwang@dlut.edu.cn
G642.0;TP391.43
A
1002-4956(2016)7-0050-05