王 帆,李 敏,丁紀峰,許 爽,鄭蕊蕊
(大連民族大學 a.計算機科學與工程學院;b.信息與通信工程學院,遼寧 大連 116605)
?
手寫滿文字母采集系統的設計與實現
王帆a,李敏b,丁紀峰b,許爽b,鄭蕊蕊b
(大連民族大學 a.計算機科學與工程學院;b.信息與通信工程學院,遼寧 大連 116605)
鑒于目前沒有完整的手寫滿文字母庫,在分析當前手寫滿文字母庫的建立方式后,提出了嵌入式搭載觸摸屏的手寫滿文采集方案,設計了基于STM32F4處理器的手寫滿文字母采集系統。該系統以Keil 5軟件為開發平臺,利用C語言開發了觸摸屏、SRAM模塊、SD卡和通信模塊驅動,編寫了手寫輸入采集、優化后的預處理和特征提取算法,并通過串口實現了與PC機的數據傳輸。系統整體電路采用 Altium Designer 9軟件設計。經測試,系統能夠較好地完成所需功能,且界面友好、操作方便、成本低廉、實時性強。
滿文字母采集;手寫滿文字母;嵌入式;預處理
在清代近300年的統治中,留下了大量涉及政治、文化、經濟、軍事、外交、天文等各個方面的滿文檔案,這些滿文檔案是研究清代通史和各種專史的第一手資料,也是研究滿文取之不盡的寶庫,具有重要的利用和研究價值[1]。然而自清朝毀滅至今,滿文嚴重流失,懂得滿文、能使用滿文的鳳毛麟角,因此研究滿文識別方法對保護和傳承清代文化遺產來說顯得尤為重要[2]。
識別處理滿文需要大量的基礎工作。而建立手寫滿文字母庫[3]是重要的基礎工作之一。目前建立手寫滿文字母庫主要是通過研究人員將各種手寫滿文文獻掃描到計算機中,通過對圖片的預處理,包括傾斜校正、行列切分,再將預處理后滿文單詞進行切分,得到滿文字母集合,經整理后得到手寫滿文字母庫[4-5]。該方案受文獻質量和數量的影響,當文獻量不足時,得到的滿文字母樣本量很少,滿文庫的規模就受到限制。另外這種方案需要大量工作人員來將滿文書寫在紙上,即需要大量的預處理和整理工作。
鑒于目前還沒有一個完整的手寫滿文字母庫,根據對當前滿文庫建立方案的分析,本文設計了一個可以完整采集滿文字母并且直接數字化的手寫滿文字母采集系統,為后期識別處理滿語文字提供了基礎。
系統由外殼結構部分和硬件部分組成。外殼的各部分結構圖采用SOLID-WORKS軟件設計,通過3D打印機打印后與電路部分拼裝[6]。
系統硬件部分主要由觸摸屏模塊、輸入控制模塊和通信模塊組成,整體電路采用 Altium Designer 9軟件設計,如圖1。其中輸入控制模塊包括電源供電模塊、ARM控制模塊、SRAM存儲模塊和SD卡。觸摸屏模塊用于系統界面和滿文字母手寫的輸入顯示;輸入控制模塊用于對手寫數據的采集、觸摸屏同步顯示以及數據的轉換處理;通信模塊主要用于將字母圖像處理后的特征值發送到上位機保存。

圖1 系統硬件組成結構示意圖
1.1觸摸屏
選用ATK-7’TFTLCD V2定制電容觸摸屏,通過FT5206驅動;LCD屏使用群創AT070TN92,采用SSD1963驅動。屏幕分辨率為800×480,16位真彩顯示,通過34(2×17)個引腳同外部連接。LCD接口連接在STM32F407ZGT6的FSMC總線上面,可以顯著提高LCD的刷屏速度。為避免撕裂現象,撕裂效應信號通過LCD控制器反饋給MCU用于指示LCD控制器的顯示狀態,在非顯示周期內,撕裂效應信號為高。
1.2輸入控制模塊
以STM32F407ZGT6為核心的輸入控制模塊包括連接觸摸屏電路、電源電路、連接外擴SRAM電路、SD卡接口電路及最小系統的外圍電路。MCU最小系統電路主要包括STM32F407ZGT6及其基本外圍電路。STM32F407ZGT6處理器是由ARM專門開發的最新嵌入式處理器,可以滿足控制和信號處理功能混合的數字信號處理市場[7]。其最小系統主要包括復位電路、外部時鐘電路、啟動模式設置電路及JTAG下載電路;系統的電源供電電路采用AMS1117-5.0芯片,將電源電壓降到5 V供外圍芯片使用,通過AMS1117-3.3將5 V降到3.3 V為系統供電。
容量為1 M字節的IS62WV51216芯片掛在STM32F407ZGT6的FSMC上,作為系統MCU外擴的SRAM。MCU芯片本身有192K字節內存,通過外擴的SRAM芯片可以充分擴展系統內存。系統使用SD卡作為數據庫保存介質,采用4位SDIO方式驅動。STM32F4自帶的SDIO接口驅動,4位模式,最高通信速度可達48 MHz(分頻器旁路時),最大速度可以達到24 MB·s-1[8],滿足設計需求。
1.3通信模塊
通信模塊采用CH340G芯片作為USB轉串口芯片。STM32F407ZET6利用其全雙工串行USRT接口,連接CH340G異步傳輸總線,將滿文字符特征序列發送到上位機。采用USB接口作為CH340G和上位機通信的接口。串口是計算機上一種非常通用的設備通信協議,同時也是儀器儀表設備通用的通信協議,使用這種通信方式可以為數據的采集提供極大的方便。
2.1TFT觸摸屏部分設計
系統界面分為控制顯示、手寫輸入實時顯示、字母圖像處理顯示三個區域。控制顯示區域顯示滿文字母的選擇信息、按鍵及存儲路徑信息;手寫輸入實時顯示區域采集并顯示滿文字母的手寫輸入軌跡;字母圖像處理顯示部分主要顯示字母圖像的處理過程,包括預處理和特征提取,可以對字母圖像的處理過程直觀地進行分析。
2.1.1手寫輸入信號實時采集與顯示
手寫輸入數據的采集主要由輸入控制模塊完成,其程序流程如圖2。當書寫筆或手指在手寫輸入區域劃動的時候,輸入控制模塊從TFT觸摸屏讀取相應的值,并對這些值進行濾波,去除干擾較大的值,得到觸摸點的位置坐標并保存到兩個16位無符號整形數組中。兩個軌跡數組分別記錄觸摸點對應的X坐標和Y坐標集合,完成手寫輸入信號的采集。

圖2 TFT觸摸屏數據讀取程序流程圖
手寫輸入實時顯示位于系統界面右側,大小為385×385。書寫時,系統會記錄當前的觸摸點坐標和上一個觸摸點坐標,然后在這兩個坐標間畫一條黑色粗線。在畫線過程中,首先要分析這兩個點在X軸或者在Y軸上的增量是否小于線的寬度,如果小于線的寬度,可以視為直線處理,取這兩點在單軸上的平均值作為這個軸的坐標,對應另一個軸的長度畫一條直線;如果在X軸和Y軸上的增量都大于線的寬度,則對這組坐標不做處理,直接對這兩點畫粗線。通過這種方法,可以在書寫過程中實時顯示手寫輸入軌跡,同時可以使顯示的手寫字母橫平豎直,筆畫明顯,顯示效果好。
2.1.2控制顯示區域
控制顯示區域位于界面左側,大小為360×430,該區域用于顯示滿文字母的選擇框、控制按鍵和存儲路徑,在每次觸摸到選擇框或按鍵時,系統會刷新一次控制區域的顯示。存儲路徑顯示區域用來顯示存儲路徑字符串,每一次控制區域顯示刷新的時候會先將字符串數組更新一遍。
控制區域包含兩部分,滿文字母選擇區域和手寫輸入控制區域。滿文字母選擇區域一共分為三級,第一級為“字母類別”,由6個選擇框組成;第二級為“字母樣式”,由4個選擇框組成;第三級和第一級相關聯,當第一級“字母類別”改變,對應第三級“字母”也會改變。第三級由24個選擇框組成,當觸摸到相應選擇框,該選擇框會變為藍色,系統記錄選擇信息。當用戶點擊分類選擇框時,系統會經過信息編碼、匹配,最終得到路徑字符串,利用文件管理系統將截取到的字母圖片保存到相應的路徑中,完成滿文字母的采集。
手寫輸入控制區域設置了“清屏”和“確認采集”兩個控制功能。清屏功能會使右側手寫輸入區域和圖像處理顯示區域變為白色,并重新等待書寫;確認采集功能通過截屏算法將右側手寫區域圖像進行采集,并利用字母分類保存算法存儲字母圖像,同時對圖像進行處理和特征提取。處理后的圖像顯示在圖像處理顯示區域,提取的特征值通過通信模塊發送。截屏算法利用BMP圖片編碼將LCD顯存保存為BMP格式的圖片文件,算法實現步驟如圖3。

圖3 截屏算法流程圖
2.1.3字母圖像處理顯示區域
字母圖像處理顯示部分由5個64×64的方框組成,位于系統界面右上部分。當書寫完成后,系統會將觸摸輸入的有序軌跡進行一些預處理,主要包括平滑、直線生成、重采樣、歸一化。平滑用于消除噪聲并且為直線生成做準備;直線生成可以對手寫滿文字母加入虛擬筆處理;重采樣主要是為了減少點的間距的變異以及筆畫上點的數目的變異;由于不同的書寫風格會導致字體大小不同,因此需要對輸入軌跡進行歸一化處理,本系統采用線性縮放的方法將樣本歸一化為64×64像素。前4個方框顯示預處理后的圖像,第5個方框顯示8方向特征提取[9]時的動態切割圖。
2.2串行通信程序設計
系統串行通信采用中斷的方式。由于系統要等待對手寫輸入字母進行特征提取后再發送數據,所以通信模塊在系統不采集的時候是不工作的,只有當特征提取結束后進入中斷,通過中斷處理程序將采集的特征序列發送,從而提高了系統的顯示質量和運行效率。其通信流程圖如圖4。

圖4 串口通信程序流程圖
在硬件整體測試中,系統運行界面如圖5,隨意選擇字母進行采集,圖中選擇“輔音字母”“獨立式”字母“b”,選擇后可以發現下端的存儲路徑發生變化。在右側書寫滿文字母后點擊采集按鍵,按鍵會顯示“正在采集”,等待1 s后完成采集。點擊清屏按鍵后右側屏幕內所有字母被擦除,可以繼續采集。測試過程中系統各個模塊運行正常,實時性良好。

圖5 系統運行界面
利用串口助手軟件測試系統的通信模塊,包括通訊是否連接、下位機發來特征數據是否正確。測試時,將串口助手波特率設置為115200、數據位設置為8位,利用通信模塊接收下位機發送的數據并顯示。經測試,上位機數據接收正常,所有特征數據均符合實際檢測值,串口助手軟件測試情況如圖6。

圖6 串口助手軟件測試情況
滿文識別技術必須以大量的字母樣本為基礎,因此建立手寫滿文字母庫是研究滿文識別方法的必要條件。本文在分析了手寫滿文字母庫建立的方式后,設計了一個脫機手寫滿文字母采集系統。系統測試結果顯示,通過本系統可以方便地建立一個多樣本完整的滿文手寫字母庫,同時對采集后的字母圖像進行特征提取并通過通信模塊發送到上位機用于訓練。對比傳統的利用上位機建立滿文手寫字母庫的方式,該系統以手寫輸入滿文字母的方式,利用嵌入式搭載觸摸屏便捷地進行采集并數字化,構成簡單,操作便捷,成本低廉,能夠準確、實時顯示手寫輸入的滿文字母并進行保存。
[1] 許爽, 李敏, 朱滿瓊, 等. 滿文識別技術研究與分析[J].大連民族學院學報, 2014,16(5):546-551.
[2] 吳敏. 從滿文發展的歷史與現狀談保護與發展滿文的意義[J]. 滿族研究,2010(99):62-65.
[3] 鄭蕊蕊, 李敏, 吳寶春. 基于MATLAB GUI的少數民族文字手寫體采集系統[J].大連民族學院學報, 2014,16(3):306-309.
[4] 周興華, 李敏, 鄭蕊蕊, 等. 印刷體滿文文字數據庫的構建與實現[J]. 大連民族學院學報,2015,17(3):270-273.
[5] 張廣淵, 李晶皎, 王愛俠. 脫機手寫滿文筆畫基元的提取和識別[J]. 計算機工程, 2007,33(22):200-202.
[6] PETTIS Bre. Anna Kaziumas France and Jay Shergill. Getting Started with MakerBot [M]. Beijing: Post & Telecom Press, 2013.
[7] 張勇強, 陽泳, 于建坤. 基于STM32的圖像采集與顯示系統的設計與實現[J]. 電子世界, 2016(2):34-36.
[8] 盧有亮. 基于STM32的嵌入式系統原理與設計[M]. 北京:機械工業出版社, 2014.
[9] BAI Zhenlong, HUO Qiang. A Study on the Use of 8-directional Features for Online Handwritten Chinese Character Recognition[C]//Proc. of ICDAR’05. Seoul. Korea: IEEE Computer Society, 2005.
(責任編輯王楠楠)
Design and Implementation of Handwritten Manchu Alphabet Acquisition System
WANG Fana, LI Minb, DING Ji-fengb, XU Shuangb, ZHENG Rui-ruib
(a. School of Computer Science and Engineering; b. School of Information and Communication Engineering,Dalian Minzu University, Dalian Liaoning 116605, China)
In view of the fact that there is no complete handwritten Manchu alphabet database currently, after analyzing the organization methods of the existing handwritten Manchu character alphabet database, a novel acquisition method based on the embedded system is proposed with a touch screen as the acquisition device, then a handwritten Manchu character acquisition system based on an STM32F4 microprocessor is designed. Using Keil 5 as developing platform and C as the programming language, driver programs of the touch screen, SRAM module, SD card module and communication module are developed, algorithms of the handwritten input acquisition, the optimized pre-processing and the feature extraction are designed. The data transmission between this system and computer is implemented by the RS-232 serial port. The overall PCB layout of the system is designed by Altium Designer 9. Tests show that the system can accomplish the required functions with friendly interface, convenient operation, low cost and strong real-time performance.
Manchu alphabet acquisition; handwritten Manchu alphabet; embedded system; pre-processing
2096-1383(2016)05-0513-04
2016-05-19;最后
2016-06-02
國家民委科研項目(14DLZ007);遼寧省自然科學基金項目(2015020084);遼寧省教育廳科學技術研究項目(L2015127,L2014548);中央高校基本科研業務費專項資金資助項目(DC201502060202,DC201502060407,DC201502060301)。
王帆(1993-),男,滿族,遼寧丹東人,大連民族大學計算機科學與工程學院碩士研究生,主要從事嵌入式圖形圖像處理研究。
李敏(1962-),遼寧開原人,教授,學校優秀教學帶頭人,主要從事智能信息處理研究。
TP391
A