“真是令人難以置信的結果,它的確讓我在這最后一個工作日感覺不錯。”在比爾·蓋茨退休當天,微軟亞洲研究院手寫識別團隊收到了一封蓋茨的回復郵件。蓋茨在郵件中所說事情指的正是微軟亞洲研究院用戶界面組(現軟件分析組)與Windows產品部門共同研發(fā)的東亞文字手寫識別技術,當時,東亞文字手寫識別項目已經在微軟亞洲研究院所在的希格瑪大廈完成了后期的優(yōu)化。
2007年3月,東亞文字手寫識別技術剛立項一年,比爾-蓋茨也曾在給微軟亞洲研究院的郵件中表示出了極大的興趣和期待。在項目組每個成員的郵箱里,至今仍保存著比爾一蓋茨的這兩封郵件。
一方面,這兩封郵件見證了東亞手寫識別技術從研發(fā)到植入Windows 7的本地化進程。可以想象,對技術無比癡迷的蓋茨體會到的欣慰和興奮,微軟亞洲研究院又一次對微軟核心產品貢獻了重要智慧。同時,Windows 7也實現了一項革命性的跨越——東亞語言用戶用電腦做手寫筆記的應用變得更加簡單實用。
文字游戲
世界上恐怕任何一款文字游戲,都沒有微軟亞洲研究院手寫識別團隊遇到的更具挑戰(zhàn)。
“對于輸入來講,我們不能要求用戶怎么樣,而是要盡量滿足用戶。不同用戶寫字的習慣,包括筆順和字形,都有很大變化。因此我們要把這些因素包含進去,盡量應付這些情況。”微軟亞洲研究院軟件分析組韓石對本刊記者說。
微軟亞洲研究院軟件分析組及其前身用戶界面組的一個重要研究分支,是基于數據的統計學習和模式識別技術的應用性研究,通俗一點講就是如何教機器去從大量的真實數據中學會分類。轉化到windows 7里的手寫文字識別本質上就是一個分類的問題,也就是讓計算機知道用戶輸入的是什么字。而與以拉丁語系為代表的西方語言相比,東亞語言文字的字符集特別大,筆劃變化多端,相似的字又特別多,這些對識別率和識別速度來講都是挑戰(zhàn)。
據韓石介紹,對于單字的手寫識別來講,最難就是寫得比較草的時候。立項之初,在行業(yè)內對潦草數據集的識別率已經達到95%左右,單字識別當時主要應用的技術是利用字形的空間信息,從字局部和整體的特性來挖掘字與字之間的區(qū)分度。空間關系的好處是它可以對字有一個整體的概念,但它忽略掉了每一筆的先后順序和走向,不容易捕捉到一些細節(jié)的局部。而如果把筆畫的時序信息應用進去的話,對于“味”和“昧”這樣的字就可以更準確區(qū)分了。
通過整整兩年的時間進入Windows7。手寫識別團隊把東亞語言文字的識別率推向一個更高的水平,以簡體中文為例,對潦草數據集的識別率達到97%,甚至更高。
提高了識別率,剩下的是把它做快、做小。Windows 7中的文字手寫識別有整句輸入、糾錯和聯想的功能,通過聯系上下文,基于大量材料從已有的文字組合中統計出的語言模型,在這些功能中起著重要作用。對于東亞語言來講,它的字符集是超大的,這是一個非常大的挑戰(zhàn)。以中文為例,完整的漢字字符集有兩萬多個字,最常用的一級和二級字符集也有近七千字。由這些字組成的詞和短語。其模型空間之大可想而知。
速度快、體積小是windows 7的重要目標之一。在這么大的一個模型里面,怎么樣去選擇最有效的那一部分來提高識別率以帶給用戶更好的體驗呢?據韓石介紹,此前的語言模型已經相當優(yōu)化,然而每一種語言的模型大小也相當可觀。經過手寫識別團隊的進一步優(yōu)化,在模型體積減半的同時,整句輸入模式的識別率也有所提高。
以產品標準做研發(fā)
“幾乎所有我們的實驗、代碼都是以產品的標準來做的,這樣就使整個技術轉化的過程非常平滑。這個其實出于幾點考慮,首先要想把一項技術寫成很好的代碼。對這個技術要非常了解,同時優(yōu)化代碼,做得很快很小,所以我們來做這個事情效率最高。唯一的要求就是我們這邊的人要兼?zhèn)渥鲅芯亢烷_發(fā)的能力。”讓韓石和同事們感到欣慰的是在交付測試的時候,沒有發(fā)現一個bug,這個結果從做基礎研究的角度來講,基本上就是奇跡了。而這樣的奇跡每天都在這里發(fā)生。
這又是一次經典的團隊合作,東亞文字手寫識別在Windows 7中的質的飛躍,位于微軟總部雷蒙德的Windows產品部門手寫識別團隊同樣功不可沒。而此間發(fā)生在研究院與產品部門之間的緊密合作,在這里經常發(fā)生。
2008年7月,用戶界面組(現軟件分析組)的手寫識別團隊成功地將基于字根和隱馬爾可夫模型(HMM)的東亞文字手寫識別技術轉化到了Windows產品部門。其中,在針對東亞文字的HMM拓撲設計、最優(yōu)化字根集選取、HMM區(qū)分度訓練、基于狀態(tài)參數共享的模型壓縮、以及數據驅動的解碼加速等方面有重要突破和技術創(chuàng)新。微軟亞洲研究院基于H MM的東亞文字手寫識別(代號為Dolphin)技術顯著降低了原有技術的識別錯誤率,使四種東亞語言——簡體中文、繁體中文、日文和韓文的識別錯誤率均有顯著下降。在此之前,用于東亞文字整句手寫識別的語言模型優(yōu)化已經在windows 7的M3階段完成了技術轉化。更好地整合了優(yōu)化的語言模型后的最終產品中,簡體中文、繁體中文和日文在整句輸入模式下的文字識別錯誤率也有相應改善。
書寫未來
就手寫識別技術來說,東亞文字并不是終點,同時,電腦也只是微軟在手機和電視中“三屏”之一。
就中文來說,一個新的挑戰(zhàn)就是現在的年輕人的使用習慣,這些活躍于網絡的主流人群往往使用中英文混打,有時甚至還夾雜一些表情甚至火星文。“我們之前的做法是不同的語言用不同的模型來做,所以從局部技術角度看這是一個挑戰(zhàn)。從產品或者技術應用來看,對于文字領域,我們還是要把更多的語言做進去或者做得更好。”韓石說,包括最近幾年學術界比較關心的阿拉伯語言和其他語種的識別,各個語言都有它的特點和應用人群。微軟作為軟件行業(yè)的領導者,有責任和義務把各種語言做好,“畢竟我們的目標是要服務以及方便整個人類生活,讓更多的人受益”。
既要考慮人們的使用體驗,又要適應在不同環(huán)境中的習慣。對于一些鍵盤輸入不太方便的內容,在微軟看來都是令人興奮的挑戰(zhàn)。 “比如說像我們做過的一些數學公式和化學公式,現在化學公式還不是解決非常好的一個問題,尤其是一些復雜的有機結構式,像藥物說明書經常見到的那樣。還有就是像有一些設計草圖,臨時的靈感,如果希望把它快速地記下來,還是用筆比較方便,當然你要把它數字化以便于管理或者進一步處理的話,還是需要識別的技術。”
在移動領域,手寫識別的實現就不只是依賴技術本身了,而是怎么樣把已有的識別技術更好地應用起來,包括硬件革新以及更便捷的人際交互方式設計等多方面的支持。可以肯定的是,手寫識別技術不僅限于文字,也不限于Windows7,在不遠的將來就會推廣到更多空間。
信息技術的迅速發(fā)展帶來了很多新的挑戰(zhàn)和機遇。隨著包括手寫識別在內的多項技術到最終產品的成功轉化,微軟亞洲研究院原來的用戶界面組也戰(zhàn)略性地選擇了更新、更具挑戰(zhàn)的研究方向,成為了現在的軟件分析(softwareAnalytics)組。軟件分析組目前的研究重點包括。軟件質量與性能的高級分析、信息可視化以及大規(guī)模數據處理。值得期待的是微軟亞洲研究院更多的研究成果轉化到產品里,再帶到人們的生活當中。