2007年1月29日,“多體蒙古文(混排漢英)印刷文檔識別暨統一平臺少數民族文字識別系統”(以下簡稱“統一平臺少數民族識別系統”)在清華大學通過專家鑒定。該項科研成果首次在統一平臺上解決了實用的多字體印刷少數民族文字及其混排漢英的識別問題,完成了在統一平臺上蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文和柯爾克孜文(混排漢英)文檔識別的綜合集成平臺和系統,主要技術指標達到了國際領先水平。
6月20日的上午,清華園,記者與丁曉青教授及其部分研發團隊成員,就“統一平臺少數民族文字識別系統”的研發過程,以及在此過程中的諸多感受作了細致的了解。采訪過程的始終,都被丁曉青教授及其團隊,在此項科研活動中所付出的艱辛與努力所感召,被其立足科技報國的精神所鼓舞……
不一樣的八年
形容少數民族文字識別系統的研發過程,丁曉青教授用“抗戰八年”一詞形容所經歷的艱苦過程。“在少數民族文字識別率上,一個百分點一個百分點的提高,從百分之四五十,再到六七十,甚至停留在78%就有相當一段時間。每一種少數民族文字識別率的提升,就像登山一樣的艱難。”從1999年到2007年1月,隨著“多體蒙古文(混排漢英)印刷文檔識別暨統一平臺少數民族文字識別系統”通過專家鑒定,包括我國主要少數民族文字的識別系統已經具備實際應用能力,并將進一步加快少數民族文字的信息化步伐。
從藏文到維吾爾文、哈薩克文、柯爾克孜文,以及蒙古文,阿拉伯文,每前進一小步,都要付出巨大的代價和痛苦的等待,8年的時間里,丁曉青和她的研發團隊沒有明確的休息日,識別率的提升成為他們始終關注的焦點。2003年11月,藏文識別系統歷時3年最終完成。接下來的,就是維吾爾文、哈薩克文、柯爾克孜文的文字識別,與前面的藏文相比較,難度更加大了,文字的切分工作是解決識別問題的關鍵。此時,解決這一問題的一位關鍵人物出現了,新疆大學的哈里#8226;木阿提,一位曾經在清華大學進修,熱衷于文字識別科研攻關的維吾爾族學者,擔負起了相應的文字切分工作。就這樣,難關被一步一步地攻破,一項成功的科研項目的問世,有許許多多這樣的幕后英雄作為智力支持。
“我國的少數民族很多,其中有相當一部分擁有自己的文字,如何讓更多的少數民族文字進入計算機,進入信息化處理時代,是擺在今后一段時期的重要任務。而讓少數民族學者解決本民族文字的識別,又存在著一定的技術難度,所以我們在完成藏文識別系統以后,覺得這項工作應該繼續做下去,盡可能的完善它。”丁曉青教授說。
研發道路步步維艱。隨著進度的不斷加深,丁曉青教授覺得藏文比朝鮮文難,阿拉伯文比藏文難,蒙古文還比阿拉伯文難。她把研發比喻成登山一點也不為過,越往后困難越大。項目組成員在多體蒙古文(混排漢英)印刷文檔識別系統的基礎上,綜合集成了在2003年已完成的多字體印刷藏文(混排漢英)文檔識別系統等多個文檔識別系統。并于今年1月完成了多體蒙古文(混排漢英)印刷文檔識別系統,它能識別印刷多字體的蒙古文字符和文檔,解決了多字體蒙古文漢英混排文本切分和識別問題。對較困難的蒙古文連寫文本,提出了利用多種信息得到最優字符切分點等方法,并結合漢字及英文識別技術,實現了蒙古文混排漢英印刷文本識別,文本切分識別率可達96.2%,已經可以應用于日常的文字處理工作。
前無可借鑒之路,后有強烈的民族情感和責任意識,正是支持這一科技成果成功轉化成生產力的不竭動力,丁曉青教授說。
科研創新凸顯出的多重意義
文字是文化的載體,是傳承文化、表達信息的核心。我國是統一的多民族國家,有著獨特的政治、經濟、文化等特點。多民族在實現政治平等的同時,也應該享有文化上的平等,以及在面對信息技術上的平等處理權利。“統一少數民族文字識別系統”的成功研發,就解決了這一難題,使少數民族文字與漢字一樣,實現與計算機應用的良好對接。文字是信息化的基礎,文字信息的計算機自動輸入是信息化發展的瓶頸和關鍵。統一平臺少數民族文字識別系統的研制成功,對于促進少數民族的文化、文明交流,促進我國少數民族地區的信息化建設,以及促進我國與阿拉伯國家的深入合作、交流產生著深遠影響。
丁曉青教授強調,“統一”二字是這一系統的靈魂所在,目前完成的文字識別,已經將朝鮮文、藏文、維吾爾文、哈薩克文、柯爾克孜文、蒙古文等主要的少數民族文字容納進來。將來,還要對其他民族文字,比如壯文、彝文等都要完成文字的計算機識別,從而實現真正的“統一少數民族文字識別系統”。
“兼具國際性、世界性,是統一少數民族文字識別系統的另一個特點”,丁曉青教授提示。2001年,正當她和她的團隊進行阿拉伯文字系統的科研攻關的時候,美國爆發了9.11事件,美國出于對國防的考慮,加緊了對阿拉伯文的研究。而我國在這一領域的研究已經走在了世界的前列。其目的與美國不同,丁曉青教授將這一識別平臺放在中國和平崛起的大的歷史背景下加以闡述:在新的歷史時期,文化將是主導國家發展巨大的內在動力,是一個國家和民族不斷進步所需要的核心,只有建設先進的文化,才能使一個國家和民族屹立于世界民族之林。國家的強大在于民族文化的強大與繁盛,而文字的信息化是其中的一個環節,也是信息化的基礎性工作。
雖然這一套系統最初基于服務于國內的少數民族,但是同樣在世界一些地區具有深遠意義。丁曉青教授舉例說明:阿拉伯文識別系統不僅在國內的新疆地區,即便是在擁有2億多人口的中東阿拉伯地區也具有一定的影響力。藏文識別系統與同屬印藏語系的印度和巴基斯坦地區意義非凡。蒙古文識別系統對于蒙古國和我國的錫伯文和滿文也有著相當的貢獻……
光榮不僅屬于自己
丁曉青教授說,雖然清華大學在這一科技項目上掌握一些核心技術,但是與幾所民族院校的大力支持與協作是分不開的,功勞不能僅僅屬于自己。尤其是在少數民族文字的切分上,民族院校作了大量的基礎性工作,為日后識別率的提升作出了大量的貢獻,是所有參與單位及人員的通力合作,才有今天這個比較滿意的結果。在丁曉青教授的帶領下,清華大學、內蒙古大學、內蒙古師范大學、新疆大學、西北民族大學的多位科研人員參與了這套系統的研制。
完美的理念完善的設計
少數民族文字識別系統在漢字和英文文檔識別的基礎上,還將我國最主要的四種類型六種少數民族文字,即蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文和柯爾克孜文(混排漢英)文檔識別綜合集成在一個統一的平臺系統中,使最主要的少數民族文字(混排漢英)文檔能夠自動識別輸入計算機。基本解決了我國少數民族文字文檔識別問題,同時該系統還支持阿拉伯文的識別。這一切,都體現了研發設計人員的良苦用心和人性化設計。
丁曉青教授強調,“統一平臺少數民族文字識別系統”是蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文、柯爾克孜文(混排漢英)文檔識別的綜合集成,其主要技術指標達到了國際領先水平。其系統工作穩定,使用方便,文檔齊全,為蒙古、藏、維吾爾、哈薩克、柯爾克孜、朝鮮(混排漢英)紙介質文檔轉化為電子文檔提供了有效的工具,促進了我國少數民族語言文字的信息化。
目前,丁曉青老師帶領科研團隊刻苦攻關,已經在漢字識別和人臉識別領域取得多項國際領先的研究成果,并致力于產業化推廣使用,為國家信息化建設服務,把少數民族文字識別的研究成果無償地提供給少數民族地區單位使用。在這里,科技工作者以自身的努力,以成果回報社會、回報祖國的真摯情懷得到了良好的體現。