摘要:通過信息領域術語的規范化及翻譯、文字輸入法原則和鍵盤布局、語料庫建設與語料管理、機器翻譯以及文字轉換等方面的信息化建設的現狀和進展為例,就目前開發和研究哈薩克文信息處理中存在的若干問題進行探討。
關鍵詞:哈薩克文;信息處理;輸入法;術語規范化
中圖分類號:TP391 文獻標識碼:A 文章編號:2095-2163(2011)04-0045-02
0 引言
隨著信息時代日新月異的發展,自然語言的計算機處理日益受到各方面的重視。在黨和國家領導的支持下,哈薩克文信息處理技術在近幾年取得了一定的進步,如:哈文新聞領域語料庫已初步顯出雛形、常用新聞詞匯的詞法分析、詞匯校對、短語識別等處理均已形成基本框架,但在畜牧業、生物醫學、信息通信等領域卻還沒有相應的語料庫建設,甚至相關術語的使用還未達到規范化的統一標準,而距離真正意義上的實現文字轉換、機器翻譯等中國語言文字信息處理的要求,還存在著一段很長的差距需要不斷填補。縱觀哈文信息處理技術的發展歷程,關注其不斷進步的同時,也需要看到其仍存在的問題,現將若干問題論述如下。
1 信息領域術語的規范化翻譯
術語體現和負載了一個學科領域的核心知識,同時,術語的變化也反映了一個學科領域的發展變化。隨著現代科技的發展,新的科技術語在不斷涌現,而術語的哈文翻譯卻凸顯出其存在的混亂性,以致缺乏統一性,甚至于在哈文的教學教材以及與哈薩克斯坦相關領域的研究交流中引起了很多不必要的誤解,因此哈文術語翻譯的規范化和標準化顯得越發必要而迫切,尤其在計算機普遍應用、各類數據庫信息系統紛紛開通、因特網用戶迅猛增長的今天。在各區域各民族之間的信息交流、各語言間的機器翻譯以及文獻的檢索工作中,無論從語言材料的整理、研究來看,還是從語言的計算機處理來看,專業術語的統一性和規范化都是深入開展信息處理工作的重要基礎,而且對于新學科的開拓、新理論的建立、最新信息的交流、書刊的編輯出版、文獻的存儲和檢索以及信息的資源共享也是十分重要的。同時對于減少各區域問科技發展的不均衡性、加強各區域各民族間科學知識的傳播與交流、科技成果的推廣等研究目標的實現也是較佳的便捷途徑。因此,作為中華民族語言之一的哈薩克語術語翻譯的正規化已成為提升和推進哈文信息處理水平的一個非常重要環節。
2 哈薩克文字符及輸入法
哈薩克語是跨境語言(哈薩克斯坦),屬于阿爾泰語系突厥語族的克普恰克語支,拼音文字,中國的哈文借用了阿拉伯語和部分波斯文字母,有33個字母。其中,有9個元音字母,24個輔音字母,且每個字母的位置有詞首、詞中、詞末和獨立4種變體。哈薩克斯坦使用的是斯拉夫文字。字母表由42個字母構成,分印刷體和手寫體,還有大、小寫之分。字母表中的每一個符號基本上表示一個音位,有少數字母表示復合音位。使用的文字不同時,計算機的鍵盤布局也就不同。中國的哈薩克人使用的阿拉伯語字母輸入的輸入法也不只一種,例如:Alkatip輸人法、施利民維哈柯輸人法、華光書林維哈柯輸人法等等,而且這些輸入法的鍵盤布局在某些局部位置也并不一致。圖1、圖2就是現在信息交換中使用的哈薩克文鍵盤布局,雖然沒有正式發布,但是20年來卻一直在使用的1992年鑒定通過的鍵盤標準。
(1)按基檔時,鍵盤布局如圖1所示。
(2)按shift檔時,鍵盤布局如圖2所示。
因此,不同的輸入法導致哈薩克文的輸入文本之間互相不兼容,也就是需要進行轉換,而這就會在報社、出版社、雜志社等機構信息的交換當中帶來一些不便。因此不同輸人法的輸入文本轉換就成為信息處理當中需要解決的基礎問題。
3 語料庫建設與語料管理
隨著計算機科學的發展,自然語言處理研究逐漸發展壯大起來。自然語言處理中,語料是研究的材料,語料庫是存儲語料的資源。現在,哈薩克文具備了計算機信息處理的基本條件,且已進入了對其詞、語法、語料庫標注等信息處理階段;今后,開發和應用高水平的語言文字處理軟件,將是一項重要研究課題。語料庫管理系統就是將分散的語料集中管理,可對其進行存儲、索引以及一些初步處理的平臺。設計和開發哈薩克文語料庫管理系統,能對哈薩克文語料進行科學有效的管理,并能實現對哈薩克文文本的自動分類,為其后的哈薩克語言學研究提供可靠的素材。而且語言學和計算機的結合正逐漸出現,計算機技術的高效、快速等功能已能夠存儲和檢索人類的大量語言資料,這更為語言學研究提供了極大的便利。因此,建立一個哈薩克語語料庫,包括語料收集、語料錄入、語料編輯和語料檢索等;必須設定有效的管理方式,發展出一套合適的構建流程,同時還要開發一些配套工具。
4 機器翻譯和文字轉換
機器翻譯是自然語言處理的一個重要研究領域,在當今信息社會及軍事部門有著廣泛的應用前景;是利用計算機實現從一種自然語言到另一種自然語言的自動翻譯,或是從一種人類語言到另一種人類語言翻譯過程的完全自動化或部分自動化。隨著國家對少數民族語言信息處理研究的重視,哈薩克文相關領域研究得到了一定的發展。目前,哈薩克文的信息處理在機器翻譯領域的研究尚處于初級階段,而其作為信息處理中的一個難點,仍需要進一步的學習和研究。設計和開發相關軟件的時候必須考慮以下幾點:其一以詞匯為主進行翻譯,其二以句子為主進行翻譯,其三以語義為主進行翻譯等。實現哈薩克文的機器翻譯對于促進民族語言文化的繁榮、發展和科技進步必將具有積極的意義。
文字轉換也是目前哈薩克文信息處理中的一個需要迫切解決的問題,因為哈薩克文有兩種文字,一種是哈薩克斯拉夫文(哈薩克斯坦用的文字),另一種是哈薩克阿拉伯文字(中國的哈薩克人用的文字)。當前中國新疆和哈薩克斯坦等國相互之間在經濟不斷發展的同時,人文領域的交流也不斷擴大。轉換程序的研究和實現為這兩種文字的使用者提供了一種可選的工具,同時也為哈薩克文資料的傳播和交流提供了便利,因此開發和完善哈薩克語在這兩種文字形式之間的計算機轉換系統具有重要意義。
5 結束語
總之,隨著社會的發展,各種語言信息的處理、及時傳播顯得尤為關鍵和重要。本文主要對國內開展哈薩克語信息處理方面的相關研究工作進行了一些探討,在此基礎上對哈薩克語信息處理的進一步發展進行了展望。目前,要加速推進哈薩克語信息處理技術的發展,應重點開展哈文信息領域術語標準化、大規模語料庫建設、語料庫管理系統的設計與實現、哈薩克語操作系統的研制以及哈薩克語資源建設和人才培養工作等等。
參考文獻:
[1]袁毓林語義資源建設的最新趨勢和長遠目標[J].中文信息學報,2008,22(3):3-14.
[2]金澎,吳云芳,俞士汶.詞義標注語料庫建設綜述[J].中文信息學報,2008,22(3):16-22.
[3]古麗拉·阿東別克,達吾勒-阿布都哈依爾,木合亞提·尼亞孜別克.現代哈薩克語詞級標注語料庫的構建研究[J].新疆大學學報,2009,26(4):394-401.
[4]新疆維吾爾自治區教育委員會民文教材審定委員會.哈語語法(哈文)[M].1999.
[5]達吾勒·阿布都哈依爾,古麗拉·阿東別克.基于規則的哈薩克語詞干提取系統的研究[c].民族語言文字信息技術研究.第十一屆全國民族語言文字信息學術研時會,2007:109-114.
[6]劉艷,古麗拉·阿東別克,伊力亞爾.哈薩克語詞性自動標注研究初探[J].計算機工程與應用,2008,44(20):242-244.