999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向漢語教學的漢藏語料庫系統設計和實現*

2012-07-25 03:20:02安見才讓
微處理機 2012年2期
關鍵詞:系統

安見才讓

(青海民族大學計算機學院,西寧810007)

1 概述

語料庫由大量收集得來的書面語或口語構成,使用計算機儲存并處理的用于語言學研究的文本庫。它為語言教學提供了自然出現的真實語料,為語言研究提供了科學的方法[1]。經過20多年的發展,很多領域的語料庫已達到一定規模,相應的語料庫日趨成熟,但藏區的漢語教學至今沒有一個可以應用的漢藏語料庫。目前,國內漢藏平行語料庫缺乏統一的標準,藏區的漢語教學工作仍采用傳統的面授模式,教師的知識儲備有限,知識得不到及時更新與總結,缺乏知識對比的參照標準和有效信息的搜索工具,而且檢索效率低下[2]。因此,文中建立了漢藏雙語語料庫平臺系統,立足于“藏區使用的小學、初中漢語文教材”,充分結合漢藏雙語的特點,應用計算機技術,實現了對漢、藏語料的收集、篩分、統計、檢索、對齊、對比、發音、朗讀、顯示等功能,為藏區的漢語教學、漢藏語言的研究提供了一個高效、準確、統一的教學平臺。

2 系統特點

九年義務教育六年制小學和三年制初級中學共17本《漢語》教科書(藏族地區使用)的內容及與之對齊的藏語翻譯內容是本系統的生語料。它含有904個課文文本文件,約2794445字。據此,本系統在設計上突出了以下幾個特點:

(1)實現了良好的人機交互

系統在生語料的人工處理和熟語料的人工修正模塊中,通過友好的交互界面,實現了漢藏分詞、漢藏詞性標注、漢藏句法分析和漢藏樹庫結果的人工修正等功能。

(2)加工深度到達詞、句、段級

在對生語料進行加工的過程中,提取并保存了每個文件的段數、句數、詞數及其對象在數據結構中的存取地址,可以方便地實現對任意文件、段、句、詞的檢索和提取。

2.1 漢藏雙語語料庫系統功能

漢藏平行語料庫系統功能結構如圖1所示。

系統包括前臺應用和后臺維護2個子平臺。應用子平臺供最終用戶進行語料檢索、統計、對比分析的使用,功能如下:

(1)語料檢索:檢索引擎根據檢索請求,輸出用戶需要的漢藏語料數據。

(2)語料對齊顯示:根據用戶的檢索請求,語料按成篇、段落、語句對齊等多種形式輸出給用戶。

漢藏句子級對齊如圖2所示。

圖1 漢藏雙語語料庫系統功能結構

圖2 漢藏句子對齊

單擊漢語句子時,會使其本身及與之相對齊的藏語句子的顏色加深并朗讀發聲,反之亦然。

(3)統計分析:系統分別對漢、藏語的各種項目進行頻率統計,并自動成為語料檢索的結果之一。

表1是任意選擇初級中學《漢語》課本第五冊,對其內所有課文中各詞性類別、詞性出現次數和所占總字數的百分比等情況作出的統計:

表1 漢語的詞性類別、詞出現次數和百分比統計

(4)漢語朗讀:根據教學要求,對漢語語篇、段落、句子、詞語和字進行朗讀或發音,為藏族學生普通話水平的提高提供幫助。

維護子平臺的功能是提供對語料的編輯和入庫操作。其功能如下:

·漢藏語料的錄入和編輯。如語料的錄入、修改及語料人工標記的添加等

·漢藏語料中詞的切分和標注

漢藏語料的分詞和標注如圖3和圖4例示。

·語料句法分析和樹庫生成

例如句子:漢語“我們學習漢字”和與之對齊的藏語“NGA TSOS RGYA YIG SLOB,”的句法分析的樹型標示如圖5和圖6。

圖3 藏語句子的分詞和標注

圖4 漢語句子的分詞和標注

·漢藏語料校對

漢藏平行語料庫系統分為語料庫文件和語料庫引擎(即語料庫索引程序)及其他應用程序。本系統的總體框架如圖7所示。其中語料庫加工模塊對生語料或熟語料進行詞語切分、詞性標注和句法分析處理,得到存放在計算機磁盤中的庫文件。語料庫索引模塊則對庫文件中的語料信息,運用特定的工具進行分析處理,并生成索引文件,實現特定的功能。

圖5 漢語句子的句法分析

圖6 藏語句子的句法分析

圖7 漢藏平行語料庫系統

2.2 庫文件的數據結構

全部的漢語文教材內容按冊分成18個類,系統將每個類作為一個單獨的庫文件存取,并可由語料庫索引程序根據用戶的選擇裝載、調用。每個庫文件由四個動態數組構成,分別是文件數組、段信息數組、句信息數組和詞信息數組。每個數組元素為一個結構,具體定義如下所示:

由于漢語中95%的詞語都不超過4個字,教材中與漢語詞語對應的藏語詞語基本上也是4個字長,為了減少存儲空間的占用,系統設定漢語詞條長度為8字節,藏語詞條長度為28字節。若漢語詞條長度超過8字節或藏語詞條長度超過28字節,則設一個指針指向LONGWORDINFO結構。

在語料庫加工過程中,對熟語料文件,分析提取出其中的各個段、句、詞或者詞性標記等信息,由這些信息計算出結構各成員的值填入各數組中,對后繼的文件,同樣的信息也依次添加到數組中。對每篇文章的首段、每段的首句及每句的首詞或字,將其ID填入上一級對象相應的成員中,實現上一級對下一級相應對象的尋址,這樣就能夠存放文章的段、句結構信息。通過詞對象的FileId,SenId成員,系統能夠方便地為詞語建立B+樹索引。

2.3 語料庫加工模塊

語料庫加工模塊的結構如圖8所示。

詞語切分和詞性標注是熟語料生成的基本步驟,本系統采用了基于N-最短路徑方法的漢藏詞語粗分模型實現生語料的切分和標注。它綜合了最短路徑分詞方法與全切分分詞方法二者之長處,其基本思想是:

圖8 語料庫加工模塊

根據詞典,找出字串中所有可能的詞,構造詞語切分有向無環圖。每個詞對應圖中的一條有向邊,并賦給相應的邊長(權值)。然后針對該切分圖,在起點到終點的所有路徑中,求出長度值按嚴格升序排列(任何兩個不同位置上的值一定不等,下同)依次為第 1,第 2,...,第 i,...,第 N 的路徑集合作為相應的粗分結果集。若兩條或兩條以上路徑長度相等,則它們的長度并列為第i,都要列入粗分結果集,而且不影響其他路徑的排列序號。最后粗分結果集合的大小應該大于或等于N。在原有模型的基礎上,進一步加入詞頻信息,建立統計模型,能夠使整個模型粗分結果的召回率有很大提高,模型的運行效率也達到滿意的效果[3]。

數據結構裝填和保存模塊實現了將切分標注后的熟語料文本信息填入數組的功能,此外,還負責數組元素對象中各個成員的修改,數組元素的添加、刪除和數組的存取。

在熟語料的人工修正模塊和生語料的人工處理模塊中,通過交互界面提供的詞類選擇框、主題分類選擇框,可以很方便地實現句子的人工分詞、詞語的人工詞性標注和文件的人工分類等功能。由于效率的要求,這兩個模塊一般利用不多。

2.4 語料庫索引模塊

語料庫索引模塊的結構如圖9所示。

語料庫載入模塊根據用戶的選擇提取某一冊的庫文件,得到語料信息以供處理。指令分析模塊接收用戶發給交互界面的請求,發送指令調用相應的功能模塊進行運作。

F1~F4功能模塊分別實現B+樹索引[4](一種改進的B+樹索引)、詞表生成和語篇統計、分類主題詞提取和詞語搭配分析,獲得的結果由交互界面返回給用戶。

圖9 語料庫索引程序

交互界面接收用戶的請求,發送給指令分析模塊,并將處理結果返回給用戶,用戶對選定分類的庫文件的裝載請求也通過交互界面發送給語料庫載入模塊。此外,它還可將處理結果,如索引、主題詞集保存在計算機磁盤中。

為方便漢語教學,本系統為便捷地使用語料庫信息提供了一些工具,并集中在“語料庫索引模塊”中。

3 結束語

系統地介紹了面向漢語教學漢藏平行語料庫平臺的基本功能、設計思想和實現方法。筆者實現了基于C/S模式的語料庫系統,使用最短路徑分詞方法與全切分分詞方法二者之長處和動態索引樹技術實現對海量語料的各種操作。目前該語料庫已采集了含有904個課文文本文件,約2794445字的語料,并逐步投入到了面向藏族學生的漢語教學和漢藏語言對比的研究中。

[1] 楊惠中.語料庫語言學導論[M].上海:外語教育出版社,2002.

[2] 王長,勝劉群.雙語語料庫的檢索和管理[J].計算機工程與應用,2002,38(7):113-114.

[3] 李文翔,晏蒲柳,夏德麟.基于內容主題的語料庫系統設計與實現[J].計算機應用研究,2004,21(10):149-151.

[4] 徐逸文,方鈺,陳閎中.一種處理B+樹重復鍵值的方法[J].計算機工程,2009,35(5):25-27.

[5] 哈斯.蒙古語語料庫語言資源管理平臺的設計與實現[J].內蒙古師范大學學報(自然科學漢文版),2007,37(6):743-745.

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 色九九视频| 中文字幕日韩视频欧美一区| 久久精品只有这里有| 亚洲精品桃花岛av在线| 国产一区二区精品福利| 欧美色综合网站| 蜜芽国产尤物av尤物在线看| 2022国产91精品久久久久久| 亚洲综合极品香蕉久久网| 一级一级一片免费| 91po国产在线精品免费观看| 色欲不卡无码一区二区| a毛片免费观看| 国产男女免费视频| 精品免费在线视频| 亚洲欧美天堂网| 成人福利在线免费观看| 在线免费无码视频| 亚洲国产精品国自产拍A| 中文国产成人久久精品小说| 内射人妻无码色AV天堂| 99久久精品国产精品亚洲| 免费高清a毛片| 91免费观看视频| 欧美人人干| 欧美国产日产一区二区| 久久香蕉国产线看观看精品蕉| 日韩少妇激情一区二区| 亚洲国产成人自拍| 亚洲精品麻豆| 國產尤物AV尤物在線觀看| 免费一级无码在线网站 | 黄色国产在线| 久久这里只有精品66| 欧美区在线播放| 国产91丝袜在线观看| 亚洲精品国产成人7777| 亚洲精品无码抽插日韩| 亚洲第一色网站| 亚洲精品无码抽插日韩| 久久这里只有精品国产99| 亚洲国产第一区二区香蕉| 亚洲不卡影院| 亚洲制服中文字幕一区二区| 亚洲精品图区| 热99re99首页精品亚洲五月天| 国产精品制服| 色偷偷一区| 一区二区理伦视频| 午夜毛片免费观看视频 | 国产成人综合久久精品尤物| 久久综合九色综合97网| 国产情精品嫩草影院88av| 青青久久91| 99re在线免费视频| 免费观看国产小粉嫩喷水| 国产97公开成人免费视频| 91在线播放国产| 国产亚洲精品资源在线26u| 免费又爽又刺激高潮网址| 91美女视频在线| 国产女人在线观看| 97色婷婷成人综合在线观看| 欧美人在线一区二区三区| 一级黄色片网| 国产97色在线| 亚洲天堂日韩av电影| 成人免费一级片| 人妻无码中文字幕第一区| 国产一区二区丝袜高跟鞋| 欧美激情视频在线观看一区| 亚洲Av激情网五月天| 成年A级毛片| 国产va免费精品| 亚洲精品中文字幕无乱码| AV老司机AV天堂| 国产噜噜在线视频观看| 国产好痛疼轻点好爽的视频| 精品一区二区三区四区五区| 亚洲第一区精品日韩在线播放| 婷婷亚洲综合五月天在线| 色综合中文|