999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預制約束的漢語語音錄入系統

2021-01-13 00:41:35錢小飛
現代語文 2021年12期

錢小飛

摘? 要:基于預制約束,提出一種漢語語音錄入的解決方案。在軟件系統方面,通過定制音系系統,采用大顆粒度語音數據和選擇式錄入方式進行語音錄入,并引入智能的錯誤檢查機制和記憶排序機制,來檢測錯誤和提高錄入效率。在管理系統方面,重視錄入流程管理,制定配套的錄入流程規范來支持高質量錄入。基于預制約束的漢語語音錄入系統,在提高錄入一致性和準確性方面,提供了高效的解決方案。

關鍵詞:漢語語音錄入;預制;約束;流程管理

隨著經驗主義研究的繁榮,語言學研究越來越依賴于大規模真實語言材料的獲取。受益于計算機技術的發展,語法學和語義學研究所需要的大量文本材料比語音材料更容易獲取。語音材料的獲取不僅需要大量的語言調查,高效靈活的錄入也是困擾研究者的主要問題。前人在語音錄入問題上作出了大量的富有成效的工作,如李龍、潘悟云開發了云龍國際音標輸入法,解決了國際音標錄入的問題[1]。海柳文開發了“漢語方言民族語言語音材料處理軟件”,分析處理調查所得的語音數據[2]。程南昌、侯敏開發了同音字匯生成軟件,專門處理同音字表的排序生成[3]。潘悟云設計開發了漢語方言計算機處理系統(TFD),實現了方言材料的輸入與規整、字音查詢、方言音系分析、方言語音處理、方言地圖等功能[4]。上述系統大多是針對方言語音處理的,在一定程度上支持了語音的輸入、編輯和整理工作,為語音錄入的編碼、輸入、檢索、分析提供了便捷的工具。

我們希望在前人工作的基礎上,對語音錄入所存在的一些難點提供解決方案。這些問題主要包括:第一,字符一致性問題。國際音標需要用特殊軟件錄入,對于同一個音標,不同人員以至同一人的錄入都會出現大量差別。第二,音標的錯誤約束問題。在錄入國際音標時,常常會發生錄入錯誤,包括誤刪、誤增等。有些錄入者使用鍵盤和普通輸入法錄入部分國際音標,甚至將一個音標拆分為多個字符,使得看上去類似的“國際音標”符號內部編碼不同,這樣就會造成檢索不全和誤檢現象,降低了數據庫的可用性和準確性。第三,稀疏特征值數據的問題。相近的方言在語音上可能會存在少量區別,卻是語音研究的重要數據。在提供批量修正功能的系統中,容易造成稀疏特征值數據的無意識忽視。第四,字表問題。有時僅依靠所擁有的字表難以預測被調查方言的同音字情況,或者需要在現有字表的基礎上增補語音材料[5],希望先錄入再整理材料,這就需要一種靈活的逐字錄入的方式。基于上述問題,本文提出了一種基于預制約束的語音錄入策略,研制了一個漢語語音錄入系統。

一、研制思路和系統構造

(一)漢語語音錄入系統的研制思路

基于預制約束的漢語語音錄入系統的主要研制思路,是通過支持定制化和規范化的錄入流程管理,來解決錄入過程中的錄入一致性、音標的錯誤約束和稀疏特征值數據問題。具體來說,我們采用基于大顆粒數據的選擇式語音錄入方式,同時引入智能的錯誤檢查機制和記憶排序機制,并通過嚴格的流程管理來保證錄入數據的質量。

(二)漢語語音錄入系統的構造

廣義的漢語語音錄入系統包括軟件系統和管理機制兩個方面。具體來說,軟件系統主要由數據系統、語音錄入系統兩個部分組成,管理機制則由錄入管理規范構成。漢語語音錄入系統結構可如圖1所示:

其中,數據系統是語音錄入系統的操作對象,同時也為語音錄入系統規定參數;錄入管理規范規定了語音錄入系統的錄入規則。狹義的漢語語音錄入系統則專指軟件系統。

二、漢語語音錄入的軟件系統

(一)數據系統

數據系統包括語音數據表庫和元數據系統。數據庫采用Access數據庫,由多個語音數據表組成。數據表是系統存放錄入數據的地方,包括用于初始化的Init數據表和用戶自定義的數據表。每個數據表的數據結構可如表1所示:

元數據系統包括合法的聲韻調數據和非法的聲韻符號,用于提高錄入的效率,進行智能化的錯誤檢測。合法的聲韻調數據存放于List文件夾中,非法的聲韻調符號存放于IllElem文件夾中。這兩組數據默認已經存在,用戶可按照規定格式自行定制和修改內容,由于語音錄入往往需要使用國際音標,數據內容必須使用UNICODE編碼。List文件夾和IllElem文件夾與主程序TPD(Tools for Phonetic Data)位于同一個文件夾下。合法的聲韻調數據文件、非法的聲韻調符號文件分別如表2、表3所示:

(二)語音錄入系統

1.控件注冊

語音錄入系統用于錄入漢語語音,具備了數據庫連接、加載視圖、語音記錄錄入、語音記記錄檢索、語音記錄更新、語音記錄刪除等功能。

在打開語音錄入軟件之前,需要為軟件進行控件注冊,這些控件管理語音數據的顯示。控件注冊可以分為兩種情況:第一種情況,如果系統盤為C盤,雙擊regctrl.bat或regctrl.bat64,彈出注冊成功的窗口后予以確認。第二種情況,如果系統盤不是C盤,拷貝OCX文件夾下的MSADODC.OCX,MSDATGRD.OCX至system32文件夾;點擊開始->運行,在控制臺中輸入regsvr32 msadodc.ocx,按回車,彈出注冊成功的窗口后確認;然后在控制臺中輸入regsvr32 msdatgrd.ocx,按回車,彈出注冊成功的窗口后確認。

注冊好控件之后,雙擊語音錄入軟件TPD.exe打開程序,單擊菜單“語音庫錄入”->“錄入系統”打開錄入系統后,其界面如圖2所示:

2.數據庫連接

語音錄入系統將漢字音節分項錄入數據表,因此,在進行語音錄入之前,首先需要建立一個Access語音數據庫,并在數據庫中建立相應的空數據表。該數據表的結構與Init數據表相同,如表1所示。在進行語音錄入時,首先點擊“載入數據庫”連接數據庫,然后點擊“選擇表”,下拉列表框中的下拉箭頭,選擇該數據庫中的一張數據表。這里以北京官話為例,此時,下方的紅色字體顯示為“連接數據庫成功”。具體如圖3所示:

3.語音數據表視圖

語音數據表視圖可以幫助我們觀察數據表中的已有數據和實時錄入數據情況。第一次載入數據表時,如果數據表中已經存在數據,為保證顯示字段與實際字段相對應,需要核對“ID字段”“韻母字段”“聲母字段”“聲調字段”“單字字段”“注釋字段”的字段名是否與數據表的字段名相對應;如果不對應,可以在相應的下拉列表中選擇更改。點擊“載入視圖記錄”,則左側的語音數據表單顯示數據表中的數據。這些數據是分頁顯示的,點擊“首頁”“上一頁”“下一頁”“末頁”可以跳轉到相應的位置。此外,點擊字體可以設置語音數據表單的顯示字體、大小等格式,所選擇的字體、格式將同時應用于“語音數據表單”和“韻母”“聲母”“聲調”“單字”“注釋”的下拉列表框。語音數據表載入視圖可如圖4所示:

4.預制約束下的語音錄入

預制約束下的語音錄入主要包括三種不同的錄入機制:基于預制的語音錄入、基于約束的語音錄入和記憶排序機制。

基于預制的語音錄入與合法的聲韻調數據文件listYM、listSM、listSD配合使用,在這些元數據文件中分別預制合法的聲、韻、調等數據。具體示例如圖5所示:

在錄入過程中,采用元數據選擇式錄入的方式,只允許在下拉列表中使用預制的元數據,而不允許使用其他即時錄入數據;如果需要修改錄入數據,只能在系統底層修改元數據,原則上不接受界面邊界。相對于國際音標而言,預制的聲韻調數據的顆粒度更大,我們稱之為“基于大顆粒度數據的錄入”,它大大提高了語音錄入的一致性和錄入效率,使得同一個錄入者在不同時間的錄入,以及不同的錄入者的錄入內容基本相同;即使發生錄入錯誤,這些錯誤也是一致的,易于修改的。比如,?和??、t?和?’存在書寫方式的差異,這些差異在錄入的數據中是一致的,易于批量修正。基于大顆粒度的選擇式錄入可如圖6所示:

與預制語音錄入配合使用的是基于約束的語音錄入。為了保證底層元數據的合法性,我們設計了一種約束機制,對錄入錯誤進行定制的智能化的識別。基于約束的語音錄入在系統底層自定義錯誤類別,并在編輯框下拉列表內,選擇相應的預制元數據進行錄入檢查。如果出現與自定義錯誤類別一致的情況,將反饋給錄入人員。對于韻母、聲母、聲調而言,漢字默認是非法選項。約束機制元數據可如圖7所示:

具體來說,在錄入界面,單擊“韻母”“聲母”“聲調”“單字”“注釋”下方編輯框的下拉列表,選擇對應數據,或者輸入對應數據,程序將檢查輸入的合法性。輸入完成后,單擊“添加記錄”按鈕,程序將檢查是否存在重復記錄;如無重復記錄,“語音數據”界面將跳至最后一頁,在尾部添加新記錄。這種逐條錄入的方式可以保證每條記錄都被錄入者關注,防止稀疏特征值數據的無意識疏忽。圖8顯示的是在韻母誤錄入非法字符“/”時的系統反饋。

語音錄入系統還能夠提供記憶排序機制。在輸入第二條記錄時,“編號”“韻母”“聲母”“聲調”下方的編輯框內將保留上一次的輸入信息,“單字”“注釋”編輯框的上一條信息會自動清除。如果不需要記憶上一次的錄入內容,單擊“清空輸入”按鈕,便可以清除“編號”“韻母”“聲母”“聲調”“單字”“注釋”下方編輯框中的信息。“韻母”“聲母”“單字”下拉列表框將保留最近N次的錄入信息以供選擇,并默認N=5,5,3。如果listDZ中錄入了單字表,“單字”下拉列表將從第I個字開始,按照字表順序動態顯示M條信息,這時可以使用左向按鈕和右向按鈕進行調節,并默認I=1、M=10。修改字表后,需要重啟錄入界面。記憶排序機制能協助錄入人員盡可能地利用上一次或前幾次的已錄入信息,大大減少了錄入工作量;同時,也可以使我們利用已有字表進行錄入,既兼顧了錄入的靈活性,又極大地提高了錄入的效率。

5.檢索數據

語音錄入系統同時也提供了檢索功能,以便于查詢、檢查和修正錄入數據。在“編號”“韻母”“聲母”“聲調”“單字”“注釋”下方的編輯框中,輸入待檢索信息,單擊“檢索記錄”按鈕,程序將進行精確檢索,進入檢索視圖。單擊“關閉檢索記錄”,則可以退出檢索視圖。檢索視圖可如圖9所示:

6.更新記錄

更新記錄功能可以在分頁視圖和檢索視圖下進行。在分頁視圖下,單擊“語音數據表單”某條記錄,在“語音數據表單”中修改該記錄的內容,然后單擊“更新記錄”按鈕,即可更新記錄中的數據。在檢索視圖下,單擊“語音數據表單”某條記錄,在“語音數據表單”中修改該記錄的內容,然后單擊“更新檢索記錄”按鈕,即可更新記錄中的數據。如圖9中,可以將??修改為t?。

7.刪除記錄

刪除記錄功能可以在分頁視圖和檢索視圖下進行。在分頁視圖下,單擊“語音數據表單”某條記錄左部游標,當出現黑三角箭頭指向該條記錄時,單擊“刪除記錄”按鈕,即可刪除該條記錄。在檢索視圖下,單擊“語音數據表單”某條記錄左部游標,當出現黑三角箭頭指向該條記錄時,單擊“刪除檢索記錄”按鈕,即可刪除該條記錄。

三、漢語語音錄入的管理機制

我們認為,與語音錄入軟件相比,語音錄入的項目管理機制同樣重要。只有將語音錄入軟件的功能與優質的項目管理結合起來,才能取得令人滿意的錄入效果。而以往的研究卻對此缺乏足夠的重視。漢語語音錄入的管理機制主要包括錄入標準的管理和錄入流程的管理兩個方面。

漢語語音錄入首先應制定錄入的標準。語音錄入的標準主要是在于音系。在多方言或多變體的數據庫中,多個音系之間的符號表示應協調、規范而不沖突、不混淆,以便于檢索結果中的音系符號具有唯一的意義。同時,錄入標準還應包括元數據管理的標準。

我們不僅要在錄入過程中嚴格執行錄入標準,而且還要制定嚴格的流程管理。漢語語音錄入項目的管理流程包括8個步驟:1.項目組成員錄入音系;2.項目負責人審核和統一修正所有音系;3.項目組成員按照音系制定元數據;4.項目負責人審核和統一修正元數據;5.項目組成員進行語音錄入;6.錄入完成后,項目組成員根據錄入數據重新歸納音系;7.項目組成員對比原始音系和錄入音系,復查錄入結果和進行修正,再次歸納音系,直到原始音系和錄入音系相同,或確認新增聲韻調標注無誤;8.項目負責人審核和修正所有錄入結果。

綜上所述,基于預制約束的漢語語音錄入系統,通過支持定制音系系統,采用大顆粒度語音數據、選擇式錄入方式,提高了語音錄入的一致性。同時,引入智能的錯誤檢查機制和記憶排序機制,通過嚴格有效的流程管理,來保證錄入數據的質量,提高錄入數據的效率。我們借助于這套系統,錄入了20個方言點的語音材料,獲得了很好的錄入一致性和非常優質的語音數據,極大地減少了人工復檢率。總體而言,基于預制約束的漢語語音錄入系統與前人開發的錄入系統各有特點,可以相互補充。它在前人研究的基礎上,采用國際音標輸入法錄入大顆粒元數據,借助于預制約束機制和質量管理機制,在解決錄入一致性、提高錄入準確率方面,提供了一種高效的解決方案。

參考文獻:

[1]李龍,潘悟云.國際音標輸入法及其實現[J].語言研究, 2006,(3).

[2]海柳文.漢語方言民族語言語音材料處理軟件設計[J].廣西民族學院學報(自然科學版),2005,(3).

[3]程南昌,侯敏.“方言同音字匯”自動生成軟件的設計及實現[J].中文信息學報,2013,(1).

[4]潘悟云.漢語方言計算機處理系統[DB/OL].http://www.eastling.org/resource.htm,2011-06-11.

[5]李如龍.漢語方言學(第二版)[M].北京:高等教育出版社,2007.

Chinese Speech Input System:Based on Prefabrication and Constraints

Qian Xiaofei

(College of Liberal Arts, Shanghai University, Shanghai 200444, China)

Abstract:A solution to Chinese speech input based on prefabrication and constraint is proposed. In terms of software systems, custom phonological systems, large-granule speech data and selective entry methods are used for voice entry, and intelligent error checking mechanisms and memory ranking mechanisms are introduced to detect errors and improve the efficiency of entry. In the area of management systems, the importance of entry process management has been put forward, and supporting input process specifications have been formulated to support high-quality input. Chinese speech input system based on prefabrication and constraint provides an efficient solution for improving the consistency and accuracy of input.

Key words:Chinese speech input;prefabrication;constraint;process management

主站蜘蛛池模板: 思思99热精品在线| 亚洲最黄视频| 97精品久久久大香线焦| h网站在线播放| 激情综合激情| 国产亚洲视频在线观看| 亚洲欧美一级一级a| 手机在线国产精品| 人妻精品久久无码区| 波多野结衣在线一区二区| 欧美三级日韩三级| 青青久视频| 欧美综合区自拍亚洲综合天堂| 国产极品美女在线观看| 亚洲无码高清免费视频亚洲| 欧美日本在线一区二区三区| 青青草国产在线视频| 亚洲综合18p| 超碰aⅴ人人做人人爽欧美| 91色在线观看| 谁有在线观看日韩亚洲最新视频| 91丝袜美腿高跟国产极品老师| 熟女视频91| 六月婷婷激情综合| 影音先锋亚洲无码| 久热精品免费| 中文国产成人久久精品小说| 一本大道香蕉高清久久| 久久精品中文字幕少妇| 亚洲最新在线| 99久视频| av在线无码浏览| 91九色国产porny| 国产综合色在线视频播放线视| 日本a∨在线观看| 色综合中文| 久久狠狠色噜噜狠狠狠狠97视色 | 亚洲中文精品人人永久免费| 高清无码手机在线观看| 亚洲精品无码专区在线观看| 日本免费精品| 亚洲熟女偷拍| 精品欧美视频| 欧美日韩va| 美女一区二区在线观看| 欧美激情二区三区| 精品剧情v国产在线观看| 国产精品免费久久久久影院无码| 久久国产av麻豆| 91香蕉国产亚洲一二三区| 国产亚洲欧美在线中文bt天堂| 亚洲精品中文字幕无乱码| 精品综合久久久久久97超人| 久久美女精品| 国产成人免费高清AⅤ| 免费人成网站在线观看欧美| 精品国产免费观看一区| 欧美一区二区三区欧美日韩亚洲| 亚洲精品视频免费看| 国产精品美女免费视频大全| 日本在线亚洲| 日本午夜精品一本在线观看| 国产亚洲欧美日韩在线观看一区二区 | 国产精品va| 欧美一区二区三区不卡免费| 国产精品亚洲va在线观看| 精品一區二區久久久久久久網站| 欧美精品1区2区| 99精品国产自在现线观看| 亚洲精品福利视频| 秋霞国产在线| 亚洲欧美不卡视频| 亚洲欧美在线精品一区二区| 孕妇高潮太爽了在线观看免费| 国内精品久久久久鸭| 欧美在线导航| 国产第一页第二页| 40岁成熟女人牲交片免费| 亚洲欧美另类专区| 54pao国产成人免费视频| 亚洲精品久综合蜜| 欧美日韩久久综合|