摘要:每年的國家普通話測試,都留下普通話測試的相關信息。為了有效利用這些信息,建立了普通話測試語音信息庫,實現了信息錄入、信息查詢、數據統計、權限管理等多種功能。為了實現最小到音節的錄音語料查詢,信息庫利用HTK進行音頻文件的自動切分處理。普通話測試語音信息庫可方便地用于包括測試錄音語料在內的各種資料的調用和各種關聯數據的統計。
關鍵詞:普通話測試;語音信息庫;信息查詢;設計與實現
0 引言
分析利用普通話測試信息,可以了解不同背景人群習說普通話的規律和特點,了解普通話各種語音單元的實際發音狀況,了解普通話測試的具體實施情況。在普通話語音特征研究、普通話教學改進與完善、普通話測試方法的科學與智能化發展等方面,普通話測試信息是不可多得的資料。有效地利用普通話相關測試信息,對掌握普通話推廣工作的形勢,加快普通話推廣進程,加強全國各地區各民族人民的交流與交往,促進和諧社會的發展都具有十分重要的意義。
一般情況,普通話測試信息被分成幾種形式保存:現場錄音語料為音頻資料,專家評定的分數為紙質試卷,考生及管理信息則多為電子信息。其中,音頻資料和試卷查閱起來比較困難,錄音、分數和其他不同形式的信息之間的關聯查詢更為不易。此外,信息利用和隱私保護之間的矛盾也難以協調。
為了更好地利用和保護普通話測試信息,有必要建立普通話測試語音信息庫。……