999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

畬族語音交互平臺技術研究

2018-06-06 09:25:55宋金淼王楠楠竇浩鵬大連民族大學大連市民族文化數(shù)字技術重點實驗室文科綜合實驗教學中心遼寧大連116605
大連民族大學學報 2018年3期
關鍵詞:語言系統(tǒng)

宋金淼,王楠楠,竇浩鵬,周 未(大連民族大學 .大連市民族文化數(shù)字技術重點實驗室;b.文科綜合實驗教學中心,遼寧 大連116605)

中國是一個多民族大雜居小聚居的國家,各族人民在長期生產(chǎn)生活中創(chuàng)造了各具特色的民族文化,畬族口傳文化是中國民族文化最具代表性的內(nèi)容之一,畬族民間口傳文化相當豐富,如畬族神話、故事、民歌、民謠等。作為有語言無文字的民族,語言的保護尤為重要。畬族語音交互平臺包括畬族文化研究、畬語采集方案設計與語音處理研究、媒體播放技術、移動應用設計與開發(fā),網(wǎng)絡服務接口與數(shù)據(jù)交換等技術,實現(xiàn)畬族語言教學、文化保護與傳承功能。

1 畬族語言研究和信息化進展

畬族是中國東南地區(qū)古老民族之一,主要聚居在福建、浙江、江西、廣東、安徽等省份。畬族內(nèi)部交流使用本民族語言,與其它民族交流使用聚居地方言或普通話。由于社會的發(fā)展,會使用本民族語言的人越來越少,畬族使用本族語的人數(shù)比例為0.15%,而轉用其他語言的人數(shù)比例占99.74%[1]。文獻[2]以移動終端作為民族語言學習的工具,利用HTML5網(wǎng)頁在移動終端上顯示,解決了大多數(shù)民族語言在移動終端上的顯示問題,但受網(wǎng)絡因素制約會出現(xiàn)數(shù)據(jù)加載遲緩問題。文獻[3]實現(xiàn)了多界面的連接和界面多內(nèi)容的滑動顯示藏漢雙語,并且成功輸出對應藏文的音頻,但軟件平臺屬于單機應用靈活性和擴展性不足。目前擁有民族語言文字信息化處理平臺較少,能把畬語與信息化平臺相融合的更少。此外,在互聯(lián)網(wǎng)方面淘寶網(wǎng)上畬族商品只有10余種不重復的商品,關于畬語語音方面則是更少;在互聯(lián)網(wǎng)娛樂媒體中,優(yōu)酷上畬族視頻僅有2 000個,其中高清和超清視頻總共僅有1 330個;在手機軟件方面,蘋果APP與畬語語音相關的數(shù)量為0,Android應用商店里與畬語語音相關的APP數(shù)量為0。從目前來看,畬族文化遺產(chǎn)保護工作進展緩慢,針對畬族語言文化研究工作嚴重滯后,把畬族語言研究與日益發(fā)展的技術融合的工作亟待推進。

2 畬族語料數(shù)據(jù)庫構建

建立畬語口語語料庫是瀕危語言畬語數(shù)字化保護基礎性工程。建立畬語口語語料庫,一方面能夠實現(xiàn)對畬語的搶救與永久性保存,另一方面它能夠為后續(xù)研究語音識別技術提供有力可靠的數(shù)據(jù)基礎。經(jīng)過對撫州畬族聚居地實地走訪調研畬族語言語音文化,研究多媒體數(shù)據(jù)庫設計與管理的相關資料,選調本族群人和語言專家進行漢語的轉譯,最終收集整理畬族語音資料包括采集的初選畬語口語語料、對畬語語料進行的口語發(fā)音的國際音標標注、漢語對譯標注和漢語翻譯標注資料。原始畬語口語語料預處理是整個工作內(nèi)容的基礎,包括三個方面的內(nèi)容:語料的標注與轉寫、語料校驗以及語料的更新與存儲,畬語口語語料的處理總體流程如圖1。

圖1 畬語口語語料處理總體流程圖

首先,原始口語語料的標注與轉寫這個過程是由畬族人與語言專家共同完成的,將原始口語語音語料的音頻文件導入到軟件中,對語音進行切分。建立轉寫標注層,包括音標、畬語標注語料對譯、畬語標注語料翻譯、畬語-語法標注、畬語-語法備注,此部分工作由人工轉寫與標注。然后利用軟件對音頻格式的語料進行轉碼,轉換為國際通用編碼格式,設定奇數(shù)行為畬語-國際音標,偶數(shù)行為畬語標注語料對譯,利用計算機編程實現(xiàn)句子之間的分離,人工按照順序進行一一對應地學習與校驗。最后,將語料的更新與存儲存在的問題進行反饋,由母語人和語言專家將標注轉寫的語料內(nèi)容中的任何漏標、誤標、多標、標注不統(tǒng)一等情況進行修正更新,形成了一套完整無誤的畬語口語語料,將畬語口語語音音頻文件以及畬語口語標注轉寫語料文件進行存儲到數(shù)據(jù)庫中。

3 語音信號處理

由于采集到的原始語音信號帶有噪聲,直接使用不利于平臺用戶學習體驗,需要進一步降噪處理,語音信號降噪前需要對原始語音信號頻譜分析和濾波。本文選擇快速傅里葉變換方法進行頻譜分析和用雙線性變換法設計的低通濾波器,具體實現(xiàn)通過MATLAB工具箱提供的函數(shù)完成。

本文選擇基于語音激活性檢測的噪聲估計算法作為噪聲估計方法,主要關注語音背景噪聲特性和無音語音段檢測。語音活性檢測一般基于語音幀處理,具體可以概括為:從輸入信號中提取一個或一系列的對比特征參數(shù),然后將其和一個或一系列的門限閾值進行比較。如果大于門限閾值則表示當前為有音段,否則就表示當前為無音段。基于信號的短時能量檢測具體算法如下:

Step1:定義短時平均幅度函數(shù)來表征一幀語音信號的能量大小為

(1)

式中:N為幀長;n為幀的編號;m為每一幀中的各點;median為每一幀幀向量的中位數(shù);1≤n≤L,L為幀數(shù)。

Step2:L幀平均噪聲能量Em。

Step3:求能量最大值和能量最小值。

Emax=maxE(n),n=1,2,…,L,

(2)

Emin=mixE(n),n=1,2,…,L。

(3)

Step4:根據(jù)式(4)確定門限,

T=min[0.25(Emax—Emin),3Em]。

(4)

最后使用譜減法處理語音噪聲。譜減法就是從輸入信號的幅度譜中減去估計得來的噪聲平均的幅度譜,其效果相當于在變換域對帶噪信號進行了某種均衡化處理。

4 畬族語音交互平臺系統(tǒng)設計

畬族語言文化數(shù)字化系統(tǒng)是一套轉譯畬語設備和軟件的集合,它具有畬語數(shù)字化傳輸和存儲,資源共享,操作人性化等特點和優(yōu)勢。本論文對畬族語言數(shù)字化系統(tǒng)的整體方案進行了分析和研究,解決了語言學習終端存在的數(shù)據(jù)傳輸,流媒體等方面的技術難題。

4.1 服務程序接口設計與數(shù)據(jù)交換

本平臺主要采用C/S模式,服務器端利用Visual Studio 2017搭建的Web Services為其他接入終端提供遠程訪問數(shù)據(jù)接口;終端設備則利用Wifi或移動信息號網(wǎng)絡訪問服務器端提供的數(shù)據(jù)接口來獲取有效數(shù)據(jù)信息,系統(tǒng)業(yè)務模型如圖2。畬族語音交互平臺在數(shù)據(jù)的傳輸過程中對數(shù)據(jù)進行AES對稱加密,保證數(shù)據(jù)的安全。系統(tǒng)在數(shù)據(jù)交換過程采用消息異步通信方式,提高數(shù)據(jù)響應速率與用戶體驗。Web Services提供統(tǒng)一格式數(shù)據(jù)交互接口,其他系統(tǒng)通過接口協(xié)議與平臺進行數(shù)據(jù)交換,在人機交互過程中消息流不會被復雜的內(nèi)部網(wǎng)絡操作流所攔截,保證了系統(tǒng)整體的設計與架構的穩(wěn)定性。接口程序編寫采用XML協(xié)議封裝數(shù)據(jù)用以在因特網(wǎng)上傳輸,使用SOAP協(xié)議來實現(xiàn)訪問服務,使得服務接口具有良好的封裝性和松散耦合。對于使用者而言,只能看到服務的描述,對與調用者來說,服務接口實現(xiàn)的任何操作都是透明的[4]。平臺整體架構采用分層設計,數(shù)據(jù)的交互不會對原有業(yè)務系統(tǒng)的功能和業(yè)務操作產(chǎn)生任何影響,邏輯層定義系統(tǒng)訪問接口、數(shù)據(jù)交換方式和業(yè)務需求邏輯,各個功能模塊封裝成服務接口發(fā)布供表示層和其他需要數(shù)據(jù)交換的業(yè)務系統(tǒng)或平臺調用,采用分層設計和接口交互方式使得系統(tǒng)具有良好的可擴展性和可維護性。

圖2 服務程序設計與數(shù)據(jù)交換流程圖

4.2 平臺設計與示例

畬族語音交互平臺分為移動APP、web servers應用服務接口系統(tǒng)、語音文件處理系統(tǒng)三部分。利用錄音采集平臺收集原始畬族語言語音文件,通過語音文件處理系統(tǒng)完成語音詞語和短句分割、語音語料庫構建、降噪等處理,再使用網(wǎng)絡通信與服務器進行數(shù)據(jù)交互,移動APP對數(shù)據(jù)進行封裝和組織呈現(xiàn)。畬族語音交互平臺界面如圖3。平臺提供畬語學習、畬族習俗、畬音唱響三部分功能,其中畬語學習模塊包括八個類別詞語和一個類短句,畬族習俗模塊分為畬族歷史介紹、畬族服飾、畬族風情3個子模塊,畬音唱響模塊提供畬族代表民歌、兒歌等口傳藝術欣賞,另外,為了方便用戶學畬族語言設計了語速、音量調節(jié)和播放與停止功能。

圖3 畬族語音交互平臺部分界面展示圖

5 結 語

本文介紹了語音處理技術、網(wǎng)絡通信技術和移動開發(fā)技術在民族語言文化方面的應用研究。由于語音技術在少數(shù)民族文化研究工作中的應用剛剛起步,具體研究技術和方法有限,本文相關成果對今后民族語言語音數(shù)字處理、語言知識網(wǎng)絡的語料庫構建具有參考作用,對畬族語言文化數(shù)字化保護與傳承有促進作用。由于當前采集詞語和句子的語音數(shù)量有限,在以后工作中增加語料庫內(nèi)容逐漸擴展成為多民族語言語音學習系統(tǒng),從而進一步提高應用系統(tǒng)受眾性。

參考文獻:

[1] 趙峰. 閩東畬語瀕?,F(xiàn)狀考察[J]. 長春工程學院學報(社會科學版), 2009, 10(1):75-78.

[2] 劉錦,周喜,張巖.基于 Android平臺的維-漢雙語顯示和播放方法[J]. 計算機應用與軟件,2014,31(7):241-244.

[3] 榮再輝, 許寧, 漆婉春. 基于Android平臺的藏漢雙語學習軟件的研究與實現(xiàn)[J]. 西藏科技, 2015(12):75-77.

[4] 范華峰. 基于Web Services的數(shù)據(jù)交換平臺的設計與實現(xiàn)[D]. 南京:南京大學, 2010.

猜你喜歡
語言系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
基于PowerPC+FPGA顯示系統(tǒng)
半沸制皂系統(tǒng)(下)
讓語言描寫搖曳多姿
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
多向度交往對語言磨蝕的補正之道
累積動態(tài)分析下的同聲傳譯語言壓縮
主站蜘蛛池模板: 国产鲁鲁视频在线观看| 日韩天堂在线观看| 无码中文字幕乱码免费2| 永久天堂网Av| 这里只有精品在线播放| 久久综合九九亚洲一区| 亚洲欧美另类专区| 国产成人综合日韩精品无码不卡| 久久国产香蕉| 欲色天天综合网| 国产精品自在在线午夜| 国产中文在线亚洲精品官网| 色综合天天操| 久久窝窝国产精品午夜看片| 中文字幕永久在线观看| 黄片一区二区三区| 亚洲av日韩av制服丝袜| 国内熟女少妇一线天| 国产青青操| 8090午夜无码专区| 精品撒尿视频一区二区三区| 国产欧美日韩18| 91九色视频网| 国产91精品久久| 青草午夜精品视频在线观看| 日本一区二区三区精品视频| 久久香蕉欧美精品| 狠狠色狠狠色综合久久第一次| 欧美日韩午夜| 国产小视频在线高清播放| 19国产精品麻豆免费观看| 五月天综合婷婷| 欧洲av毛片| 国产在线第二页| 全免费a级毛片免费看不卡| 热九九精品| 在线看片国产| 国产黄在线观看| 国产99视频免费精品是看6| 极品国产一区二区三区| 亚洲无码视频一区二区三区| 久久一级电影| 在线观看欧美精品二区| a级毛片免费在线观看| 国产午夜一级毛片| 日本人妻一区二区三区不卡影院| 一本大道无码高清| 日韩精品无码免费专网站| 亚洲成人在线网| 亚洲最黄视频| 欧美成人免费| 亚洲人成影视在线观看| 蜜桃臀无码内射一区二区三区 | 欧美日韩国产系列在线观看| 野花国产精品入口| 激情无码字幕综合| 日韩性网站| 欧美日本二区| 亚洲首页在线观看| 蜜芽国产尤物av尤物在线看| a级毛片免费看| 91po国产在线精品免费观看| 国产成人狂喷潮在线观看2345| 成人福利一区二区视频在线| 成年人午夜免费视频| 国产成人精品高清不卡在线| 亚洲中文字幕精品| 亚洲人成网站观看在线观看| 亚洲日韩精品伊甸| 亚洲福利一区二区三区| 中国精品久久| 国产第三区| 天天综合色天天综合网| 在线免费亚洲无码视频| 国产视频欧美| a毛片在线播放| 国产成人精品免费视频大全五级| 亚洲人成网站在线观看播放不卡| www.国产福利| 久久综合亚洲色一区二区三区| 亚洲精品老司机| 五月天香蕉视频国产亚|