999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

讓行空板變身為能識別方言的智能音箱

2023-01-30 05:12:02謝作如浙江省溫州中學(xué)
中國信息技術(shù)教育 2023年1期
關(guān)鍵詞:智能模型

謝作如 浙江省溫州中學(xué)

胡君豪 上海人工智能實(shí)驗(yàn)室

● 問題的提出

通過查詢多項(xiàng)AI活動的學(xué)生作品列表可以發(fā)現(xiàn),在當(dāng)前中小學(xué)的AI科創(chuàng)項(xiàng)目中通過訓(xùn)練語音識別模型來解決問題的比較少見,訓(xùn)練出AI模型并部署在開源硬件上的更是鳳毛麟角。究其原因有二:首先是目前計(jì)算機(jī)視覺技術(shù)比較成熟,又有類似OpenMMLab、MMEdu之類的AI工具包,再加上卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型在圖像分類方面表現(xiàn)突出,中小學(xué)的教材中也內(nèi)置了類似圖像識別的案例。其次是全國統(tǒng)一使用普通話,智能音箱的應(yīng)用已經(jīng)遍布千家萬戶,探究語音識別似乎沒有新意。

全國統(tǒng)一使用普通話和智能音箱普及固然是事實(shí),但是這并不等于語音識別不值得探究。我國非北方地區(qū)的大部分老人,做不到像年輕人一樣能夠講一口流利的普通話,他們和智能音箱的對話是困難的。況且,語音識別應(yīng)用雖然隨處可見,但是一些用戶群體較小的方言如溫州話,依然找不到相應(yīng)的AI模型。因此,筆者準(zhǔn)備設(shè)計(jì)一個支持方言識別的智能音箱,讓不會說普通話的弱勢群體也能享受AI的便利。

● 可行性分析

按照深度學(xué)習(xí)的原理和AI科創(chuàng)作品的開發(fā)流程,要完成這個智能音箱項(xiàng)目大致需要進(jìn)行如下工作:

首先,需要一個本地方言的數(shù)據(jù)集,可以在當(dāng)?shù)貓D書館語音庫中尋找,或者自己想辦法找各種有代表性的人錄音形成數(shù)據(jù)集。其次,處理原始音頻并提取特征,之后再搭建神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型。在訓(xùn)練過程中調(diào)整各種超參數(shù),最終得到一個性能可行的模型。最后,選擇一款支持AI模型推理的開源硬件,生成相應(yīng)格式的AI模型并部署。如果語音識別的效果不錯,那么再增加外圍的相關(guān)代碼,如通過麥克風(fēng)采音,識別出語音后執(zhí)行預(yù)設(shè)的指令等。

從整個流程上,最關(guān)鍵的工作是如何處理原始音頻并提取特征和搭建一個怎樣的神經(jīng)網(wǎng)絡(luò),以及如何得到能運(yùn)行在開源硬件上的AI模型,這就需要介紹短時傅里葉變換(short-time Fourier transform,STFT)和ONNX(Open Neural Network Exchange)技術(shù)了。

語音的原始音頻信號是一維的,如果使用原始信號作為輸入數(shù)據(jù),信號長度較長,同時,使用該輸入對應(yīng)的網(wǎng)絡(luò)模型也會很大,更糟糕的是找不到可以參考的直接用一維信號進(jìn)行語音識別的網(wǎng)絡(luò)模型。STFT可以將一維信號變?yōu)槎S信號,該二維信號叫做時頻譜圖,橫坐標(biāo)為時間,縱坐標(biāo)為頻率,顏色深度為對應(yīng)時間和對應(yīng)頻率的大小。如圖1所示,變換后的信號就等同于一張圖像,那么語音分類問題就等同于圖像分類問題了。MMEdu中內(nèi)置了很多圖像分類的輕量型卷積神經(jīng)網(wǎng)絡(luò),如ResNet、MobileNet等,借鑒或者直接使用就能訓(xùn)練模型了。

圖1 波形信號轉(zhuǎn)化為時頻譜圖

在本欄目上一期的文章中,筆者已經(jīng)完成了將ONNX模型部署在行空板上。ONNX是一種通用的AI模型,支持多平臺,推理環(huán)境搭建非常方便,是部署AI應(yīng)用的主流選擇。MMEdu支持直接導(dǎo)出ONNX模型,新版的行空板也內(nèi)置了ONNX的推理環(huán)境。

● 從數(shù)據(jù)采集、網(wǎng)絡(luò)搭建到模型訓(xùn)練

1.語音數(shù)據(jù)集的采集和特征提取

通過圖書館、溫州當(dāng)?shù)氐拇髷?shù)據(jù)開放平臺,都沒有找到溫州話的語音庫,只好采用最笨也是最踏實(shí)的辦法——手動采集。筆者找會溫州話的學(xué)生錄制了近300條音頻文件,再通過SpecAugment(自動語音識別數(shù)據(jù)擴(kuò)充)的方法進(jìn)行數(shù)據(jù)集增強(qiáng),得到1520個訓(xùn)練數(shù)據(jù)和520個測試數(shù)據(jù)。

有了音頻文件后,再通過librosa、numpy和Pillow庫以STFT的方法,將這些音頻文件轉(zhuǎn)換為一張張圖片,然后按照ImageNet的格式做成數(shù)據(jù)集。核心代碼可參考圖2所示的代碼。

圖2

2.神經(jīng)網(wǎng)絡(luò)的搭建

目前,MMEdu已經(jīng)在圖像分類方面內(nèi)置了5種SOTA(state-ofthe-art,指最先進(jìn)的、最新技術(shù)水平的)模型。經(jīng)過再三比較,筆者選擇Resnet18作為最終模型,原因如下:

高精度。ResNet18以其在圖像分類任務(wù)上的高精度而著稱,對于時頻譜圖的分類,ResNet18的表現(xiàn)超過了其他模型。

模型大小合適。與其他卷積神經(jīng)網(wǎng)絡(luò)CNN相比,ResNet18模型適中,推理速度較快,這使得它的訓(xùn)練和部署效率更高。

可遷移學(xué)習(xí)。由于ResNet18已經(jīng)在大型圖像數(shù)據(jù)集上進(jìn)行了訓(xùn)練,因此可以將其用作遷移學(xué)習(xí)的起點(diǎn)。如果想提高其在特定任務(wù)上的性能,僅僅需要在自己的數(shù)據(jù)集上對其進(jìn)行微調(diào)。

3.網(wǎng)絡(luò)模型的訓(xùn)練

完成一個AI模型的訓(xùn)練需要經(jīng)歷多個步驟,收集并整理好數(shù)據(jù)集是基礎(chǔ),接下來的工作是搭建ResNet18模型,再使用官方的預(yù)訓(xùn)練權(quán)重文件作為遷移學(xué)習(xí)的“范本”。至于代碼倒很簡單,MMEdu的模型訓(xùn)練代碼是公式化的,僅需幾行即可完成對預(yù)訓(xùn)練ResNet18網(wǎng)絡(luò)的遷移學(xué)習(xí)。參考代碼如圖3所示。

圖3

需要說明的是,執(zhí)行上述的代碼需要下載ResNet18模型的預(yù)訓(xùn)練權(quán)重文件。該文件MMEdu一鍵安裝包中已經(jīng)內(nèi)置。另外,因?yàn)槭腔陬A(yù)訓(xùn)練模型的遷移學(xué)習(xí),只要5輪左右就能得到不錯的識別效果,使用OpenInnoLab的GPU容器,訓(xùn)練一輪大概需要30多秒,也就是說數(shù)分鐘內(nèi)即可訓(xùn)練好這個模型。

在完成訓(xùn)練后,借助MMEdu的“convert”方法就能導(dǎo)出ONNX格式模型,代碼(僅僅一行)如下:

● 在行空板上部署AI模型

行空板自帶麥克風(fēng)和觸控屏,只要加一個小音箱就可以做智能音箱的項(xiàng)目,當(dāng)然也可以用行空板的藍(lán)牙功能接任意一個藍(lán)牙音箱。筆者希望這個智能音箱不用聯(lián)網(wǎng)也能識別語音,也就是說從音頻采集到模型推理的一系列工作都是在行空板上完成的。因?yàn)樯磉叺男锌瞻暹€不是最新固件,需要安裝一些額外的Python庫,如librosa、pyaudio和onnxruntime等。前兩個針對音頻信號處理,最后一個用于運(yùn)行ONNX模型。

筆者最終的設(shè)計(jì)是用行空板完成一個用溫州話短語控制智能家居的助手項(xiàng)目,其工作流程圖如圖4所示。

圖4 智能方言小助手工作流程

當(dāng)然,這個項(xiàng)目還需要增加“錄音”“界面設(shè)計(jì)”之類的代碼。最終代碼在行空板上的運(yùn)行結(jié)果如圖5所示。

圖5 實(shí)物運(yùn)行

●總結(jié)

鑒于在中小學(xué)很少看到語音識別方面的AI科創(chuàng)研究,筆者設(shè)計(jì)了這個智能音箱的項(xiàng)目。本項(xiàng)目的最大啟示在于,語音分類的問題通過特定的特征處理后,也能夠轉(zhuǎn)換為圖像分類問題,只要擁有相應(yīng)的語音數(shù)據(jù),就能通過卷積神經(jīng)網(wǎng)絡(luò)解決各種模式識別方面的問題。還有AI模型訓(xùn)練和硬件是沒有直接關(guān)聯(lián)的,如這個項(xiàng)目訓(xùn)練的模型,除了行空板外,還可以直接部署在沖鋒舟、虛谷號、樹莓派和香橙派等硬件上。

猜你喜歡
智能模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
3D打印中的模型分割與打包
主站蜘蛛池模板: 女人18一级毛片免费观看| 国内精品手机在线观看视频| 国产美女自慰在线观看| 国产第一色| 欧美区在线播放| 幺女国产一级毛片| 九九视频免费在线观看| 国产午夜精品一区二区三| 欧美午夜在线播放| 国产福利免费在线观看 | 无码人中文字幕| 谁有在线观看日韩亚洲最新视频| 国产精品永久不卡免费视频| 国产成人你懂的在线观看| 久久中文字幕2021精品| 亚洲日韩精品欧美中文字幕| 色哟哟国产精品| 亚洲天堂网在线播放| 99热在线只有精品| 免费aa毛片| 国产91视频免费| 欧美三级不卡在线观看视频| 国产中文在线亚洲精品官网| 国产SUV精品一区二区6| 欧洲日本亚洲中文字幕| 欧美伦理一区| 一区二区在线视频免费观看| 亚洲熟女中文字幕男人总站| 久久久精品久久久久三级| 毛片最新网址| 夜夜爽免费视频| 特级aaaaaaaaa毛片免费视频| 欧美日韩在线亚洲国产人| 亚洲成人动漫在线观看| 国产理论一区| 无码中文字幕乱码免费2| 国产男女免费视频| 一区二区午夜| 中文字幕在线观| 国产欧美一区二区三区视频在线观看| 国产99视频免费精品是看6| 区国产精品搜索视频| 乱人伦99久久| 久久久久久久久亚洲精品| 国产Av无码精品色午夜| 国产亚洲精久久久久久无码AV | 国产视频一二三区| 波多野结衣第一页| 亚洲天堂日韩在线| 国产成人区在线观看视频| 91精品免费久久久| 亚洲av色吊丝无码| 国产美女在线观看| 99精品一区二区免费视频| 麻豆国产精品| 亚洲成人网在线播放| 亚洲人成色在线观看| 一级毛片无毒不卡直接观看| 国产精品一区二区不卡的视频| 亚洲成在人线av品善网好看| 五月婷婷综合网| 亚洲最猛黑人xxxx黑人猛交| 青青青国产在线播放| 久青草国产高清在线视频| 国产资源免费观看| 亚洲一区二区三区在线视频| 四虎精品国产AV二区| 亚洲综合色区在线播放2019| 亚洲第一视频免费在线| 欧美区日韩区| 久久伊人久久亚洲综合| 国产美女免费| 日本少妇又色又爽又高潮| 九一九色国产| 亚洲日韩在线满18点击进入| 亚洲 欧美 日韩综合一区| 97狠狠操| 97成人在线视频| 欧美va亚洲va香蕉在线| 91福利在线观看视频| 成人va亚洲va欧美天堂| 欧美一区二区三区不卡免费|