999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種網(wǎng)絡(luò)多模態(tài)語料庫構(gòu)建方法

2018-11-19 11:05:40
軟件導(dǎo)刊 2018年11期
關(guān)鍵詞:模態(tài)文本

張 曉

(伊犁師范學(xué)院 電子與信息工程學(xué)院,新疆 伊寧 835000)

0 引言

語料庫作為大數(shù)據(jù)的一部分,目前已廣泛應(yīng)用于社會(huì)各個(gè)領(lǐng)域[1-6]。由于語料數(shù)據(jù)的特殊性,語料庫建設(shè)周期往往較長。雖然目前一些語料庫建設(shè)中能夠通過爬蟲等技術(shù)自動(dòng)獲取所需語料信息[7-11],但對(duì)于一些瀕危語言或網(wǎng)絡(luò)信息量本來就很少的語言或方言,能爬取的內(nèi)容則相對(duì)較少,所以此類語料庫建設(shè)仍然需要語言工作者通過人工完成。此外,對(duì)爬蟲算法性能的檢測(cè)也需要標(biāo)準(zhǔn)庫的支持。

目前語料庫根據(jù)語料類型可分為兩類,一類是單模態(tài)語料庫,另一類是多模態(tài)語料庫。單模態(tài)語料即為純文本語料,此類語料庫相對(duì)簡(jiǎn)單,利用傳統(tǒng)的語料庫工具即可實(shí)現(xiàn)。因其語料為純文本形式,所以利用XML類的文本標(biāo)記語言很容易實(shí)現(xiàn)網(wǎng)絡(luò)化[12-14];另一類為多模態(tài)語料庫。多模態(tài)語料庫將音頻、視頻及文字語料等多種信息加以集成,研究者可通過多模態(tài)方式對(duì)其進(jìn)行加工、檢索與統(tǒng)計(jì)[15]。由于多模態(tài)語料庫較為復(fù)雜,在建的語料庫大多為單模態(tài)語料庫[16-18]。目前與語料庫建設(shè)相關(guān)的工具軟件也比較多,如Transcriber、ELAN、Praat等,但語料庫作為大數(shù)據(jù)非常重要的一部分,對(duì)其進(jìn)行網(wǎng)絡(luò)化已是必然趨勢(shì)[19-20]。目前多模態(tài)語料庫的網(wǎng)絡(luò)化仍需要基于數(shù)據(jù)庫技術(shù)實(shí)現(xiàn)[21-23],這對(duì)于從事語料庫建設(shè)的語言工作者而言是十分困難的,因而導(dǎo)致網(wǎng)絡(luò)語料庫建設(shè)進(jìn)展緩慢。本文將介紹一種網(wǎng)絡(luò)多模態(tài)語料庫建設(shè)方法,其不需要非常專業(yè)的計(jì)算機(jī)技術(shù)支持即可完成,從而使后期語料庫資源擴(kuò)充及維護(hù)工作量大幅下降。本文采用的基本功能軟件有:音頻編輯軟件、語料轉(zhuǎn)寫標(biāo)注軟件、語檔創(chuàng)建工具軟件,分別推薦使用Audacity、Excel與Sonicfield。

1 功能軟件簡(jiǎn)介

1.1 Sonicfield

Sonicfield也稱為聲飛,是暨南大學(xué)漢語方言研究中心研發(fā)的一款免費(fèi)語言調(diào)查與建檔工具,其支持錄音、注音、多媒體網(wǎng)頁語檔創(chuàng)建等功能,是一款小巧實(shí)用的功能軟件。與其它軟件相比,其優(yōu)勢(shì)在于對(duì)字、詞、句語料的采錄與處理,且操作簡(jiǎn)單,易于掌握。軟件主要功能有:新建或?qū)胝{(diào)查表、條目錄音與轉(zhuǎn)寫、提取詞表及句表、輸出網(wǎng)頁、創(chuàng)建語料庫等。

1.2 Audacity

Audacity是一款跨平臺(tái)的免費(fèi)、開源聲音編輯軟件,可從其官方網(wǎng)站下載https://www.audacityteam.org/download/。Audacity具有錄音、音頻編輯、電子音樂制作等功能,可在Windows、Mac、GNU / Linux及其它操作系統(tǒng)上運(yùn)行,支持多種文件格式,如:WAV、AIFF、AU、IRCAM、MP3及Ogg Vorbis等。軟件功能較為強(qiáng)大,包括:環(huán)境噪聲與人聲音量測(cè)定、降噪、剪輯、碎片音頻導(dǎo)出、格式轉(zhuǎn)換等。在應(yīng)用這些軟件之前需準(zhǔn)備好語料的文本部分,包括少數(shù)民族語言/方言文本,若因語言的書寫方向或其它原因無法直接使用,還應(yīng)準(zhǔn)備對(duì)應(yīng)的轉(zhuǎn)寫文本。另外還可根據(jù)需要準(zhǔn)備國際音標(biāo)、漢語拼音等素材。

2 實(shí)現(xiàn)流程

語料庫建設(shè)基本流程通常包括以下幾個(gè)階段:腳本征集編寫階段、音視頻采集階段、轉(zhuǎn)寫標(biāo)注階段、語料庫生成階段。語料庫的有聲語料包括單字錄音、詞匯錄音、句子錄音、話語錄音4大類[24]。

第一階段最終需給出符合一定規(guī)范要求的腳本,并根據(jù)需要給出轉(zhuǎn)寫及標(biāo)注文本;第二階段需對(duì)這些腳本進(jìn)行音視頻采集。在語料采集前應(yīng)填寫相應(yīng)的記錄資料存檔表及發(fā)音合作人基本情況表[25]。為了使語料庫將來能作為語音標(biāo)準(zhǔn)數(shù)據(jù)庫用于語音識(shí)別、檢測(cè)等,對(duì)于字、詞、句的發(fā)音人,若有條件應(yīng)選擇以本民族方言為母語的播音員。對(duì)于發(fā)音人性別的選擇,從應(yīng)用效果看,女聲比男聲更加清晰,且更具有親和力[26];第三階段的語料轉(zhuǎn)寫是指呈現(xiàn)能夠通過感官直接觀察到的語料信息,而標(biāo)注則是根據(jù)研究者從事何項(xiàng)研究、采用何種理論而對(duì)語料信息進(jìn)行選擇性地加工與呈現(xiàn),是將信息轉(zhuǎn)化為數(shù)據(jù)的過程[15]。選取合適的工具軟件,實(shí)現(xiàn)對(duì)媒體文件的轉(zhuǎn)寫標(biāo)注,并給出標(biāo)注文件;第四階段將得到的所有標(biāo)注文件及文檔組織成語料庫。

本文將重點(diǎn)介紹利用Audacity、Sonicfield與Excel創(chuàng)建網(wǎng)絡(luò)多模態(tài)語料庫的詳細(xì)過程。因第一與第二階段不是本文主要內(nèi)容,在此不作過多闡述。

2.1 轉(zhuǎn)寫標(biāo)注

語料庫建設(shè)過程中的一個(gè)重要階段就是轉(zhuǎn)寫標(biāo)注。在得到轉(zhuǎn)寫標(biāo)注文本后,發(fā)音人需要對(duì)其進(jìn)行錄音或錄像,生成媒體文件,下一步即對(duì)媒體文件進(jìn)行轉(zhuǎn)寫標(biāo)注。目前已有ELAN、Praat、EXMARalDA等轉(zhuǎn)寫標(biāo)注工具,因后期Sonicfield可支持的導(dǎo)入文件類型很多,如EXMARalDA、ELAN、Audacity標(biāo)記、Sonicfield XML及Excel文件等,這里使用最熟悉的Excel文件進(jìn)行導(dǎo)入。以下以錫伯語語料庫為例進(jìn)行說明。

對(duì)錫伯語進(jìn)行三層標(biāo)注,分別是錫伯語的拉丁轉(zhuǎn)寫、國際音標(biāo)與普通話翻譯。對(duì)于以下詞匯內(nèi)容,只需按列導(dǎo)入到Excel中即可,列標(biāo)題分別為編碼、民族文字、國際音標(biāo)和條目。

編碼民族文字國際音標(biāo)條目1dededd阿姨2heerremxεrm愛3pakaphakha矮

需要說明的是,因Excel中的數(shù)據(jù)將作為后期Sonicfield的數(shù)據(jù)源,因此其列標(biāo)題定義要與Sonicfield中的定義相符,而且其中必須有編碼與條目,且編碼不能重復(fù)。

2.2 音視頻文件切分

本文使用Audacity進(jìn)行錄音文件切分,具體步驟如下:

(1)用Audacity打開錄音文件,執(zhí)行“軌道”菜單中“增加新軌道”下的“標(biāo)記軌”命令,將會(huì)在聲波下方增加一個(gè)新軌道——“標(biāo)記軌”。用鼠標(biāo)選擇需要切分的音段,執(zhí)行“編輯”菜單中“標(biāo)記”命令下的“為選區(qū)添加標(biāo)記”操作(快捷鍵Ctrl+B),在編輯區(qū)寫入標(biāo)記,按“回車”確定,如圖1所示(注:這里的標(biāo)記應(yīng)與Excel中的編碼相同,并與之一一對(duì)應(yīng))。

圖1 添加標(biāo)記

(2)執(zhí)行“文件”菜單中“導(dǎo)出”命令下的“導(dǎo)出多個(gè)文件”選項(xiàng),選擇輸出路徑、輸出格式等,“命名文件”選擇默認(rèn)選項(xiàng)。對(duì)每個(gè)導(dǎo)出都作出提示,完成后提示總共導(dǎo)出的文件數(shù)。

2.3 網(wǎng)絡(luò)語料庫建設(shè)

網(wǎng)絡(luò)語料庫建設(shè)需要經(jīng)過以下兩個(gè)步驟:網(wǎng)頁文件生成與語料庫組織發(fā)布。

2.3.1 網(wǎng)頁文件生成

網(wǎng)頁文件的生成方法很多,如使用EXMARaLDA生成網(wǎng)頁文件等[27],本文采用Sonicfield進(jìn)行文件生成。

在前期使用Excel生成轉(zhuǎn)寫文件,利用聲飛Sonicfield“文件”菜單下的“導(dǎo)入”命令導(dǎo)入Excel文件;導(dǎo)入成功后,錄音狀態(tài)顯示為“未錄”,此時(shí)執(zhí)行“選項(xiàng)”菜單下的“錄音模式”命令,選擇“導(dǎo)入錄音”下拉列表框里的“按編號(hào)批量導(dǎo)入”,找到Audacity導(dǎo)出的文件路徑,選擇所有要導(dǎo)入的文件(Ctrl+A),點(diǎn)擊“打開”,出現(xiàn)導(dǎo)入進(jìn)程條;當(dāng)導(dǎo)入結(jié)束時(shí),“錄音狀態(tài)”變?yōu)椤耙唁洝保鐖D2所示。

圖2 聲飛導(dǎo)入轉(zhuǎn)寫文件后頁面

另外,如果錄音過程尚未完成,可在導(dǎo)入轉(zhuǎn)寫文件后,請(qǐng)發(fā)音人在錄音模式下再進(jìn)行一條條錄制。

在綁定切分完成后,執(zhí)行“文件”菜單下的“導(dǎo)出”命令,在“保存類型”列表中選擇“帶音視頻網(wǎng)頁”,即完成網(wǎng)頁文件導(dǎo)出。

打開網(wǎng)頁文件,可看到在每個(gè)條目旁有一個(gè)小喇叭,點(diǎn)擊即可播放該錄音文件,如圖3所示。

圖3 導(dǎo)出音視頻網(wǎng)頁

若是視頻文件,旁邊則出現(xiàn)攝像機(jī)符號(hào),點(diǎn)擊可打開小窗口播放視頻,如圖4所示。

圖4 視頻媒體播放效果

2.3.2 語料庫組織發(fā)布

語料庫中含有大量信息,根據(jù)其所屬類別分別組織為不同的轉(zhuǎn)寫文件或文本。由于文件之間相互獨(dú)立,本文利用Sonicfield的語檔管理功能完成對(duì)文件的組織。在組織語檔之前,應(yīng)準(zhǔn)備好網(wǎng)頁文件及說明性文本文件,然后執(zhí)行“語檔”菜單下的“創(chuàng)建語檔網(wǎng)頁”命令。

整個(gè)創(chuàng)建過程分為4步:①填寫語檔元數(shù)據(jù);②輸出調(diào)查表網(wǎng)頁,如果前期已生成網(wǎng)頁,可跳過該步驟;③組織網(wǎng)頁文件,主要完成概況填寫并添加網(wǎng)頁文件;④生成語檔網(wǎng)頁,將所有添加的文件組織在一起并放在各自的文件夾下,生成一個(gè)主頁文件index.html。語料庫運(yùn)行界面如圖5所示。

圖5 語料庫運(yùn)行界面

“點(diǎn)擊瀏覽”欄里列出了所有添加的文件,單擊可打開相應(yīng)頁面。如點(diǎn)擊“詞表”,即打開如圖3所示頁面。

后期可與相關(guān)部門協(xié)商將該語料庫文件上傳到相應(yīng)網(wǎng)站,即可通過互聯(lián)網(wǎng)進(jìn)行瀏覽。

3 結(jié)語

基于網(wǎng)絡(luò)多模態(tài)語料庫的語言研究對(duì)于拓展語言學(xué)研究視野、推動(dòng)語言學(xué)理論發(fā)展具有一定促進(jìn)作用,對(duì)其它人文社科的研究也具有參考價(jià)值。本文介紹的方法僅利用簡(jiǎn)單的技術(shù)即實(shí)現(xiàn)了網(wǎng)絡(luò)多模態(tài)語料庫建設(shè),與傳統(tǒng)的程序設(shè)計(jì)開發(fā)方法相比,大大降低了成本,使網(wǎng)絡(luò)多模態(tài)語料庫建設(shè)從此步入快車道,進(jìn)而使得語料庫成果受益人從先前的少數(shù)專業(yè)人員擴(kuò)大到廣大語言愛好者。該技術(shù)的推廣對(duì)于少數(shù)民族語言/方言資源的保護(hù)與研究具有重要意義。

猜你喜歡
模態(tài)文本
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
車輛CAE分析中自由模態(tài)和約束模態(tài)的應(yīng)用與對(duì)比
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
高速顫振模型設(shè)計(jì)中顫振主要模態(tài)的判斷
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
主站蜘蛛池模板: 国产精品19p| 精品亚洲麻豆1区2区3区| 久久一级电影| 色偷偷一区| 亚洲中文字幕日产无码2021| 久久99国产乱子伦精品免| 亚洲欧美综合另类图片小说区| 在线五月婷婷| 国产精品视频观看裸模| 在线播放国产一区| 亚洲国产精品无码久久一线| Jizz国产色系免费| 午夜无码一区二区三区| 免费视频在线2021入口| 国产精品免费电影| 91亚洲精品国产自在现线| a级毛片毛片免费观看久潮| 爱做久久久久久| 欧美三级视频在线播放| 亚洲AV人人澡人人双人| 国产精品欧美日本韩免费一区二区三区不卡| 国产色伊人| 亚洲中文字幕无码爆乳| 毛片手机在线看| 99这里精品| 亚洲热线99精品视频| 久久精品亚洲专区| 国产成人av一区二区三区| 91人妻日韩人妻无码专区精品| 国产一级无码不卡视频| 欧美一级片在线| 欧美在线国产| 美女一级毛片无遮挡内谢| 91福利免费| 日韩国产综合精选| 久久久久亚洲精品成人网| 特级精品毛片免费观看| 欧美日韩资源| 免费看av在线网站网址| 色悠久久久久久久综合网伊人| 精品久久蜜桃| 黄色片中文字幕| 亚洲日韩国产精品无码专区| 九九香蕉视频| 日本免费福利视频| 日本欧美午夜| 久久久波多野结衣av一区二区| 美美女高清毛片视频免费观看| 日本精品视频| 狠狠色狠狠色综合久久第一次 | AV不卡无码免费一区二区三区| 99激情网| 狠狠色丁香婷婷| 小13箩利洗澡无码视频免费网站| 中国特黄美女一级视频| 91色国产在线| 日韩精品久久久久久久电影蜜臀| 色久综合在线| 人妻一本久道久久综合久久鬼色| 亚洲色大成网站www国产| 国产亚洲精久久久久久久91| 亚洲成人一区二区三区| 亚洲成人www| 亚洲天天更新| 2021国产乱人伦在线播放| 欧美日韩国产综合视频在线观看| 九九热这里只有国产精品| 国产精品xxx| 精品少妇人妻av无码久久| 黄色在线不卡| 无码有码中文字幕| 欧美激情成人网| 黄色网站不卡无码| 久久青草热| 日韩国产 在线| 99无码中文字幕视频| 国产永久无码观看在线| 国产精品第一区在线观看| 亚洲日韩AV无码精品| 日本精品影院| 成人午夜网址| 国产毛片网站|