


摘要:隨著對(duì)TXT/PDF/Word/HTML等各種文本文檔轉(zhuǎn)換為音頻文件,以及音頻文件轉(zhuǎn)換為文本文字的需求日益增加,本文給出了讓普通人都能夠利用現(xiàn)有技術(shù)達(dá)到這些目標(biāo)的方法。方法簡(jiǎn)單易行,實(shí)用有效。
關(guān)鍵詞:殘障人士;朗讀;音頻;文本
中圖分類號(hào):TP317 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)21-0180-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
引言
現(xiàn)在越來越多的工作和生活中都會(huì)使用文本文檔(例如:TXT文檔、Word文檔、PDF文檔甚至HTML網(wǎng)頁(yè)內(nèi)容等)和音頻文件。但是視障人士無法觀看這些文檔,即便是視力正常的人長(zhǎng)時(shí)間閱讀電子文檔也會(huì)損傷眼睛而且不能同時(shí)進(jìn)行其他的事情;與此同時(shí),聽障人無法聽到音頻文件的內(nèi)容,只能閱讀文檔。而且殘障者由于行動(dòng)受限更渴望豐富生活,了解社會(huì)[1]。
如果文本文檔可以朗讀并轉(zhuǎn)成音頻文件,那么就能解放雙眼,滿足視障人士聽讀、放映廳放映、課堂教學(xué)、外語學(xué)習(xí)等場(chǎng)景下的需要,而且音頻文件相對(duì)于文本文檔更便于手機(jī)上播放和攜帶。同時(shí),如果音頻文件能轉(zhuǎn)換成文本文檔,那么就能滿足聽障人閱讀、文檔打印、將各種資料匯總成文檔、殘障人士文字錄入等場(chǎng)景下的需要。尋找簡(jiǎn)單有效的方法,完成各種文本文檔與語音文件的相互轉(zhuǎn)換,是幫助殘障人士的重要環(huán)節(jié)。
目前文字轉(zhuǎn)語音的現(xiàn)狀(參見文獻(xiàn)[2-9])是:Office Word的菜單中都已經(jīng)有了朗讀功能,在“百度經(jīng)驗(yàn)”中搜索“word朗讀”可以查閱調(diào)出“朗讀”菜單項(xiàng)的配置方法。本次使用的Word2016版本朗讀功能可以做到朗讀選中的文字和停止朗讀。
目前語音轉(zhuǎn)文字的現(xiàn)狀是:各種語音輸入法陸續(xù)發(fā)布,雖然存在著由于各種原因?qū)е挛淖洲D(zhuǎn)換不夠完美的問題,但該功能已經(jīng)初步實(shí)現(xiàn)。
如何利用現(xiàn)有的技術(shù),達(dá)到文本文檔轉(zhuǎn)換為音頻文件,或者將音頻文件轉(zhuǎn)為文本文字,是此次研究的主要目的。
1 實(shí)現(xiàn)方法
1.1 準(zhǔn)備工作
在開始實(shí)現(xiàn)之前,需要做好準(zhǔn)備工作,特別說明如下:
1)文檔朗讀實(shí)際使用了windows的語音組件,所以使用前需要安裝windows語音組件。本次使用的windows 10操作系統(tǒng)自帶了語音組件。
2)因?yàn)橐鑫谋疚臋n和音頻文件的相互轉(zhuǎn)換。根據(jù)需求,筆者選定的實(shí)驗(yàn)環(huán)境是windows 10操作系統(tǒng)+Office Word2016+“訊飛語音輸入法”。
1.2 文本文檔轉(zhuǎn)音頻文件基本步驟
利用目前的Word朗讀功能和windows的錄音功能,我們現(xiàn)在只需簡(jiǎn)單地處理就可以實(shí)現(xiàn)Word文字轉(zhuǎn)音頻的目標(biāo)。而其他的各種類型的文檔,只要可以拷貝進(jìn)Word文檔里都可以用以下的方法,來轉(zhuǎn)換成音頻文件。特別需要說明的是,HTML頁(yè)面的朗讀一直都是瀏覽器插件開發(fā)的一個(gè)方向,但是如果可以直接拷貝HTML文檔的內(nèi)容或者利用生成HTML用的原始文本,將他們朗讀成音頻掛載在網(wǎng)頁(yè)上播放,會(huì)去掉很多不必要的廣告或者其他內(nèi)容的干擾,提高網(wǎng)頁(yè)朗讀的品質(zhì)。具體步驟如下:
1)在電腦右下角的揚(yáng)聲器上單擊右鍵,“打開聲音設(shè)置”,選擇其中的“聲音控制面板”,如圖1所示。
2)在聲音控制面板的“錄制”選項(xiàng)卡中啟用“立體聲混音”,如圖2所示。
3)回到圖1所示位置,設(shè)置默認(rèn)聲音輸入為“立體聲混音”(也就是電腦播放音),如圖1所示。
4)準(zhǔn)備工作完成,可以開始錄制Word文檔的朗讀語音。如圖3所示,打開電腦的錄音機(jī),并打開Word文檔,選中要朗讀的內(nèi)容。開始錄音機(jī)錄音,然后在Word文檔中開始朗讀,朗讀完成即可停止錄音,生成錄音文件了。
1.3音頻文件轉(zhuǎn)文本文字基本步驟
接下來我們完成音頻文件轉(zhuǎn)文本文字的工作。因?yàn)橐纛l文件轉(zhuǎn)文本文字其實(shí)是利用了“訊飛語音輸入法”,所以首先需要設(shè)置語音輸入法的語音來源為電腦播放音,這樣語音輸入法就可以根據(jù)電腦播放的音頻文件的聲音,在Word文檔中錄入文字。步驟如下:
1)在電腦右下角的揚(yáng)聲器上點(diǎn)擊右鍵,“打開聲音設(shè)置”,向下找到其中的“高級(jí)聲音選項(xiàng)”,打開“應(yīng)用音量和設(shè)備首選項(xiàng)”,如圖4所示。
2)確認(rèn)其中的聲音輸入為“立體聲混音”,并確認(rèn)“訊飛語音輸入法”相關(guān)兩項(xiàng)的輸人為“默認(rèn)”(也就是立體聲混音)。如圖5所示。
3)完成準(zhǔn)備工作,可以開始音頻文件轉(zhuǎn)Word文檔的工作。打開音頻文件,電腦開始播音;在Word文檔中,光標(biāo)移動(dòng)至需要輸入文字的地方,并將“訊飛語音輸入法”的“點(diǎn)擊說話”按鈕按下。這時(shí)候“訊飛語音輸入法”就會(huì)將聲音轉(zhuǎn)為Word文檔中的文字。將1.2節(jié)中錄制的音頻文件轉(zhuǎn)換為Word文檔,我們來看看文字恢復(fù)情況。如圖6所示。
可以看到由于文檔朗讀錄音時(shí)使用了標(biāo)準(zhǔn)的普通話,所以文字恢復(fù)后除了標(biāo)點(diǎn)符號(hào)不同,無法分段,沒有各種文檔樣式之外,沒有文字錯(cuò)誤。
由上面的過程想到,通過將“訊飛語音輸入法”的語音來源設(shè)置為麥克風(fēng)(如圖7所示),將音頻播放出來的聲音收音到麥克風(fēng),借助語音輸入法轉(zhuǎn)為文字;當(dāng)然借助語音輸入法,如果你對(duì)著麥克風(fēng)講話,也可以轉(zhuǎn)為文字。
2 實(shí)驗(yàn)結(jié)論
本次研究,借助現(xiàn)代科學(xué)技術(shù)順利地達(dá)到各種文本文檔轉(zhuǎn)換為音頻文件的目的,滿足視障、殘障、聽障人在很多應(yīng)用場(chǎng)景下對(duì)這項(xiàng)技術(shù)的需要。雖然語音轉(zhuǎn)文字過程中,可能由于某些語音文件的質(zhì)量不高、普通話不夠標(biāo)準(zhǔn)等原因,文字的準(zhǔn)確性還有待進(jìn)一步提升;文字轉(zhuǎn)語音過程中,播放出來的語音還無法像人一樣自然流暢。但是隨著技術(shù)的發(fā)展,相信文字的識(shí)別會(huì)越來越準(zhǔn)確,而播放的語音也會(huì)越來越自然流暢。
除此之外,目前的語音輸入法不能分段,也沒有文字格式,只能恢復(fù)文字。所以目前只能簡(jiǎn)化還原文本文檔需要付出的努力。
3 結(jié)束語
針對(duì)目前各種文本文檔轉(zhuǎn)換為音頻文件以及音頻文件轉(zhuǎn)文字的需求,本文提出了結(jié)合現(xiàn)有的windows語音組件技術(shù)、Word文檔朗讀技術(shù)、錄音技術(shù)、語音輸入技術(shù),達(dá)到了文字與語音相互轉(zhuǎn)換的目的。它能使工作和生活變得更智能、更人性化;使視障人士、聽障人和殘障人能夠更輕松地應(yīng)對(duì)工作和生活中的難題。相信將來會(huì)在越來越多對(duì)文本文檔轉(zhuǎn)音頻文件,及音頻文件轉(zhuǎn)文本文字的應(yīng)用場(chǎng)景中發(fā)揮作用。也希望隨著研究的深入,不久的將來相關(guān)的轉(zhuǎn)換軟件可以誕生,使得轉(zhuǎn)換工作得以更輕松完成。
參考文獻(xiàn):
[1]林英.視力障礙人士閱讀問題研究[J].圖書館理論與實(shí)踐,2014(4):22-24,25.
[2]張修振.兩方法助你輕松閱讀Word文檔[J].秘書之友,2009(8):46.
[3]巧用“錄音機(jī)”制作音頻文件[Jl,電腦知識(shí)與技術(shù),2000 (01):20.
[4]羅海濤.wav音頻文件格式分析與數(shù)據(jù)獲取[J].電腦知識(shí)與技 術(shù),2016,12(27):211-213.
[5]阮高峰.TXT文件也玩大變身[J].電腦知識(shí)與技術(shù),2003(22):8-11.
[6]飛雪散花.乾坤大挪移,文本也轉(zhuǎn)換[J].電腦迷,2011(18):21.
[7]鄉(xiāng)里人家.文出有聲護(hù)眼養(yǎng)神[J].電腦愛好者(普及版),2010(10):33.
[8]朱煥民.讓W(xué)ord XP給你讀文檔[Jl.電腦知識(shí)與技術(shù),2003(31):29-30.
[9]李剛.智能語音識(shí)別技術(shù)的架構(gòu)與設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2018,14(18):175-177.
【通聯(lián)編輯:唐一東】
作者簡(jiǎn)介:曹紅萍(1977-),女,新疆精河人,清華大學(xué)軟件工程碩士,高級(jí)系統(tǒng)架構(gòu)設(shè)計(jì)師,主要研究方向?yàn)椋河?jì)算機(jī)教育、計(jì)算機(jī)應(yīng)用技術(shù)、軟件工程。