999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算機(jī)專業(yè)手語語料庫的建設(shè)研究

2015-05-30 13:59:59孫筱玥付南鈞楊煉李凱韓梅
智能計算機(jī)與應(yīng)用 2015年6期

孫筱玥 付南鈞 楊煉 李凱 韓梅

摘 要:計算機(jī)專業(yè)手語語料庫從聾人學(xué)生計算機(jī)專業(yè)教學(xué)的情景視頻庫中選取手語視頻語料,采用多媒體轉(zhuǎn)寫標(biāo)注軟件ELAN進(jìn)行手語語序轉(zhuǎn)寫、漢語翻譯和文本標(biāo)注,將其轉(zhuǎn)換為文本語料,建成“計算機(jī)專業(yè)手語語料庫”, 從手勢動作、身體姿勢、面部表情三方面特征對計算機(jī)專業(yè)手語詞匯展開詞義構(gòu)成分析和描寫,分析計算機(jī)專業(yè)手語詞匯的手勢特點及內(nèi)在成因。

關(guān)鍵詞:手語 ;語料庫;轉(zhuǎn)寫;標(biāo)注

中圖分類號:TP317 文獻(xiàn)標(biāo)識碼 A文章編號:2095-2163(2015)06-

Abstract:Computer professional sign language corpus selects sign language video corpusfrom the deaf students in computer specialty teaching scene corpus. The construction uses multimedia transcription annotation software Elan sign language to realize transliteration of the word order, Chinese translation and text marking, and converse the related resultsinto corpus, therefore

build computer professional sign language corpus ". Based on the aboved, from the three aspects of features of gestures, body posture, facial expressions,the paperanalyzes and describes computer professional sign language vocabulary expansion semantic structure, after that analyzes computer professional sign language gesture feature and internal causes.

Keywords: Sign Language; Corpus; Transliteration; Annotation

0 引言

根據(jù)中國殘聯(lián)提供的數(shù)字,我國現(xiàn)有聾人約2200萬,18歲以下應(yīng)受教育的聾啞人達(dá)400多萬,7歲以下為80萬。這是一個龐大的弱勢群體。因其在學(xué)習(xí)、工作和生活上有許多常人難于想象的艱辛和障礙。[1]計算機(jī)專業(yè)手語語料庫從聾人學(xué)生計算機(jī)專業(yè)教學(xué)的情景語料庫中選取手語視頻語料進(jìn)行手語語序轉(zhuǎn)寫、漢語翻譯和文本標(biāo)注,將其轉(zhuǎn)換為文本語料,建成“計算機(jī)專業(yè)手語語料庫”, 從手勢動作、身體姿勢、面部表情三方面特征對計算機(jī)專業(yè)手語詞匯展開詞義構(gòu)成分析和描寫,分析計算機(jī)專業(yè)手語詞匯的手勢特點及內(nèi)在成因,指導(dǎo)聾人高等工科教育中的手語教學(xué)。同時也能為聾人高等工科教育提供教學(xué)資源、教學(xué)設(shè)計、教材編寫、課堂教學(xué)與學(xué)習(xí)評估等方面科學(xué)的決策與指導(dǎo)。如同其他語言建立語料庫一樣,計算機(jī)專業(yè)手語也可以充分利用計算機(jī)和網(wǎng)絡(luò)資源,根據(jù)計算機(jī)專業(yè)手語的特點,建立手語語料庫[2]。

手語語料庫的建立在手語的語言學(xué)研究、手語的規(guī)范化研究及手語識別和機(jī)器翻譯領(lǐng)域有著重要的應(yīng)用意義。因此,國外學(xué)者對此做了大量的研究。美國的手語研究者于1995年對7個主要城市的聾人使用的手語的音系、詞匯和句法開展了詳細(xì)的調(diào)查,積累了大量的手語樣本后建立了世界上第一個手語語料庫即美國手語語料庫(Lucas, 2005)。近年來,越來越多的國家和地區(qū)相繼建立起手語語料庫,其中包括英國手語語料庫項目、北美手語語料庫工作坊、澳大利亞手語語料庫、荷蘭手語基本詞匯語料庫、德國手語語料庫,中國香港的亞太地區(qū)手語語料庫等都對我國建立手語語料庫有借鑒意義。李恒(2013)認(rèn)為目前最為成熟的手語語料庫是由Johnston等人創(chuàng)建的澳大利亞手語語料庫。Johnston(2009)提出,手語語料庫應(yīng)當(dāng)包括大量可以機(jī)讀的標(biāo)注文本,而非語篇和文本的隨意堆砌。McEnery和Wilson(1996)也認(rèn)為樣本的代表性以及語料的機(jī)讀形式化是語料庫兩個最重要的特征。以此標(biāo)準(zhǔn)建立的語料庫,對于包括音系、詞匯、句法、語篇等各種層次的手語研究,尤其是詞典編纂都有積極的促進(jìn)作用。王敏等則認(rèn)為英國手語語料庫項目和北美手語語料庫工作坊兩個手語語料項目在設(shè)計理念、技術(shù)手段、人員協(xié)作等方面值得研究與借鑒。目前國外較為通行的做法是,科研人員可根據(jù)研究需要建立私人語料庫,在一定范圍內(nèi)實現(xiàn)共享和交流[4]。

1 設(shè)計實現(xiàn)的功能

系統(tǒng)采用ELAN建立計算機(jī)專業(yè)手語語料庫,從一個小型專業(yè)手語語料庫的建設(shè)入手,先建立各個子庫,比如計算機(jī)網(wǎng)絡(luò)手語、圖形圖像手語、動畫設(shè)計手語等等,再集成完成數(shù)據(jù)庫,探索專業(yè)手語語料庫建立的方法和途徑[3]。通過轉(zhuǎn)寫和標(biāo)注,分析手語的特點,以便于計算機(jī)對特定語料進(jìn)行識別和提取。實現(xiàn)語料庫的機(jī)讀化,提高語料的利用價值,增加語料的重復(fù)使用性以及增強(qiáng)語料庫的多功能性。以此標(biāo)準(zhǔn)建立的語料庫,對于包括音系、詞匯、句法、語篇等各種層次的手語研究,尤其是詞典編纂都有積極的促進(jìn)作用。

1.1語料樣本形式的選取

語料的選擇和編制是建立語料庫的環(huán)節(jié)之一, 調(diào)查通常包括如下部分。

(1)詞匯:。以計算機(jī)專業(yè)手語視頻數(shù)據(jù)庫中的視頻文件作為本課題的語料樣本。該視頻庫中的計算機(jī)專業(yè)手語詞匯由來自全國各地的聾生做手語來描述。選取使用頻率高的課堂教學(xué)詞匯。配合采用田野調(diào)查的“詞匯記錄”法, 確保忠實地記錄手語中的特有詞匯。

(2) 語法。以“誘導(dǎo)法”和“自然產(chǎn)出法”兩種方法為主體, 具體采用訪談、自由交流以及讓聾人進(jìn)行自我介紹等方式獲得語料信息。

(3)地域。由于我國地域遼闊,如同有聲語言存在方言差別一樣,手語也有不同的地域語言變體。因此語料庫樣本的地域的選取應(yīng)盡可能廣泛。如果不能覆蓋全國各個省市,也應(yīng)具備東北、華北、華東、華南等地區(qū)的代表性。語料樣本的選取應(yīng)當(dāng)注意到不同地區(qū)聾人文化和聽人文化的差異、聾人文化內(nèi)部之間的差異對手語方言形成的作用。這樣采集的樣本才能為計算機(jī)專業(yè)手語的規(guī)范化研究提供理論依據(jù)。

1.2 操作方法

在建立計算機(jī)專業(yè)手語語料庫時,根據(jù)計算機(jī)專業(yè)教學(xué)的實際需要決定標(biāo)注來完成元數(shù)據(jù)的標(biāo)準(zhǔn)化和手語視頻詞匯的規(guī)范化,同時要兼顧實用性,避免因數(shù)據(jù)量過小而降低語料庫的利用價值。目前較為常見的手語元數(shù)據(jù)描述格式是由荷蘭馬克思·普朗克心理語言學(xué)研究所開發(fā)應(yīng)用的imdi元數(shù)據(jù)庫。這主要用在多媒體和多模態(tài)語言集成。更好的實驗語言數(shù)據(jù)和元數(shù)據(jù)之間的匹配,提供檢索和計算之用。另一個ELAN軟件,這主要有三種模式:分割模式,轉(zhuǎn)寫模式,標(biāo)注模式。在過程中,為避免對手語不熟悉,保證數(shù)據(jù)分割的準(zhǔn)確性,最好由手語語言學(xué)專業(yè)出身來完成。因此在建設(shè)手語語料庫過程中,應(yīng)當(dāng)注意到以下幾個問題:

(1) 作為語料庫研究者來看,應(yīng)該在標(biāo)注系統(tǒng)的詳略度和標(biāo)注方案的可行性之間找到平衡點。

(2) 從用戶的角度性來研究, 語料庫的標(biāo)注應(yīng)該越詳細(xì)越好,可以用戶讓容易理解;假如標(biāo)注信息過于繁多,這將不利于標(biāo)注者進(jìn)行實際操作。

(3) 從建設(shè)整體來看,我國的手語視頻庫以及語料庫大多數(shù)是為國家出資而建立,在此提倡應(yīng)當(dāng)由大學(xué)各個機(jī)構(gòu)和高等學(xué)校自主建立專屬的手語語料庫。

2 Elan自建語料庫的方法

2.1 基本概念

Elan的四個基本概念是:轉(zhuǎn)寫;標(biāo)注;層;語言學(xué)類型。在此,對其闡釋如下:

(1)轉(zhuǎn)寫。根據(jù)音頻和視頻內(nèi)容錄入文字或其它字符(國際音標(biāo)、拼音等)的操作。

(2)標(biāo)注。針對音頻或視頻內(nèi)容所轉(zhuǎn)寫的文字、國際音標(biāo)或者對內(nèi)容進(jìn)行的標(biāo)記、注釋等等,都可以稱為“標(biāo)注”。在Elan 中,“標(biāo)注”包括“轉(zhuǎn)寫”。另外,“標(biāo)注”也可以指某一層上沒有轉(zhuǎn)寫任何內(nèi)容的空段,即“空標(biāo)注”。

(3)層。轉(zhuǎn)寫和標(biāo)注以“層”為依托,不同的層里有不同的標(biāo)注內(nèi)容。如文本轉(zhuǎn)寫層、國際音標(biāo)層、注釋層等等。

(4)語言學(xué)類型。從語言學(xué)角度對“層”屬性的一種定義,如某一層標(biāo)注的內(nèi)容是國際音標(biāo),就可以把該層的語言學(xué)類型定義為“ IPA”,某一層是方言轉(zhuǎn)寫,就可以把這一層的語言學(xué)類型定義為“ Dialect”,等等。

2.2操作模式

運(yùn)行Elan ,導(dǎo)入音頻或視頻文件后, Elan 在“選項”菜單中設(shè)計有五種操作模式可供選擇:分割、轉(zhuǎn)寫、標(biāo)注、同步、線性交錯。前三種模式在轉(zhuǎn)寫與標(biāo)注的過程中使用頻繁,常常需要在各種模式之間切換;后兩種模式則使用較少。下面即對前三種模式展開具體論述。

(1)分割模式。這是轉(zhuǎn)寫模式的基礎(chǔ),主要用于在轉(zhuǎn)寫前對錄音或視頻進(jìn)行時間段(按實際語流的停頓“分割段”可能是半句話、一句話或更多)的分割標(biāo)記,使用時只需要在相應(yīng)的時間點按“回車鍵”就可以逐段分割,進(jìn)行標(biāo)記。

(2)轉(zhuǎn)寫模式。該模式以分割模式為基礎(chǔ),在分割模式中完成對轉(zhuǎn)寫的內(nèi)容逐段分割標(biāo)記后切換到轉(zhuǎn)寫模式,在表格中逐句轉(zhuǎn)寫,轉(zhuǎn)寫完成一句以后,即按回車鍵進(jìn)入到下一句。如需重復(fù)播放當(dāng)前句,按 Tab 鍵即可,操作簡單高效,省去了頻繁回放的麻煩。

(3)標(biāo)注模式。圖1所示是對一個手語專業(yè)的人打手語拍攝的轉(zhuǎn)寫和標(biāo)注 ,標(biāo)注人是鐘鵬,參與者是手語語言學(xué)專業(yè)的人,詞匯是“安全”。

2.3 制作流程

(1)新建導(dǎo)入視頻之后,在菜單上的選項單擊,找到分割模式。

(2)按回車鍵設(shè)置第一個標(biāo)記,設(shè)置到第二個標(biāo)記連成一個標(biāo)注段,即一個字一個標(biāo)注段。

(3)設(shè)置標(biāo)注段后,選項轉(zhuǎn)寫模式。

(4)設(shè)置幾個表欄數(shù)目,第一個列數(shù)量選擇default-it,最后點選“應(yīng)用”。

(5)完成之后,在序號1輸入安,序號2輸入全。選項>標(biāo)注模式。

(6)鼠標(biāo)光標(biāo)移動default,按鼠標(biāo)右鍵,選擇更改此層屬性。

(7)更改層名、參與者、標(biāo)注人、輸入法,單擊確定。

(8)在菜單欄選擇“層>復(fù)制層” 然后在彈出的復(fù)制層窗口中選好正文,然后下一個。

(9)單擊下一個,進(jìn)入選轉(zhuǎn)寫(無父層)。

(10)單擊下一個按鈕,最后一步,結(jié)束。復(fù)制層之后更改此層屬。

(11)在標(biāo)注段雙擊就進(jìn)行編輯狀態(tài),分別輸入一手橫伸,掌心向下,自胸部向下(時間段為0~2秒);伸出拇指順時針平行轉(zhuǎn)一圈(時間段為2~3.5秒),如圖2所示。

2.4 Elan自建手語語料庫的結(jié)論

計算機(jī)專業(yè)手語語料庫對于聾人高等教育領(lǐng)域的教師、全國聾生發(fā)揮著集成地方手語、以及將涉獵手語互相對比、查詢、學(xué)習(xí)的作用,使聾人能夠精確地了解,并熟練使用一些專業(yè)性手語。研究中為了使聾人能夠更趨便利地達(dá)成溝通,使用Elan軟件處理拍攝視頻,利用該專業(yè)手語詞匯,肢體上的動作講解來實現(xiàn)手語語料庫的基本構(gòu)建。Elan軟件對于收集手語具有更好的專業(yè)優(yōu)勢。

3 結(jié)束語

計算機(jī)專業(yè)手語語料庫建設(shè)的研究是研究所在聾人工學(xué)院重大的項目,對于計算機(jī)專業(yè)手語詞匯,句子的手勢進(jìn)行采集、分割、轉(zhuǎn)寫、標(biāo)注種種來完成計算機(jī)專業(yè)手語詞匯語料庫,計算機(jī)專業(yè)手語句子語料庫的建設(shè)。尤需一提的是,計算機(jī)專業(yè)手語詞匯的采集積累,在這一過程中需要通過各地方聾人打手勢的長期積累、精細(xì)篩選,需要制作臻于完善的文案完成拍攝任務(wù),還需要操作軟件耗費(fèi)時間完成標(biāo)注,轉(zhuǎn)寫等等,才可以完成計算機(jī)專業(yè)手語語料庫的最終圓滿建設(shè)。

參考文獻(xiàn):

[1]李凱.韓梅.聾人手語動漫教學(xué)系統(tǒng)的設(shè)計[J].智能計算機(jī)與應(yīng)用,2012,2(6):41-45.

[2]李凱.計算機(jī)專業(yè)詞匯手語手勢的表達(dá)設(shè)想[J]天津, 2004(1):1-3.

[3]李斌.用Elan建設(shè)單點方言多媒體語料庫[J].方言, 2012(2):178-190.

[4]李恒. 手語語言學(xué)方法論研究綜述[J].中國特殊教育,2012(6):22-26.

主站蜘蛛池模板: 手机成人午夜在线视频| 国产福利免费视频| 麻豆精品在线视频| 国产喷水视频| 99久久国产精品无码| 福利国产微拍广场一区视频在线| a毛片在线| 国产精品亚欧美一区二区| 在线观看欧美精品二区| 亚洲精品天堂在线观看| 欧美成人区| 亚洲女人在线| 伊在人亚洲香蕉精品播放| 91免费片| 日韩精品高清自在线| 亚洲一级毛片免费观看| 久久国产亚洲偷自| 国产精品护士| 青青热久免费精品视频6| 欧美国产精品不卡在线观看| 永久成人无码激情视频免费| 怡红院美国分院一区二区| 日本午夜精品一本在线观看 | 啪啪免费视频一区二区| 国产成人1024精品| 91精品伊人久久大香线蕉| 国产午夜在线观看视频| 99热亚洲精品6码| 91精品网站| 亚洲国产亚综合在线区| 国产女人在线| 老色鬼久久亚洲AV综合| 三上悠亚一区二区| AV在线天堂进入| 国产av无码日韩av无码网站| 国产激爽爽爽大片在线观看| 九色最新网址| 好吊色妇女免费视频免费| 午夜精品区| 色偷偷一区二区三区| 国产成人精品三级| 国产成人久久综合一区| 看你懂的巨臀中文字幕一区二区| 久久综合亚洲色一区二区三区| 国产日韩精品欧美一区喷| 国产精品亚欧美一区二区三区| 国内精自视频品线一二区| 国产精品人成在线播放| 97视频精品全国在线观看| 91 九色视频丝袜| 97狠狠操| 中文字幕波多野不卡一区| 久久国产精品波多野结衣| 日韩在线影院| AV色爱天堂网| 亚洲AV无码一二区三区在线播放| 91小视频在线观看| 国产精品成人第一区| 99福利视频导航| 国产系列在线| 欧美成人一级| 青青草国产免费国产| 伊人久久久大香线蕉综合直播| 国产人碰人摸人爱免费视频| 国产性猛交XXXX免费看| 91视频日本| 欧美成一级| 国产色偷丝袜婷婷无码麻豆制服| 亚洲成a人片| 最新国产网站| 亚洲国产精品日韩专区AV| 精品亚洲欧美中文字幕在线看| 国产91无毒不卡在线观看| 国产精品九九视频| 国产网站一区二区三区| 亚洲最新网址| 日本午夜三级| 国产黄视频网站| av色爱 天堂网| 中文字幕精品一区二区三区视频| 日韩最新中文字幕| 亚洲人精品亚洲人成在线|