999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

《作為語(yǔ)料庫(kù)的互聯(lián)網(wǎng):理論與實(shí)踐》述評(píng)

2020-05-25 22:02:43金明珠劉洋
科學(xué)與財(cái)富 2020年9期
關(guān)鍵詞:引擎

金明珠 劉洋

摘 要:網(wǎng)絡(luò)語(yǔ)料庫(kù)(Web As Corpus)指的是把互聯(lián)網(wǎng)視作一個(gè)文本語(yǔ)料庫(kù),應(yīng)用Google等搜索引擎或WebCorp等專用檢索工具為檢索手段創(chuàng)建語(yǔ)料庫(kù)。互聯(lián)網(wǎng)以其開放性及不斷的增長(zhǎng)的巨大文本數(shù)量日益成為語(yǔ)料庫(kù)重要的數(shù)據(jù)來(lái)源,可以彌補(bǔ)封閉的語(yǔ)料庫(kù)的呈現(xiàn)的語(yǔ)言動(dòng)態(tài)發(fā)展不全面的不足,對(duì)語(yǔ)言發(fā)展變化研究的重要性越來(lái)越高。據(jù)此,本書以語(yǔ)料庫(kù)與網(wǎng)絡(luò)關(guān)系為背景,介紹了如何運(yùn)用語(yǔ)料庫(kù)語(yǔ)言學(xué)和計(jì)算機(jī)語(yǔ)言學(xué)的理論,利用互聯(lián)網(wǎng)創(chuàng)建語(yǔ)料庫(kù)的系統(tǒng)實(shí)踐。該書的作者M(jìn)aristellaGatto是意大利Bari大學(xué)現(xiàn)代語(yǔ)言系的高級(jí)研究員和講師。

關(guān)鍵詞:網(wǎng)絡(luò)語(yǔ)料庫(kù);引擎;WebCorp

一、內(nèi)容簡(jiǎn)介

本書共分為7章,每章后均配有動(dòng)手實(shí)踐,和延伸閱讀環(huán)節(jié),既可用作教學(xué)和培訓(xùn)的教材,也可用作自學(xué)入門的實(shí)用讀物。

第一章結(jié)合BNC(British National Corpus)語(yǔ)料庫(kù)回顧了語(yǔ)料庫(kù)的核心概念,包括真實(shí)性,代表性,均衡性,取樣,大小,構(gòu)成及語(yǔ)料庫(kù)分析工具如詞表,關(guān)鍵詞列表,索引等,為進(jìn)一步介紹語(yǔ)料庫(kù)應(yīng)用掃清障礙。

第二章辯證地看待了互聯(lián)網(wǎng)作為語(yǔ)料庫(kù)的合適性問題?;ヂ?lián)網(wǎng)檢索出來(lái)的網(wǎng)頁(yè)其組織結(jié)構(gòu)與傳統(tǒng)語(yǔ)料庫(kù)截然不同,而且無(wú)法某些網(wǎng)絡(luò)文本的真實(shí)寫作時(shí)間,文本作者的文化背景,及文本之間的可比性。此外,互聯(lián)網(wǎng)網(wǎng)頁(yè)上的許多超文本格式交叉引用大量超鏈接,存在很多信息噪音。但是互聯(lián)網(wǎng)提供的文本數(shù)量巨大,里面包含更多的單詞及短語(yǔ)共現(xiàn)樣本,因此互聯(lián)網(wǎng)已被廣泛地視為具有極大潛能地語(yǔ)言數(shù)據(jù)資源,對(duì)它包含的文本的研究可以看作是其所代表的語(yǔ)言及文類的研究,所得出的結(jié)論對(duì)語(yǔ)言運(yùn)用及語(yǔ)言理論建設(shè)具有劃時(shí)代的意義。

第三章中作者介紹如何使用互聯(lián)網(wǎng)通用搜索引擎的爬行功能,索引功能,搜索功能,排序功能等基本功能,搜索特定詞和短語(yǔ)的用法。本章還詳細(xì)地展示了谷歌搜索引擎的高級(jí)搜索功能如布爾數(shù)學(xué)體系,還展示了如何不斷精確關(guān)鍵詞和使用通配符來(lái)加強(qiáng)檢索式的限制性,達(dá)到語(yǔ)義聚類或限制語(yǔ)法結(jié)構(gòu)的目的。

第四章介紹了互聯(lián)網(wǎng)進(jìn)行索引的個(gè)性化語(yǔ)言學(xué)檢索引擎WebCorp Live和WebCorp project等第四代語(yǔ)料庫(kù)分析工具(McEnery&Hardie,2012),其原理就是研究者使用谷歌搜索引擎下載含有目標(biāo)關(guān)鍵詞的網(wǎng)頁(yè)文件,隨后細(xì)化檢索標(biāo)準(zhǔn),深入進(jìn)行二次檢索和分析,網(wǎng)頁(yè)會(huì)呈現(xiàn)更豐富的上下文語(yǔ)境和更精確的使用頻率,檢索結(jié)果呈現(xiàn)KWIC(關(guān)鍵詞居中)模式,還可提供詞頻表,方便統(tǒng)計(jì)搭配詞和執(zhí)行其他分析與運(yùn)算,被作者成為“網(wǎng)絡(luò)小宇宙”。

第五章展示了如何通過使用BootCat工具快速創(chuàng)建專門化的線下語(yǔ)料庫(kù)。BootCat(Baroni,&Bernarnidi,2004)是一款免費(fèi)的自動(dòng)上網(wǎng)收集語(yǔ)料并創(chuàng)建臨時(shí)語(yǔ)料庫(kù)的工具,其原理是依靠用戶提供的關(guān)鍵詞,在網(wǎng)上收集和關(guān)鍵詞內(nèi)容相關(guān)的網(wǎng)頁(yè)然后構(gòu)建一個(gè)臨時(shí)語(yǔ)料庫(kù)(ad hoc corpus)?;镜淖龇ㄊ窃诰W(wǎng)絡(luò)上搜索的關(guān)鍵詞(稱為Seeds),BootCat會(huì)根據(jù)Seeds自動(dòng)生成Tuples(關(guān)鍵詞的組合),然后依次輸入其他的搜索條件,軟件會(huì)自動(dòng)創(chuàng)建語(yǔ)料庫(kù)。

第六章的題目是大型網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的語(yǔ)言和文化掃描,作者介紹了一些大庫(kù)容的多語(yǔ)言普通用途網(wǎng)絡(luò)語(yǔ)料庫(kù),比如TenTen collection的庫(kù)容超過100億詞。隨著自然語(yǔ)言處理技術(shù)和計(jì)算機(jī)處理能力提高,Sketch Engine(Kilgariff et al.,2004)工具應(yīng)運(yùn)而生的,可以用其對(duì)這些大庫(kù)容網(wǎng)絡(luò)語(yǔ)料庫(kù)進(jìn)行檢索。它基于“搭配與詞義對(duì)應(yīng)”的理論,是一種高效率的語(yǔ)言信息提取工具,它本身是一個(gè)數(shù)據(jù)庫(kù),在詞語(yǔ)搭配與語(yǔ)義之間架起一道橋梁,將大型語(yǔ)料庫(kù)中的語(yǔ)言信息進(jìn)行有效的匯總。

第七章討論了web2.0對(duì)語(yǔ)料庫(kù)語(yǔ)言學(xué)的影響,指出了第二代網(wǎng)絡(luò)技術(shù)使得信息實(shí)現(xiàn)了雙向傳遞,網(wǎng)絡(luò)成為用戶進(jìn)行參與的平臺(tái),互聯(lián)網(wǎng)使用者可以根據(jù)需要對(duì)各種資源進(jìn)行加工,編輯和整理,終端用戶可以實(shí)時(shí)更新網(wǎng)絡(luò)內(nèi)容

二、簡(jiǎn)評(píng)

本書是第一本系統(tǒng)性描繪利用互聯(lián)網(wǎng)進(jìn)行語(yǔ)料庫(kù)建設(shè)的書籍,銳意求新,傳授了利用互聯(lián)網(wǎng)創(chuàng)建語(yǔ)料庫(kù)并進(jìn)行應(yīng)用的技術(shù)和方法,對(duì)于語(yǔ)料庫(kù)語(yǔ)言學(xué)和計(jì)算機(jī)語(yǔ)言學(xué)領(lǐng)域作出了巨大貢獻(xiàn)。在語(yǔ)言學(xué)研究領(lǐng)域利用網(wǎng)絡(luò)來(lái)建語(yǔ)料庫(kù)可以看作對(duì)應(yīng)用傳統(tǒng)語(yǔ)料庫(kù)得到的結(jié)果的有益補(bǔ)充。

(1)本書是全新的認(rèn)識(shí)論。

傳統(tǒng)的觀點(diǎn)認(rèn)為互聯(lián)網(wǎng)因其非為指定語(yǔ)言學(xué)特定研究領(lǐng)域而建,缺乏標(biāo)準(zhǔn)語(yǔ)言學(xué)語(yǔ)料庫(kù)意義上的系統(tǒng)性和典型性特征,本書從互聯(lián)網(wǎng)和語(yǔ)料庫(kù)交叉的角度展開對(duì)數(shù)據(jù)的認(rèn)識(shí),強(qiáng)調(diào)作為語(yǔ)料庫(kù)的互聯(lián)網(wǎng)因其涵蓋的語(yǔ)言數(shù)量眾多的文本,在文本類型與題材類型方面有動(dòng)態(tài)化的特點(diǎn),并且能記載動(dòng)態(tài)的語(yǔ)言變化,因而能成為重要的語(yǔ)言學(xué)研究中的語(yǔ)料庫(kù)資源。這種觀點(diǎn)拓寬了語(yǔ)料庫(kù)研究的范圍,具有前瞻性的指導(dǎo)意義,推動(dòng)了計(jì)算機(jī)語(yǔ)言學(xué)的發(fā)展,對(duì)語(yǔ)料庫(kù)語(yǔ)言學(xué)從業(yè)人員,培訓(xùn)者和研究人員都有啟發(fā)意義。

(2)本書為將互聯(lián)網(wǎng)作為語(yǔ)料庫(kù)提供方法論指導(dǎo)。

本書3-6章圍繞如何利用互聯(lián)網(wǎng)創(chuàng)建語(yǔ)料庫(kù)的研究問題展開,實(shí)踐的技術(shù)方法,步驟,工具均服務(wù)于研究的目的。所用案例均來(lái)自真實(shí)的研究實(shí)踐,同時(shí)具有開放性,有助于舉一反三。書中使用的快捷和應(yīng)用廣泛的WAC(Web as Corpus)各種建庫(kù)方法對(duì)操作步驟的介紹詳細(xì),清晰,操作性和可行性強(qiáng),為眾多想利用互聯(lián)網(wǎng)作為語(yǔ)料庫(kù)的研究者提供了方法論的指導(dǎo),啟發(fā)他們自動(dòng)化和半自動(dòng)化地建立單語(yǔ)語(yǔ)料庫(kù)和雙語(yǔ)語(yǔ)料庫(kù)。

(3)本書為其他學(xué)科比如翻譯提供了很好的啟示。第三章的結(jié)尾就是根據(jù)互聯(lián)網(wǎng)的數(shù)據(jù)進(jìn)行翻譯實(shí)踐,這能從另一種的方式證明利用網(wǎng)絡(luò)作為語(yǔ)料庫(kù)的實(shí)際性。

但本書探討利用互聯(lián)網(wǎng)創(chuàng)建語(yǔ)料庫(kù)時(shí),語(yǔ)言僅限于英語(yǔ)和意大利語(yǔ),但是語(yǔ)言本質(zhì)的區(qū)別必然導(dǎo)致對(duì)譯的不同,而這些不同會(huì)導(dǎo)致搜索結(jié)果的不同,無(wú)法判斷本書的研究成果適用于所有的語(yǔ)言類型。此外,網(wǎng)絡(luò)語(yǔ)言學(xué)被稱作語(yǔ)料庫(kù)語(yǔ)言學(xué)的第四代,作為一個(gè)新興的領(lǐng)域,它還有很多問題亟待解決,比如語(yǔ)料庫(kù)構(gòu)建方面的語(yǔ)料庫(kù)設(shè)計(jì)(語(yǔ)料庫(kù)構(gòu)成,語(yǔ)料庫(kù)評(píng)估,抽樣策略和爬行算法式,處理復(fù)制材料)以及專業(yè)性更強(qiáng)的方面(文本清理和標(biāo)注,以及大規(guī)模的平行化以期達(dá)到互聯(lián)網(wǎng)規(guī)模的語(yǔ)料庫(kù)建構(gòu)),以及系統(tǒng)的評(píng)估作為互聯(lián)網(wǎng)語(yǔ)料庫(kù)與傳統(tǒng)的語(yǔ)料庫(kù)的區(qū)別等,這些方面都亟待解決,任重而道遠(yuǎn)。

參考文獻(xiàn):

[1]Baroni,M.&S. Bernarnidi .2004 . BootCat: Bootstrapping corpora and terms from the web[R]. Paper presented at the 2004 LREC, Lisbon, Portugal,2004.

[2]Davies, M. 2014. Making Google Books n-grams useful for a wide range of research on language change[J]. International Journal of Corpus Linguistics 19 (3):401-416.

[3]Kilgarriff A. et al. 2004.The Sketch Engine[R], Paper presented at the 2004 Euralex, Lorient, France, 2004.

[4]McEnery, T. &Hardie A. 2012.A Corpus Linguistics:Method, Theory and Practice [M]. Cambridge: Cambridge University Press.

基金項(xiàng)目:本文系“湖北工業(yè)大學(xué)2019年度大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目-無(wú)障礙電影制作與開發(fā)(S201910500079)”研究成果;“湖北工業(yè)大學(xué)2018年度大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目-荊楚漆器外宣翻譯及傳播路徑研究(201810500049)”研究成果。

作者簡(jiǎn)介:

金明珠, 1997年,女,安徽人,湖北工業(yè)大學(xué)外國(guó)語(yǔ)學(xué)院2015級(jí)英語(yǔ)4班學(xué)生

劉洋,1979,女,內(nèi)蒙古自治區(qū)人,湖北工業(yè)大學(xué)外國(guó)語(yǔ)學(xué)院教師

猜你喜歡
引擎
以學(xué)促干 挺膺擔(dān)當(dāng) 激活砥礪前行的紅色引擎
江陰市“三個(gè)創(chuàng)新”打造危化品安全監(jiān)管新引擎
新海珠,新引擎,新活力!
消費(fèi)繼續(xù)發(fā)揮經(jīng)濟(jì)增長(zhǎng)第一引擎作用
三生 三大引擎齊發(fā)力
藍(lán)谷: “涉藍(lán)”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
休閑垂釣 傳統(tǒng)漁業(yè)新引擎
信息化,“盛京”加速的新引擎
無(wú)形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開發(fā)
主站蜘蛛池模板: 国产高颜值露脸在线观看| 欧美中文字幕无线码视频| 国模视频一区二区| 欧美亚洲国产日韩电影在线| 91精品人妻互换| 成人午夜视频在线| 国产免费自拍视频| 欧美精品1区| 97国产在线观看| 97视频精品全国免费观看 | 日本高清免费一本在线观看| 国内精品久久人妻无码大片高| 制服丝袜亚洲| 国产色图在线观看| 伊人激情综合网| 亚洲国产无码有码| 亚洲色偷偷偷鲁综合| 最新国产精品鲁鲁免费视频| 99视频精品全国免费品| 欧美一级特黄aaaaaa在线看片| 色国产视频| 国产第八页| 国产香蕉97碰碰视频VA碰碰看| AV无码无在线观看免费| 国产美女91视频| 国产精品亚洲综合久久小说| 日本三级精品| 亚洲国产亚综合在线区| 真人免费一级毛片一区二区| 国产精品天干天干在线观看| 日日拍夜夜操| 国产日韩欧美在线播放| 伊人久久婷婷| 亚洲美女一级毛片| 夜夜拍夜夜爽| 久久无码免费束人妻| 国产凹凸一区在线观看视频| 成人免费午夜视频| 好吊色妇女免费视频免费| 91麻豆国产视频| 手机精品视频在线观看免费| 亚洲最大情网站在线观看| 青青网在线国产| 亚洲色图欧美在线| 五月婷婷导航| 秋霞午夜国产精品成人片| 中文字幕永久在线观看| 国产精品毛片一区| 中文字幕啪啪| 欧美成人精品欧美一级乱黄| 91系列在线观看| 91国内在线观看| 国产无码精品在线播放| 免费国产高清精品一区在线| 欧美日韩一区二区在线免费观看| 无码人妻免费| 亚洲视频在线观看免费视频| 国产偷倩视频| 久久99国产精品成人欧美| 麻豆精选在线| 久久伊人色| 天堂在线www网亚洲| 人人看人人鲁狠狠高清| 狼友av永久网站免费观看| 国产特级毛片aaaaaa| 波多野结衣AV无码久久一区| 国产白浆在线| 亚洲不卡av中文在线| 国产美女精品一区二区| 亚欧成人无码AV在线播放| 亚洲色无码专线精品观看| 色婷婷综合激情视频免费看| 伊人久热这里只有精品视频99| 亚洲香蕉在线| 国产午夜福利亚洲第一| 亚洲自拍另类| 精品国产免费观看| 亚洲女同一区二区| 一级在线毛片| 国产精品jizz在线观看软件| 99re在线观看视频| 任我操在线视频|