999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據視野下的語言研究新觀

2015-12-28 07:09:38李華勇
關鍵詞:語言研究

李華勇

(四川文理學院外國語學院,四川達州635000)

一、大數據

人類正在進入“大數據”時代。大數據將對人文社會科學的各學科門類產生巨大甚至是本質上的變化[1]V。Cukier和Schoenberge于2013年指出互聯網革命性地改變了商業運作模式、政府管理方法和人的生活方式,信息急劇增長足以引起新的變革[2]。國外媒體將2013年稱為“大數據元年”。研究者從不同的角度給出了不同的定義:大數據(big data)指所涉及數據的規模巨大到無法通過目前主流軟件工具在合理時間內達到擷取、管理、處理,并整理成為幫助企業經營決策更積極目的的資訊[3],這是從數據的量的角度給出的定義;大數據指采用所有數據的方法[1],這是從研究時獲取數據方法視角給出的定義;從數據規模、數據流轉和動態的數據體系、數據多樣性、數據的價值四個特征來定義大數據;大數據指迅速獲取信息的能力[4],這是從數據的功能視角給出的定義。我們認為大數據是一種思維方式和重要的資源庫,它將改變我們認識世界的方式,是獲取新知識和新發明的源泉。大數據這種新思維方式將從根本上改變我們對人文社會科學相關學科的觀念,實現相關學科研究的發展、深化和創新。

二、語言學研究與大數據思維

大數據將對語言學研究產生重要影響,促進其量化研究的深入發展。大數據突破了自然科學和社會科學研究的界限,實現了數據的可通約性,通過數據溝通了不同學科的資源,促進了學科交叉融合[5]。發源于上世紀60年代的語料庫語言學,以經驗主義和科學理性主義為哲學基礎,以自下而上(bottom-up)的歸納法為方法論[6];從一開始就是建立在真實語言數據觀察的基礎上,以大量的日常使用語言為依據,以概率為特征,以統計量化為手段,對語言進行實證量化研究;基于真實語言使用數據的語料庫語言學研究使該學科帶上了科學的基因;語料庫越來越大,類型越來越多樣化,標注越來越詳細,檢索統計越來越智能化。這些變化將會對語言學研究產生重要影響:拓展了語言學研究的視野和應用服務領域。人們日常生活產生的海量數據具有豐富的語言信息,同時還可能避免研究者的認知偏見、語言感知誤差[5],對語言現象或語言事實的分析更加量化、客觀和科學,更重要的是能夠借用語言大數據預測語言現象或事實發展的趨勢,甚至通過相關語言數據信息的統計分析和建立相關數學模型,為相關公共服務領域迅速便捷地提供特別有價值的信息。例如,2009年H1N1流感爆發時,Google公司基于美國人檢索與流感相關的詞條和2003—2008年美國疾控中心的流感數據進行比較,聚焦于與流感相關的特定詞條被檢索的頻率與流感在時間和空間上傳播的關系,據此建立數學模型,成功地比美國疾控中心早1~2周預測到H1N1流感爆發的時間、地點、傳播源等非常有價值的信息[1,3]。這是一個融合了語言學、大數據、數學和計算機等學科,提前成功預測H1N1流感爆發并服務于公共領域的典型例子。

在大數據及其思維視野下,作為人文社會科學之一的語言學研究應順應科技和時代的發展,在更大范圍使用各種類型的、共時和歷時的語言大數據來進行相關實證研究,在更大范圍和層面上研究語言事實之間的相關關系。幾萬詞、幾百萬詞、幾千萬詞甚至于幾億詞的語言數據按照大數據的理念在目前或未來形勢下都不能很好地滿足語言學研究的目的和要求。語言數據的獲取越來越容易,相對來說建設服務于語言研究的更大規模的語料庫也越來越容易。比如:美國Mark Davies教授2013年建立的GloWbE語料庫規模達19億詞,“Google Books:British English”語言數據高達340億詞,“Google Books:American English”語言數據高達1 500億詞。大數據在進行語言研究時有其獨特優勢:其一是能夠更加詳細地展示語言事實或現象的演化過程,其二是能在更大范圍內發現語言變化的規律和趨勢,其三是能夠在更大范圍和更大程度上發現語言事實的相關性。尤其是第三點更加重要,因為大數據的一個核心理念是由追尋因果關系轉變到追尋相關關系,相關關系比因果關系更為重要、更有價值——建立在相關關系分析基礎之上的預測是大數據的核心[1]75。顯然,現代語言學研究不僅要追尋語言事實之間的因果關系,更應該在語言大數據中追尋語言事實或現象之間的相關關系,在對語言事實相關分析的基礎上對語言發展進行預測,進而服務語言教學和其它需要語言支持的公共領域。過去的語言學研究是在探尋語言事實背后的“為什么”,而語言事實豐富多彩、變化多端和紛繁復雜,我們探尋到的“為什么”往往只能在一定范圍、一定時期解釋和說明小部分語言事實,以至于我們陷入建立了成百上千種語言學理論和模型也無法走出把所有語言事實解釋清楚的困境。造成這一局面的原因一方面是我們沒有在更大范圍內弄清楚相關語言事實是什么,另一方面是我們的各種語言理論和模型各自為陣,沒有在更大范圍和空間上考慮用語言事實相關關系來對語言事實進行解釋。大數據思維方式要求通過探求“是什么”而不是“為什么”來幫助我們更好地了解這個世界[1]83。相應地,在大數據的今天,語言學研究得轉變研究路徑,才能夠擺脫語言研究的上述困境,轉變到尋找語言事實的“是什么”而不是研究“為什么”,在語言事實相關關系的指引下,更好地去了解和認識語言研究路徑:語言事實相關關系分析很有用,它不但為我們認知語言提供新的視角,而且提供的視角非常清晰。一旦把因果關系考慮進來,這些視角就有可能被蒙蔽掉[1]87。這樣做并不是說研究語言時因果關系不重要,通常情況下,一旦完成了對語言事實的相關關系分析后,又不滿足于知道“是什么”時,可以繼續探究更深層次的因果關系,追尋語言事實背后的“為什么”。

可見,新形勢下的語言研究不能再像以前那樣以追求“為什么”為終極目標,而是在基于語言事實大數據基礎上研究語言事實“是什么”,在清晰綜合考量各種相關關系之后,再考慮是否需要繼續研究因果關系。

三、大數據對語言研究的獨特價值

(一)大數據深化語言歷時研究

與小數據相比,大數據對語言研究具有獨特的優勢,它能讓研究者在更大范圍內觀察到語言現象或事實的相關程度和演化的具體歷時過程,特別是低頻的、新近出現的語言現象。比如利用數據量為1 500億詞的美語“谷哥圖書”大數據,借用COCA①的檢索界面來研究美語中“get被動式”的使用頻率歷時變化趨勢,由于使用的數據量高達1 500億詞,相比以前研究所用的幾萬詞、幾百萬或幾億來說,這些海量數據有助于更加精確地重現“get被動式”的使用變化趨勢。在美語“谷哥圖書”中,get被動式的使用頻率在1810s年為7.13/MIL②,經過近200年的歷時發展和演化,到2000s年,其使用頻率上升到23.92,是1810年的3倍多。不但反映出get被動式的使用頻率近200年總體趨勢是上升的,還反映出它在中途某些時間段是有波動的(下降之后再上升)——由 1950s的 14.64下降到1960s的13.99,之后在1970s又升至14.6。如果某些研究人員收集的數據是集中在1950s—1960s這一時間段,據此研究會得出get被動式的使用頻率是呈下降趨勢的結論;這一結論在1950s—1960s這個特定時間段是正確的,如果據此預測其在1970s之后的使用頻率仍然是下降的就錯了??梢姡诟蠓秶透L時間段去預測相關語言現象的發展趨勢,需要大數據才能做到。

Davies認為小語料庫提供的低頻和中頻詞或結構的型符(token)數量過小,不能很好地比較和觀察英式與美式英語兩種變體的差異[7]。同理,過小的數據不能展現低頻詞或結構的使用特征與演化趨勢,要詳細研究低頻詞或結構的使用情況需要大數據支持。如果用布朗家族語料庫(the Brown Family of Corpus:Brown,Frown,LOB,FLOB)去檢索低頻率動詞vacuum,返回的結果是0個型符,說明不能利用庫容極小的布朗家族語料庫對vacuum進行任何有意義的研究。但是如果在庫容超過4.5億詞的COCA語料庫中檢索,就能返回到882個型符,可以根據相應的研究目標和目的對動詞vacuum的詳細使用情況與特征進行描述??梢姶髷祿Φ皖l率詞或結構的研究具有獨特的優勢,甚至可以說,對小庫容檢索不到的低頻詞或結構的研究只有在大數據中才可以完成。

(二)對語言的描述客觀化和精細化

過去由于大量客觀可以自動檢索的語言數據比較匱乏,我們對詞匯或語言結構進行研究時,絕大多數時候都基于語言研究者的語言直覺進行少量舉例或引用經典作品的例句,然后進行理論思辨和演繹。在語言大數據日益豐富的今天,幾乎所有的語言研究都可以借助各種客觀的語言大數據進行。比如,在進行同義詞詞典編撰時,可以借助語料庫大數據呈現的詞語相關性的強弱信息來取舍詞語和對所選詞語進行排序,這類基于真實語言大數據的同義詞詞典比通過語言直覺編撰的同類詞典更加真實可靠,也更能滿足語言學習者的實際需求。

(三)彌補語言理論的缺陷

過去語言學研究在很大程度上受亞氏經典范疇理論的影響。例如建立在經典范疇理論上的規定語法、詞匯學和語義學認為語言范疇的特征是二分的,邊界是清晰的,范疇內成員地位是相同的。經歷了維特根斯坦的“家族相似性”理論發展起來的原型范疇理論則認為:范疇是由典型特征構建起來的;范疇成員地位不平等,有典型和非典型之分;范疇成員之間由于相似性構成連續統一;范疇邊界是模糊的[8]。原型范疇理論更符合日常生活中的語言使用與語言認知實際。規定性語法明確提出應該怎么用,不應該怎么用,具有很強的規定性,正確與錯誤是二元對立的。但是語言往往是動態發展的,同時語言還具有模糊性特征,因此語法上正確與錯誤的界限不明確。現在通過語言大數據檢索,就會發現語言現象的模糊性與連續性特點。我們在學習英語語法時曾被相關語法書明確告知:to who是不正確的表達,to whom才是正確的,因為介詞to后要接賓格。這種規定式的二元區分to who和to whom與它們的真實用法不相符。我們很容易從4.5億詞的COCA中檢索到to who這一規定被語法學家視為不正確和不規范的表達使用情況(見表1)。從表1可見,to who表達在非正式的口語、小說文體中有使用,其頻率分別為6.47、2.17;在比較正式的雜志、報紙和很正式的學術文體中也有使用,相應的頻率為 2.03、2.33和1.80。盡管 to whom 這一表達在英語使用中更為常見:在COCA中檢索發現它在口語和小說文體中的使用頻率為5.01、9.89;在雜志、報紙和正式的學術文體中的使用頻率分別為 7.42、5.29、11.62。從這些數據可見,to who與to whom的用法不存在絕對正確與錯誤之分,只有在不同文體中常用與不常用之分,同時這種常用與不常用的界限也是模糊的。因此,這類語言現象的認識只有基于大量的客觀語言使用數據才能夠得到,不能僅憑語言研究者的語言直覺獲取。規定語法等理論的二元區分盡管對學術研究和語言教學帶來極大的方便,但是也有阻礙對語言真實用法研究和認知的缺陷,需要根據大數據提供的證據來進行修正。

表1 to who與to whom在COCA中的使用分布情況

(四)監視語言發展

語言是處在動態發展和變化之中而非靜止的,一些語言現象和結構隨著時間的推移,它們或消失或變異,同時新的語言結構不斷出現。在計算機和大規模記錄存儲與檢索技術出現之前,沒法或者很難觀察和大規模重現語言現象或結構的動態發展過程。現在利用大數據可以很容易監視語言的發展,以海量客觀的數據深化了對語言動態性的本質屬性的認識。牛津大學出版社每年都會根據語言大數據匯總發布本年度收錄的新詞語;國家語言資源監測與研究中心在12億字詞語言大數據基礎上,公布2013年的新詞語364條就是大數據用于監視語言最新發展趨勢的一個例子。

四、大數據下的語言研究新觀

(一)重視概率

正如桂詩春先生指出的那樣:數據的基本特征是頻數(frequency),表現為概率關系,這就促使以概率為基礎的語言研究的蓬勃發展[9]。Jurafsky指出語言的概率性對語言理解、產生,對意義提取、分解和生成產生作用;概率對建立語言變化和差異模型具有重要作用[10]。計算機和網絡技術的發展使運用語言數據獲取的途經多樣化、數據檢索和計算便捷化、數據庫容巨型化,建立在語言數據概率性基礎及概率特征之上的語言學、計算語言學、語料庫語言學、心理語言學獲得前所未有的發展機遇。隨著語言數據的不斷充實和數據處理的自動化程度不斷提高,應把這些以概率為基礎的研究方向推向新的高度,以大數據重塑尊重語言事實的研究理念。

(二)強化歷時研究

語言的歷時研究對探究語言及其結構的演變趨勢和機制有著重要的價值;語言的歷時研究對各個階段語料的分布、數量及其分析處理手段有著特定的要求。以前由于語言歷時數據受限,要想在歷時研究方向實現重大突破和取得比較客觀的結果幾乎不可能。隨著大數據的發展,海量語言歷時數據獲取、存儲和檢索變得簡便易行,以語言歷時大數據為基礎的歷時研究在追溯語言結構、詞匯、形態、語音及語言文化的詳盡演變爆發出新的活力,為語言歷時研究提供了堅實的語料基礎,是語言歷時研究創新的源泉。李華勇借用COHA論述了其對美語詞匯、形態、句法、語義到文化的歷時研究中的作用,就是一個較好的例子[11]。

(三)堅持三個新取向

受大數據思維的影響,語言研究取向有三個新轉變。正如舍恩伯格和庫克耶指出:“大數據代表著我們分析信息的三個轉變,這些轉變將改變我們理解和組建社會的方法。”[1]17轉變之一是語言研究由依據隨機取樣或例子列舉轉變到盡量分析更多的語言數據,甚至是處理某個特定語言現象的所有數據。全樣本的語言數據有利于深入認識、分析和解釋語言現象。轉變之二是語言研究不再追求小范圍的精確性。語言是紛繁復雜和變化多端的,面對語言大數據,小范圍的精確會被大量的“例外”推翻,因此不再過度追求微觀層面上的精確性會讓我們在語言宏觀層面擁有更好的洞察力。轉變之三是語言研究由熱衷于尋找因果關系和構建各種語言解釋模型轉變到研究語言事實的相關關系上。探索語言事實背后的因果關系是語言研究長久以來的模式。即使確定因果關系的難度很大,或者根本不可能或者即使確定出來了作用也有限時,我們還是習慣性地在尋找。在大數據思維的影響下,我們應該努力追尋語言事實之間的相關關系,它將給我們的研究帶來非常新穎的觀點和有意義的發現。盡管語言相關關系不能準確地解釋某一語言現象發生的原因,但是會提醒我們這一語言現象和哪些語言現象或因素有關,或許這樣的提醒對我們理解和認識這一語言現象已經足夠了。

總之,語言研究的這三個新轉變是適應大數據對語言研究帶來巨大變革趨勢的必然選擇,有助于語言研究深入發展和創新。

五、結語

大數據及其思維方式將對人類產生革命性的影響,促進人文社會科學研究進一步量化和客觀化。在大數據視野下,語言學研究將在更大范圍和規模上使用語言大數據進行實證研究,由過去尋找語言事實背后的因果關系轉向追尋語言事實之間的相關關系。大數據對語言研究具有獨特的價值:能夠大范圍觀察語言事實的相關程度和演化過程,促使語言研究更加數據化和精細化,可以解決實證語言學相關理論的缺陷。大數據背景下的語言研究更加強調以概率為基礎,更加注重歷時研究,積極謀求語言研究三個新取向的轉向。

注釋:

①美國語料庫語言學家Mark Davies創建,http://corpus.byu.edu/coca/。

②這里的單位/MIL意為每一百萬詞出現的次數,即每一萬百詞中,get被動式出現的次數為7.13。7.13是后臺統計的具體數據。后面相應的數字單位/MIL省略了。

[1]維克托·邁爾·舍恩伯格,肯尼恩·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.

[2]Cukier K N,Schoenberge V M.The rise of big data[J].Foreign affairs,1992(3):2013.

[3]Manyika M,Chuim,Brown B,et al.Big Data:The Next Frontier for Innovation,Competition,and Productivity[R].McKinsey & Company,2011:5.

[4]越國棟,易歡歡,糜萬軍,等.大數據時代的歷史機遇:產業變革與數據科學[M].北京:清華大學出版社,2013:20-25.

[5]劉紅.大數據:第二次數據革命[N].中國社會科學報,2014-01-21(B1).

[6]李華勇.論語料庫語言學的學科地位[J].重慶理工大學學報(社會科學版),2014(7):119-124.

[7]Davies M.Powerful(yet simple)comparisons of a wide range of phenomena in British and American English[J].ICAME Journal,2014(38):39.

[8]Taylor J R.Linguistic Categorization[M].3rd ed.Oxford:OUP,2003:41-58.

[9]桂詩春.以概率為基礎的語言研究[J].外語教學與研究,2004(1):4.

[10]Jurafsky D.Probabilistic modeling in psycholinguistics:Linguistic comprehension and production[C]//Bob R,et al.Probabilistic Linguistics.MIT Press,2003:4-39.

[11]李華勇.拓展歷史認知語言學研究新視野的工具——美語歷史語料庫(COHA)的應用[J].重慶工商大學(社會科學版),2013,30(6):115-124.

猜你喜歡
語言研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
讓語言描寫搖曳多姿
新版C-NCAP側面碰撞假人損傷研究
多向度交往對語言磨蝕的補正之道
累積動態分析下的同聲傳譯語言壓縮
主站蜘蛛池模板: 久热中文字幕在线观看| 青青久久91| 制服丝袜在线视频香蕉| 亚洲另类国产欧美一区二区| 久视频免费精品6| 一级毛片免费的| 日本91视频| 国产成a人片在线播放| 国产成人精品2021欧美日韩| 99ri精品视频在线观看播放| 婷婷开心中文字幕| 国产精品一区在线麻豆| 亚洲天堂久久久| 专干老肥熟女视频网站| 欧美午夜在线播放| 久久99国产综合精品女同| 中文成人在线| 91人妻在线视频| 日韩第九页| 婷婷午夜影院| 国产97色在线| 欧美日韩专区| 久久人体视频| 永久免费精品视频| 色综合狠狠操| 欧美日韩国产在线观看一区二区三区 | 久久久久亚洲精品无码网站| 大乳丰满人妻中文字幕日本| 久久这里只有精品2| 波多野结衣的av一区二区三区| 大香网伊人久久综合网2020| 久久国语对白| 毛片免费在线视频| 黄色国产在线| 99热这里只有精品在线播放| 日韩欧美综合在线制服| V一区无码内射国产| 国产永久无码观看在线| 欧美激情福利| 四虎永久在线视频| 91精品视频网站| 国产激情在线视频| 亚洲第一成年免费网站| 无码综合天天久久综合网| 自慰网址在线观看| 欧美专区日韩专区| 五月天久久综合国产一区二区| 国产超薄肉色丝袜网站| 久久大香香蕉国产免费网站| 在线欧美国产| www.狠狠| av在线5g无码天天| 久久99国产乱子伦精品免| 国产成人超碰无码| 国产精品伦视频观看免费| 成人在线第一页| 2018日日摸夜夜添狠狠躁| 日韩亚洲高清一区二区| 日韩在线第三页| 亚洲人成网线在线播放va| 欧美成人精品欧美一级乱黄| 婷婷色在线视频| 福利视频久久| 潮喷在线无码白浆| 亚洲欧美一区二区三区图片| 91精品久久久无码中文字幕vr| 国内精品自在自线视频香蕉| 日本成人在线不卡视频| 国内精品自在自线视频香蕉 | 国产精品福利导航| 欧美亚洲第一页| 久久国产av麻豆| 不卡无码h在线观看| 亚洲欧美另类日本| 无码中文字幕精品推荐| 亚洲最新在线| 国产日产欧美精品| 伊人久久大香线蕉影院| 国产不卡网| 一级毛片在线免费视频| 亚洲码一区二区三区| 99久久成人国产精品免费|