張滋暄
摘 要:在信息飛速發展的今天,我們引入了大數據這個廣義的概念,那么對于我的專業,語言大數據,可謂更是全新的一個名詞。在大數據的影響下,語言這門學問的學習和傳播方式已經在潛移默化的發生改變。語言學習者對于語言的認知會影響學習者的學習的效果,大數據的飛速發展給語言學習者提供了更加快捷與系統的方式,豐富了語言信息獲得的方式,提高了語言學習者的學習效率和自我學習能力。
關鍵詞:語言大數據;發展;應用
中圖分類號:H08 文獻標識碼:A 文章編號:1671-2064(2019)20-0194-02
0 引言
本文試圖通過論述回答兩個問題:一是何為語言大數據,即語言大數據應該如何理解;二是如何運用語言大數據,即對語言大數據的研究和發展有何重要意義。這兩個問題同時是本專業未來發展中進一步探索的兩個關鍵問題。在此,我通過兩年學習中得到的一些見解分享,還望予以雅正。
大數據正在以前所未有的廣度和深度影響著這個時代,諸多大數據分析的系統使我們的生活變得更加便利。語言是人類最為重要的交流思想、傳遞信息的工具,是人類生活中不可缺少的重要組成部分。大數據思維和實踐在語言研究及學習領域的應用,有利于人類更進一步地打開語言寶庫,從而幫助人類更好地生活。
1 語言大數據概念的理解
本部分闡述何為語言大數據,如何理解這個概念。后文中通過麻省理工學院的一項研究的研究方式引入本文對于語言大數據的前身的理解,隨后說明語言學在大數據時代之下的新型的觀念,進一步闡釋語言大數據的定義。
自工業革命以來,人類逐漸由傳統的工業時代朝著信息化時代轉變。信息變得越來越廣泛,幾乎所有的事情都涉及各方面的信息,這使得人們迫切的需要利用工具來減輕負擔。而計算機的出現和使用大大的減輕了人們的負擔,其可以幫助人類處理一些基本信息,例如翻譯、數據統計、抽取信息等,使得人們可以集中注意力來做一件事情,在此背景下自然語言和計算語言學應運而生,并發展的十分迅速。2016年初,麻省理工學院(MIT)的大腦與認知科學系在國際頂尖期刊《美國科學院院報》上的一項語言學交叉研究利用已經公開發表的依存樹庫,對37種語言進行了統計分析指出人類語言存在依存距離最小化這一傾向。此研究雖然存在一定缺陷,但卻依舊受到媒體的廣泛關注,而這一研究也充分體現了大數據研究方法在語言認知研究中的重要作用。即在語言系統的運作規律的過程中,運用大量的數據來挖掘多種語言中存在的規律。
2 探究語言學研究與大數據思維的關系
本部分通過闡述大數據對語言學研究產生的重要影響,來進一步分析語言大數據這一新興學科存在和發展的必要意義。信息時代在給當今的語言研究帶來挑戰的同時,也為實現新的語言研究轉變提供了新的契機。首先我們通過一組大數據與語言學相結合的實例說起。
美國Mark Davies教授2013年建立的GloWbE語料庫規模19億詞,“Google Books:British English”語言數據高達340億詞,“Google Books:American English”語言數據高達1500億詞。
大數據思維方式與眾不同之處在于,其要求探索所得出的是“是什么”,從而能夠更好的幫助人們去理解。在信息蓬勃發展的時代,語言研究同樣需要轉變,轉變到尋找語言事實的“是什么”而不是“為什么”,通過了解語言之間的相互關系,能夠更好的理解和認知語言研究,不斷的開闊我們的眼界,為我們帶來新的思路,從而對語言學習產生積極影響。通過數據方法的運用,促使我們產生了一種感知維度,為我們提供了更加清晰、具體的研究方向,從而能夠更好的理解和認識。根據所得的各種語言材料,能夠使我們展開更加深入的研究,探討語言的本質特征,數據手段有助于更好地反映語言的真實狀態和本質特點。
3 分析語言大數據在語言學以及日常生活中的應用
本部分分為三個層次,通過理論與實例相結合來語言大數據在語言教學中非常廣泛的應用,甚至推廣到日常的生活中,我們可以發現語言大數據已經進深入到我們的生活為我們提供了很多便利和新的思維生活方式,打破了傳統的局限性,獲得了更廣闊的視野,從而進一步促進語言大數據這一新興學科的發展[1]-[2]。
3.1 語言大數據在語言學研究中的應用
語言學習者的認知策略會影響學習者的學習效果,大數據技術的發展給英語學習者提供了更加快捷便利準確的方式,豐富了知識的獲得方式,提高了語言學習的個性化和自主性。傳統的學習語言的過程是學習者坐在教室里通過教師的板書講課來實現的,這種教學方式下的學習者是被動的。但隨著大數據時代的到來和當代教學理念的優化進步,學習者應該主動的接受語言知識,互聯網環境下,學習者有相對的自主權,通過大數據提供的海量語言學文庫,可以主動的按照各自喜好或者是各自的長處短處進行有針對性的語言學習,這能提高語言學習者的自主學習的能力,并能更好地適應飛速發展的社會。
在語言大數據出現以前,語言學研究存在一個難以解決的困境。大量學者將研究目的定位探尋一定范圍內語言事實的原因,但這種研究只能在一定范圍內、一定是其解釋和說明小部分語言事實,以至于學者們陷入了建立成千上百種語言學理論和模型,也無法綜合全部語言建立一套完整的語言學研究體系,甚至無法將所有語言事實解釋清楚的困境。這種困境在語言大數據產生后得到了一定的解決。語言大數據深化了語言的研究,加強了對語言的客觀化、精細化的描述,使語言研究由隨機取樣或例子列舉轉變到盡量分析更多的語言數據。因此,語言大數據背景下的語言學研究能夠大范圍觀察語言事實的相關程度和演化過程,擴展了研究的事業和應用服務范圍,避免研究者的認知偏見和語言感知誤差,甚至能夠預測語言現象或事實發展的趨勢,這是傳統語言學做不到的。
3.2 語言大數據在語言教學上的應用
在語言教學中,語言大數據從宏觀和微觀兩方面都發揮著重要作用。宏觀上,語言大數據能夠更好的利用語言,特別是在英語寫作的過程中,一般的研究只能夠從理論和技術層面出發,而數據的利用則是從更深層次的角度出發,探討語言數據的背后價值,不斷的發展和突破,推動中華文化宣傳和發展,促使中華文化在世界范圍內廣泛流傳。在微觀上,語言大數據有利于增強教師和學生的信息化融洽意識,更好地促進英語核心素養的提升,使英語學科朝著更加科學化、現代化的方向邁進。在實際應用中,語言大數據背景下的語言教學,可以迅速及時地批改學生的作文,并對學生的英語綜合能力進行跟蹤指導和改進,有利于學生的自主學習,更能使師生交流更加順暢。與此同時,大數據分析下的語言教學對尖子生和英語“學困生”這兩個群體的特殊學生提供了現實可操作性,使得分類培養和關注會更加方便。
在當今計算機技術高速發展下,大數據預測的準確性越來越高,教師對學生的評價也變得越來越具體,不在局限于主觀客,而是從大數據預算的角度出發。例如,在以往的計算中,由于數據量不夠具體,同時時間較短、所涉及的范圍也比較小,導致所得結論的準確性不高。這使得教師難以作出精準的評價,因而他們只會客觀的參考結論,而不能將其作為最后的評價。
3.3 語言大數據在日常生活中的應用
大數據化實際上是一種機器化,因為大數據的力量必須借助于機器才能發揮實現,而日常生活中最接近機器的語言研究,就是機器翻譯系統的開發和應用相信大家都用過百度或者有道翻譯,也相信會有大部分人對這些翻譯機器的翻譯能力并不是十分滿意。不過,伴隨著大數據時代的來臨,語言大數據在促進語言發展的同時,也能更好地幫助機器翻譯系統產生更大的進步。而拋開機器這一載體的支持,單純看語言大數據這一基于數據的語言分析對日常生活的影響的話,最為顯著的便是語言大數據對出版行業發展的影響。在數字出版的時代,利用大數據技術,借助于多語種情感分析、知識圖譜等先進技術捕捉全球熱點話題,分析全球出版業IP動態,檢測全球圖書、作者、出版社的信息,并能預測銷售趨勢,對于出版行業的選題策劃以及營銷評價分析等有著重要作用。此外大數據技術的應用,將成為出版業轉型升級的重要工具,對出版管理、編務和營銷產生深遠影響。
4 有關語言大數據的余論
本部分包括有關語言大數據在當今社會所產生的效應和一些相關的余論,它所具備的一些特點和帶來的語言研究新觀。語言學是一門學科,但是同時也是一門科學。大數據的出現和廣泛應用使我們體會到:語言學研究可以實現科學化數據化海量精準化,但前提是采用科學的方法。顯然,科學的方法,需要我們付出更多的努力去學習與掌握。從長遠來看,對于語言的學科我們所要掌握了解的還有很多,那么僅憑我們的人腦和書本知識是完全不夠的,海量的信息需要我們去概括總結,最全面系統的方式就是借助大數據的平臺。當然,離著我們預期的所能達到的“語言大數據高度成熟化”還有著很大的一段距離,這需要我們新時代每一個人的努力,共同用大數據與語言學相結合的思維去探索提升。語言的歷時研究對探究語言及其結構的演變趨勢和機制有著重要的價值;語言的歷時研究對各個階段語料的分布、數量及其分析處理手段有著特定的要求。在計算機技術高速發展下,促使大數據蓬勃發展。語言數據的搜索、獲得、儲存變得越來越簡單、方便。基于大數據基礎,促使語言研究探索更加清晰、具體,朝著語言的結構、形態、語音乃至文化等方面發展,為語言研究打下來堅持的基礎,從而能夠朝著更層次的方向發展[3]。
5 結語
通過本文之前的分析,對于如何認識和理解語言大數據、如何運用語言大數據以及語言大數據所帶來的影響,想必我們對這一個新型概念已經有了大致的理解。
綜上所述,大數據時代是一個需要每一個語言教育者和學習者不斷學習不斷完善對世界認知的時代。語言大數據不僅僅是一個簡單的將互聯網和語言學做加法的概念,而是一個大數據滲入語言學習研究,語言的進步同時可以為大數據注入新的活力的復雜而有發展意義的概念。在大數據視野下,語言學研究將在更大范圍和規模上使用語言大數據進行實證研究,由過去尋找語言事實背后的因果關系轉向追尋語言事實之間的相關關系。大數據對語言研究具有獨特的價值。我堅信,隨著互聯網技術的飛速發展,我們語言大數據這一學科將會不斷地查漏補缺,為時代注入新的生機與活力。
參考文獻
[1] 張平,彭海燕.大數據時代的漢語研究應對[J].求索,2015(3):139-142.
[2] 李華勇.大數據視野下的語言研究新觀[J].重慶交通大學學報(社會科學版),2015(4):134-137.
[3] 李華勇.論語料庫語言學的學科地位[J].重慶理工大學學報(社會科學),2014(7):119-124.