楊書霞
(河南大學 外語學院,河南 開封 475001)
國家人文社會科學基金自1991年設立以來,已對包括語言學在內的26個學科進行資助。立項種類包括青年項目、一般項目、重點項目、重大項目、后期資助項目、成果文庫,以及中華外譯項目八個類別。作為我國級別最高、影響力最大的人文社科研究基金,國家社科基金資助的項目一向被視為反映我國人文社會科學發展水平的重要指標(周麗琴,2015:48)。研究表明,針對基金立項課題進行探討,有助于識別研究熱點和重點,對相關學科的發展有指引和啟示作用(文秋芳 等,2017:23)。因此,本文擬借助開源工具,對2007—2016年的國家社會科學基金語言學項目(以下簡稱語言學項目/語言學課題)進行數據可視化分析,全面呈現國內語言學研究現狀和熱點,以期為今后課題的選擇和申請提供有價值的參考。
針對語言學項目的研究可以從內容和方法兩個層面進行回顧。從研究內容來看,已有文獻集中在整體考察和專項分析兩個方面。整體考察主要從宏觀角度對立項課題進行分析。例如,賈蕃(2016)從產業、高校、科研機構合作共贏的視角,對語言學項目進行了量化分析;此外,還有一些學者對語言學課題的分布特點進行了歷時統計分析(蘇新春 等,2015;蔣躍 等,2016)。相較整體考察,專項分析則多從地域和項目類型等具體層面出發展開討論。此類文獻包括對我國少數民族地區語言學課題立項情況的研究(夏迪婭·依布拉音 等,2014;羅驥,2017),針對某語言學下屬學科的立項分析(王立非 等,2011;張威,2015;黃婷 等,2017),以及對特定項目類型的分析(于云晴,2016;張世淵,2016)。由此看來,目前的研究主要圍繞課題的外部文獻信息展開。學者們通過立項數量、項目負責人、項目承擔機構、地域分布及項目類型等對課題進行系統或專門分析。這些研究的結論和發現不僅為國家社會科學基金對語言學課題的整體規劃和管理提供了參考依據,也為少數民族地區和邊遠地區的社會科學發展,以及地方院校具體學科的建設提供了重要指導。但是,文獻回顧也表明,現有研究對項目內部文獻特征的關注相對缺乏。因此,本文將著重關注語言學課題的內部文獻特征,多角度考察立項課題所反映的語言學研究現狀和發展趨勢。
從研究方法來看,隨著我國學者對實證研究的日益重視,利用專業工具對基金項目進行文獻計量分析的方法也日漸普遍。使用這種方法,有助于我們深度挖掘立項課題背后的學科發展趨勢,把握相關學科的研究重點和熱點(徐俊 等,2014:430)。但在現有針對語言學項目的文獻中,只有少量借助了此類工具,大部分仍然是通過手工采集和處理數據的方法進行分析。因此,使用專業工具對語言學項目進行探討的研究方法還有待進一步開發和探索。與此同時,數據信息的可視化呈現正逐漸受到關注。和傳統的數據處理方式相比,可視化分析能夠通過高頻主題詞共現網絡突出研究熱點,從而直觀形象地呈現學科研究現狀。目前,對語言學項目進行可視化分析的文獻比較少。綜上所述,對語言學課題的研究在方法上存在數據來源不明確以及分析工具落后等問題。因此,本文擬借助開源軟件,對課題進行文獻計量統計和信息可視化分析,以期為今后的研究提供有價值的思路和結論。
本文擬回答以下問題:(1)2007—2016年語言學項目的基本概況如何?(2)語言學項目的研究熱點有哪些?(3)這些熱點具有什么特征?
一般認為,標題與研究主題相關,而重復出現在同一學科不同文獻標題中的主題詞直接反映該學科的研究熱點(牛保義,2007:11)。因此,本文擬從項目標題入手,找到上述問題的答案。為保證研究的可復制性,此次研究所涉及的數據抓取、整理及信息可視化軟件均為可通過互聯網免費獲取的開源工具。
此次研究由數據抓取、主題詞獲取和可視化分析三部分組成。
數據抓取主要通過數據分析工具R語言完成。首先,我們借助R語言中的rvest網絡數據自動獲取包,對基金項目數據庫中的語言學課題信息進行自動采集。然后,我們對所采集的數據進行程序篩選和人工核對,最終獲得2607條項目名稱信息。
主題詞獲取主要通過R語言和語料分析軟件AntConc兩個工具完成。首先,我們使用R語言jiebaR中文分詞包對所得數據進行分詞處理。隨后,我們將已進行分詞處理的標題信息導入AntConc,進行詞頻統計,從而獲取主題詞列表。AntConc提取的結果包括虛詞和一些意義較為寬泛的名詞(如“研究”等)。文獻表明這些詞匯對主題詞間的關系判斷沒有參考意義(常春 等,2009:19)。因此本文在獲取主題詞列表的過程中,將這些詞匯做停止詞(stop word)處理。
可視化分析主要涉及R語言中的ggplot2畫圖工具包以及數據可視化工具Gephi。具體來說,我們借助ggplot2對相關數據進行可視化處理,并通過Gephi對主題詞進行共現圖譜繪制。
圖1為2007—2016年語言學項目年度分布圖。如圖所示,課題數量在2007—2009年基本呈平穩上漲趨勢,三年間共立項444例,年均148例。之后,語言學課題進入快速增長期,2010—2013年立項總數為1170例,年均292例。2014—2016年,立項數量趨于穩定,共立項993例,年均331例。據此,我國近十年來的語言學研究大致可以分為三個階段:第一階段(2007—2009年)為平穩增長期;第二階段(2010—2013年)為快速增長期;第三階段(2014—2016)為穩定發展期。
本文對高頻主題詞的討論主要圍繞熱點語種和研究領域兩個方面展開。
3.2.1熱點語種
表1為近十年語言學課題研究語種的高頻主題詞列表。其中,“漢語”高居榜首,遙遙領先于其他語種主題詞,其詞頻是排名第二位的“英語”的五倍。這說明雖然英語是我國外國語言學領域的主要研究對象,但漢語研究在課題中占絕對主導地位。與此同時,排名第三的主題詞“英漢/漢英”不僅表明比較/對比分析是我國學者分析英漢兩種語言時常用的研究方法,也再次印證了這兩種語言在國內語言學研究中的受關注程度。除英語以外,日語和俄語也是我國外國語言學領域的研究熱點。但是從詞頻來看,這兩種語言的影響力和英語相比還相差甚遠。在少數民族語言研究方面,近十年來比較受關注的語種是蒙古語、藏語和維吾爾語。這三個語種的研究熱度也高于日語和俄語,充分反映了國家社會科學基金對我國少數民族語言研究的支持力度。

圖1 2007—2016年國家社科語言學項目年度分布圖

序號語種詞頻1漢語6792英語1323英漢/漢英1264蒙古語/藏語/維吾爾語1115日語/俄語58
3.2.2研究領域
語言學研究領域大致可分為三個層面:微觀語言學、宏觀語言學和應用語言學。微觀語言學是對語言本體,也就是語言內部特征的研究。從多語言比較/對比的角度看,微觀語言學也包括在語法行為基礎上進行的類型學研究。宏觀語言學是通過語言學理論與其他學科互動而進行的跨學科研究。例如,語言學和社會學理論互動生成的社會語言學,語言學和計算機技術結合產生的計算語言學,以及關注語言與文化關系的文化語言學等等。應用語言學是將語言學發現應用于其他領域的學科,例如語言教育、詞典編纂、翻譯及自然語言處理等。
表2列出了各研究領域的高頻主題詞??梢钥闯?,在微觀語言學領域,“語法”詞頻最高,這說明對語言結構規則的探討是本體研究的重點。而“語義”“句法”“語音”的高頻出現,表明語法三大模塊也是我國語言學研究的關注焦點??傮w而言,在本體研究方面,立項課題覆蓋面全,涉及語言的各個層面。這一方面表明我國語言本體研究發展已經比較成熟,另一方面也從側面印證了國家社會科學基金對理論研究和基礎研究的重視程度(蘇新春 等,2015:118)。
在宏觀語言學領域,近十年來利用語料庫進行研究的課題高達233項,說明語料庫語言學是該領域使用度和關注度最高的學科。這一結論和蔣躍、祁玉玲(2016)對語言學立項情況分析的結果一致。“認知”以133的頻次高居第二,證明了認知語言學在功能主義流派中一枝獨秀的主導地位。排名第三和第四的“文化”語言學和“接觸”語言學都可被視為社會語言學的分支:前者主要研究語言和文化的關系,以及不同族群對世界的感知方式;后者則關注不同的言語社區在密切互動和接觸時對彼此語言系統的影響。這兩個主題詞的高頻出現,說明社會語言學已經成為我國宏觀語言學領域的另一熱點學科。在應用語言學領域,排名靠前的主題詞分別為“翻譯”“教學”“學習”和“習得”,說明這十年來我國在該領域的研究主要集中在兩個方面:翻譯和語言教育。

表2 研究領域高頻主題詞列表
從年度分布來看,如圖2所示,以語料庫語言學和認知語言學為理論框架的課題在2007—2016年呈快速增長趨勢,表明這兩個學科的影響力正在迅速擴大,也預示它們在未來還將保持強勁的發展勢頭。另一方面,文化和接觸語言學的立項課題盡管也保持著逐年增長的趨勢,但其發展速度和前兩個學科相比仍有不小差距。這說明社會語言學作為研究熱點之一,仍具有較大發展潛力。

圖2 研究領域部分高頻主題詞年度分布圖
圖2還表明,近十年來,翻譯課題數量基本呈直線上升趨勢。這與張威(2015)和黃婷、黃勤(2017)對我國翻譯研究的分析結果一致。同時,我國的語言教育課題主要從以教師為對象的語言教學研究和以學習者為對象的語言習得研究兩個視角進行。從年度分布來看,“教學”近十年的分布曲線呈現逐年下降的趨勢,不如“習得/學習”研究的發展穩定。語言學習/習得課題數量的逐年增長,表明我國學者越來越重視學生在語言教育中的主體地位。
詞頻統計僅能提供當前語言學的研究輪廓。利用專業工具對主題詞進行共現信息統計和可視化分析,不僅可以凸顯研究熱點,更能清晰體現語種與研究領域的關系,將熱點分析形象化與細致化(鄧君 等,2014:133)。針對熱點語種分布,我們分別以:屬于漢語和我國少數民族語言的主題詞、屬于外語的主題詞,以及涉及雙語的主題詞為基點,進行共現數據可視化分析。在主題詞共現圖譜中,一個節點代表一個主題詞,節點之間的連線代表主題詞間的共現關系。到某一節點的連線越多,說明該主題詞的中心度越高。高中心度是主題詞熱點地位的象征。
3.3.1漢語和我國少數民族語言研究
圖3是以“漢語”和我國三大少數民族語言“蒙古語”“藏語”“維吾爾語”為基點生成的主題詞共現圖譜。其中,“漢語”中心度最高,再次證明漢語各層面的問題是我國語言學項目的研究重點。該節點與其他三個語種節點之間的大小對比,也表明語言學課題對國內語種的關注分布不平均。
從連線來看,和四個語種主題詞共現頻次都比較高的一個節點是“方言”,說明在對我國語言的研究中,方言研究占比很重。從節點分布來看,學者們對方言的研究主要著眼于兩個方面:方言分布研究(如“湘西地區漢語方言地圖集”)和方言接觸研究(如“黎語和漢語方言接觸研究”)。
在微觀層面,漢語和民族語的研究領域涉及語法的各個層面,但對語音問題的探討比較突出。此外,針對這些語言的類型學研究也是一個重要熱點。從宏觀角度來看,語料庫語言學理論在漢語及民族語研究中的應用都比較廣泛。此外,認知語言學,尤其是構式語法,也是近年來漢語研究重要的理論支撐。但是,圖3也反映出認知語言學理論在民族語研究中的應用并不普遍。這一方面說明該理論在我國語言研究中的應用分布不均衡,另一方面也說明和漢語相比,我國民族語研究工作的發展比較落后。

圖3 漢語類主題詞共現網絡
圖3還表明我國應用語言學領域的研究主要集中在漢語教育方面,研究重心可以從“母語VS第二語言”和“教學VS習得”兩個角度進行界定。以漢語為母語的研究主要集中在兒童漢語習得和特殊漢語教育兩個方面,而以漢語為第二語言的研究主要關注國際漢語教學和漢語習得。此外,語言學課題對我國少數民族的語言教育研究相對較少,具有較大的發展空間。
3.3.2外語類研究
圖4是以“英語”“日語”“俄語”為基點生成的主題詞共現圖譜。如圖所示,國內學者對英語和日俄的研究重心有顯著不同。英語課題主要以英語教育研究為主。其中,對學習者聽辨能力,寫作能力,和讀寫能力的研究,以及對英語教師專業能力和發展的研究是我國學者最關心的內容。而日俄研究較少涉及應用語言學領域,主要為針對詞匯、語義、句法等的語言本體研究。這種鮮明的對比是我國政府對英語教育長期重視的結果。隨著我國國際社會影響力的不斷提升,各個語種的人才都成為我國參與國際事務不可或缺的力量。在這一大背景下,這種重英語而輕小語種的研究模式容易造成我國小語種人才缺失(蘇新春 等,2016:88)。為適應我國的發展戰略,國家社會科學基金今后應考慮加大對小語種教育的支持力度。

圖4 外語類研究主題詞共現網絡
除語言教育外,我國小語種研究的滯后性還表現在兩個方面。一方面,日俄研究對語音層面的分析比較缺乏,說明國內語言學對小語種本體研究的覆蓋不全面;另一方面,雖然語料庫語言學在外語類課題中也是最受關注的理論,但是它在小語種研究中的應用度非常低,這從另一個側面反映出我國外語小語種研究的落后程度。
3.3.3英漢/漢英研究
圖5是以“英漢/漢英”為基點生成的主題詞共現圖譜。如圖所示,近十年來,“英漢/漢英”的研究熱點有三個:(1)對兩種語言的本體比較/對比研究(如“基于語料庫的英漢程度副詞的極性特征對比研究”);(2)對英漢翻譯的研究(如“基于翻譯過程語料庫的漢英翻譯單位認知研究”);(3)對英漢專業語言的詞典編撰(如“英漢醫學大詞典”)。此外,基于英漢語法行為的類型學研究也是對這兩種語言進行比較/對比研究的常用角度。由此可以看出,課題對漢英兩種語言的理論和應用研究都比較全面,再次印證了這兩種語言在我國語言學課題中的優勢地位。

圖5 以“英漢/漢英”為基點的主題詞共現網絡
在已有研究的基礎上,本文借助開源工具對國家社會科學基金語言學項目進行了可視化文獻計量分析。我們首先梳理了課題的基本概貌,然后通過網絡可視化工具,對熱點主題詞的共現信息進行了呈現,并在此基礎上對國內語言學的研究現狀和熱點進行了深入探討。數據分析顯示,我國語言學研究總體呈現出以下特點:
針對各熱點語種主題詞的共現圖譜分析表明,近十年來,語言學課題的一個重要特點就是越來越依賴以語料庫為基礎的研究方法。這意味著我國的語言學研究正在經歷實證轉向,因為語料庫語言學從本質上來說屬于實證性研究(Biber et al.,2017:548)。相關文獻表明,近年來,國外的語言學文獻也呈現出實證主義的特點(孫亞 等,2017:699)。這說明實證轉向已經成為全球語言學研究的一個總體趨勢。
高頻主題詞的年度分布表明,近十年來,我國有三個語言學學科呈現出強勁的發展勢頭。它們分別是語料庫語言學、認知語言學和翻譯研究。語料庫和認知語言學都是20世紀80年代從國外引進的宏觀語言學理論。這兩個學科近年來的飛速發展,不僅表明它們已成為國內語言學的研究熱點,也從側面說明我國學界對國際前沿理論借鑒和吸納的能力非常強。翻譯課題數量的直線上漲,則是我國國際地位不斷提升和對外交流繁榮發展的產物(黃婷 等,2017:36)。隨著我國經濟和科技實力的快速發展,翻譯學科將繼續保持強勁增長勢頭,在國內語言學的地位還會進一步提升(張威,2015:109)。
前文的數據分析和討論表明,漢語和英語是我國語言學項目的兩個重點研究語種。立項課題不僅對英漢語的比較/對比研究覆蓋全面,對兩種語言教育的研究也非常關注。英語教育研究在國內語言學課題中的普及,是我國對外交流日益繁榮的必然結果。同時,隨著我國國力和國際影響力的不斷提高,到我國學習和工作的國際人士越來越多,國外開設漢語課程的學校也與日俱增。這意味著漢語二語教育研究在國內語言學的地位還將進一步提升。因此,國家社會科學基金也應盡早布局,適當加大對漢語二語教育研究的支持力度。
漢英兩種語言在語言學課題中的絕對優勢地位,也表明我國語言學學科目前呈現出發展不均衡的特點。雖然國家社會科學基金近年來不斷加大對民族語研究的支持力度,但無論是從立項數量還是從研究角度的多維性來看,民族語和漢語還相差甚遠。漢語研究領域覆蓋全面,而民族語研究在認知語言學和語言教育方面的文獻相對較少。在外國語言學課題中,英語和小語種的不均衡發展也非常明顯。除了立項數量的鮮明對比,這種不均衡特性還體現在對小語種本體研究覆蓋面不全和對熱點理論應用率低等方面。這一特性不利于我國語言學研究的長遠發展。尤其是隨著“一帶一路”項目的深入實施,對民族語和外語小語種進行深入研究的必要性更加凸顯。因此,國家社會科學基金應結合我國發展戰略,考慮進一步加大對民族語和小語種研究的支持力度;學者在選擇課題時,也應注意拓寬思路,對小語種和民族語進行多角度和全方位探討。