面向語言分析的語料庫技術平臺建設

2019-09-12 10:41:42馬創新梁社會

智能計算機與應用 2019年4期

馬創新梁社會

摘要：為了提高語言研究者的工作效率，開發了語料庫技術平臺 Inspire1。本系統兼具通用性、全面性、一體化和易用性等特點，集成了語料采集、加工、統計、檢索和分析等5個模塊。利用本系統，能夠使研究者直觀地觀察到語料庫中蘊含的語言規律，從語料庫中發現新的知識。

關鍵詞：語料庫;語言研究; 軟件

文章編號：2095-2163（2019）04-0100-04 中圖分類號：TP319 文獻標志碼：A

0 引言

在當今大數據時代，人們可以利用的數據量每年都以指數倍增長，所以在語言學研究中，原始語料的獲取已經不再是難題，而如何利用先進的智能技術高效地采集語料、加工語料和分析語料，已成為當今語料庫語言學界亟需解決的重要問題。

語料庫建設和應用技術能夠減輕研究者的工作負擔，提高語言研究的效率。因此，構建一個語料庫技術平臺，對于語言教學和研究有著較大的實際意義[1]。語料庫技術平臺建設是一項多學科交叉的復雜工作，研究者不僅要掌握先進的計算機技術和知識組織方法，還要具備深厚的語言學功底。

1 語料庫處理軟件概述

1.1 當前常用的語料庫軟件

許家金和賈云龍[2]參照McEnery & Hardie[3]對語料庫軟件的分類方式，提出按照語料庫軟件的運行環境可以把語料庫工具分為3類，一是運行在DOS環境下的工具，如：CLOC、XANADU、TACT、MiniConcordancer、MicroConcord等;二是運行在Windows或其它圖形操作系統中的工具，如：Wordsmith Tools、AntConc、MonoConc Pro等;三是基于互聯網的語料庫網絡應用工具，如：CQPweb、BYU corpora、SketchEngine等。

李亮[4]按照語料庫軟件開發者的國籍來劃分，當前常用的語料庫軟件和其來源國分別是：美國有Conc、Paraconc、Monoconc;英國有MicroConcord、Wordsmith Tools、Longman MiniConcordancer、Free TextBrowser、Concordance;德國有LEXA、TextSTAT;加拿大有Concorder;日本有CorpusWizard;中國香港有Concapp。從語料庫軟件的數量和品質兩方面來看，英國在該領域占據領先地位，其次是美國和德國。

1.2 普遍存在的問題

分析眾多語料庫處理軟件，筆者發現國內開發的語料庫軟件數量少、使用率低[5]。此外，這些語料庫軟件還普遍存在以下幾方面的問題：

（1）用于分析和處理漢語語料的軟件較少。漢語具有與英文不同的特點，比如在計算機字符集中，一個漢字與一個英文字母所占用的存儲單元是不同的。再如漢語還存在分詞連寫的問題，不像英文每個單詞之間都有間隔。

（2）有些語言處理軟件的功能單一，并且只能完成淺層任務。僅能用于某一項具體的語言處理工作，在實際的語料處理中，需要使用多個軟件才能完成一項任務。

（3）有些語言處理軟件易用性較差。主要表現在設計不合理、界面不友好、操作復雜、沒有做到簡單易用、難以在語言學領域推廣使用。

為了能夠切實解決語言研究中的困難，提高工作效率，針對當前語料處理軟件所存在的問題，筆者提出設計語料處理軟件的4條原則[6]：

（1）通用性原則。全世界現有語言大約在5 000～7 000種之間，使用人口超過100萬的語言約有140多種，有文字的語言在930種左右。開發的軟件應該具備廣泛的通用性，能夠處理漢語、英語、法語、俄語等使用人口較多的語言文字。

（2）全面性原則。應該開發功能集成化的“分析型深層工具”，所設計的語言處理軟件不僅能夠發現表層語言現象，而且能夠挖掘出深層語言規律。

（3）一體化原則。軟件的各項功能要按照語料處理時的先后順序進行組合，而不是簡單疊加在一起。語料采集、加工、統計、檢索、分析等各項功能及其子功能之間要具有一定的邏輯關系，形成統一的功能整體。

（4）易用原則。軟件設計應遵循用戶至上原則，采用訪談法和問卷調查法充分了解語言研究者的需求狀況。在人機接口的設計方面，做到簡易直觀，讓用戶通過很少的學習和訓練，就能夠使用軟件[7]。

2 系統模塊與功能設計

本系統使用的編程語言是C++，編程工具是Microsoft Visual Studio Community 2015，使用了MFC類庫[8]。其主要功能模塊如圖1所示，分為6個子模塊：公用模塊、分析、檢索、統計、加工和采集模塊。公用模塊的功能是選取、顯示和輸出語料文件的，其它5個子模塊都要用到公用模塊來選擇和瀏覽待處理語料文件、以及顯示與輸出處理后的結果文件。

語料庫技術平臺Inspire1主要包括5大功能，對此可做闡釋分述如下。

（1）語料采集功能。包括2項子功能：

①WEB爬蟲。用以獲取指定網頁中的所有鏈接并且保存所有鏈接網頁到本地文件夾中。

②文本清洗。由于網絡上采集下來的WEB資源中摻雜著大量的雜質信息，如字體信息、格式信息、廣告、超鏈接等，需要對網頁內容進行數據清洗，以去除其中的雜質。

（2）語料加工功能。語料采集過后，需要再做加工，使得語料在形式上保持一致，以便于檢索和統計。這項功能包括4項子功能：

①語料的分割與合并。用以調整語料文件的大小。

②按照斷句標記對文本做斷句處理。斷句標記是由使用者定制的，以此來調整語料中每個片段單位的長短。

③字符編碼的轉換功能?？墒刮谋疚募淖址幋a在Unicode、Big5、UTF8、GBK等編碼之間實現自由轉換。

④人工標注輔助系統。在語言研究中，經常要對語料進行人工分詞和標注，該系統能起到輔助作用。還能根據預定規則對標注后的語料進行檢驗，發現違反規則的情況就會給予提示[9]。

（3）統計功能。語言研究中經常要統計語料中的字頻、詞頻和詞類頻率，這項功能包括4項子功能：

①字頻統計。統計出語料中出現的字型數、字型出現的頻次和頻率。能夠統計單字頻率、“鄰近雙字”的同現頻率、“鄰近三字”的同現頻率、以及“鄰近四字”的同現頻率。

②詞頻統計。統計出語料中出現的詞型數，每個詞型出現的頻次和頻率。能夠統計單詞頻率、“鄰近雙詞”的同現頻率、“鄰近三詞”的同現頻率、以及“鄰近四詞”的同現頻率。

③詞類統計。統計出語料中出現的詞類數，每種詞類的出現頻次和頻率。能夠統計單個類別的頻次和頻率、“鄰近雙類”的同現頻率、“鄰近3類”的同現頻率、以及“鄰近四類”的同現頻率。

④風格統計。統計出語料中的詞型數、詞例數、詞型與詞例之比、平均句長、句長標準差、段落數、平均段落長、以及段落長標準差。

（4）檢索功能。可分為4項子功能，分別提供4種類型的檢索。分析后，可得研究概述如下。

①簡單檢索。用戶輸入一個關鍵詞，系統能夠從語料庫中查找出所有該詞的用例，并用紅色字體把用例中的關鍵詞標示出來。同時，還能把包含這個關鍵詞的文本片斷全部抽取出來，存在一個新的文件中。文本片斷可以是以小句為單位，也可以是以整句或段落為單位，用戶能夠自己定義。

②復雜檢索。用戶可以輸入多個關鍵詞，系統能夠查找出語料庫中所有這些詞的用例，并用紅色字體把用例中的關鍵詞標示出來。同時，能把包含這些關鍵詞的文本片斷全部抽取出來，存在一個新的文件中。關鍵詞之間的出現關系是“并且”還是“或者”，能夠由用戶來設定。

③高級檢索。系統能夠按照用戶輸入的正則表達式檢索語料，并且用戶可以自主設定所抽取的語料片段的形式，編輯斷句標記。

④特殊檢索。用于處理分詞之后的文本，用戶輸入一個關鍵詞，并且指定在關鍵詞之前的詞語個數、以及在關鍵詞之后的詞語個數，系統能夠查找出“前詞+關鍵詞+后詞”這種形式詞串的所有用例，并用鮮紅和深紅2種顏色字體分別把前后詞和關鍵詞標示出來。系統還能夠統計出這種形式詞串的出現頻率[10]。

（5）分析功能。可分為3項子功能，分別提供3種類型的分析模式。這里，可給出內容表述如下。

①特征詞分析。系統能夠按照預設算法提取各個語料文本的特征詞，進而為文本分類，信息抽取提供技術支持。

②共詞分析。系統能夠對一組詞兩兩統計其在同一篇文獻中出現的頻次，以此為基礎對這些詞進行聚類分析，分析結果能夠反映出這些詞之間的親疏關系，有效地展示這些詞之間的關聯，進而可以分析這些詞所代表主題的結構變化。

③相似度分析。系統能夠通過計算文獻之間在詞型等級方面的相關系數，來獲取量化的語言風格相似度。

3 軟件系統應用流程

（1）首先利用“采集模塊”的子模塊“WEB爬蟲”從互聯網上抓取含有語料文件的網頁集合，再利用“文本清洗”模塊對含有HTML標簽和廣告等雜質的網頁集合進行數據清洗，得到“原始語料”。

（2）利用“加工模塊”的子模塊“合并分割”對文獻資料作合并或分割處理;“文本斷句”模塊作斷句處理;“字符編碼”模塊轉換語料文件的字符編碼;“人工標注”模塊對語料進行分詞、標注詞性、標注語義角色等處理;經過此階段的處理得到“精加工語料”。

（3）利用“統計模塊”中的“字頻統計”子模塊統計出語料文件的字頻信息;“詞頻統計”模塊統計出語料文件的詞頻信息;“詞類統計”模塊統計出語料文件的詞類信息;經過此階段的處理得到“統計報告”。

（4）利用“檢索模塊”的各項檢索功能，根據研究的需要，對語料文件進行檢索和信息抽取，得到 “檢索報告”。

（5）利用“分析模塊”的各項分析功能，分析特征詞、共詞和文本的相似度，得到“分析報告”。

本系統的應用流程如圖2所示。

本系統初始界面的上方是一個標簽視圖控件，該控件中還包含多個標簽視圖控件和表單視圖控件，下方并排安置2個瀏覽器視圖控件，其中左邊控件主要用于顯示輸入文件的內容，右邊控件主要用于顯示處理結果[11]。以“簡單檢索”界面為例，如圖3所示，界面的上方是提供給用戶交互的界面，左下方控件中顯示的是待處理的文件內容，右下方控件中顯示的是以“曰/v”作為關鍵詞的查找結果，所有符合查找條件的語句片段都顯示這里。

4 結束語

為了提升語言分析的效果，使研究者直觀地觀察到語料庫中蘊含的語言規律，從語料庫中發現新的知識，設計并實現了語料庫技術平臺 Inspire1。本軟件采用面向對象的思想編程，各部分功能相互獨立，具有較強的可擴展性，并且是無需安裝的綠色軟件，占用很少的存儲空間，能夠滿足語料庫建設和應用中的大部分技術需求。

參考文獻

[1]馬創新. 語料庫技術平臺使用指南（語料處理軟件）[2019-04-09]. http：//blog.sina.com.cn/s/blog_740006d40102x448.html.

[2] 許家金，賈云龍. 基于R-gram的語料庫分析軟件PowerConc的設計與開發[J]. 外語電化教學，2013（1）：57-62.

[3] MCENERY T， HARDIE A. Corpus linguistics：Method， theory and practice[M]. Cambridge：Cambridge University Press， 2012.

[4] 李亮. 英語語料庫檢索工具的設計理念及其深層化[J]. 外語電化教學，2007（6）：16-20.

[5] 王立非，梁茂成. WordSmith方法在外語教學研究中的應用[J]. 外語電化教學，2007（3）：3-7，12.

[6] 周曉云.手段與效果的正比論—語言教學的現代化手段[J]. 電化教育研究，2001（12）：34-35.

[7] 馬創新，陳小荷. 文獻中的詞型分區規律與高頻特征詞的發現[J]. 語言文字應用，2018（3）：124-133.

[8] MALIK D S. C++編程—數據結構與程序設計方法[M]. 晏海華，等譯. 北京：電子工業出版社，2003.

[9] 馬創新，陳小荷，曲維光，等. 《論語》與其注疏文獻對齊語料庫的構建[J]. 現代教育技術，2012，22（7）：109-113.

[10]馬創新，陳小荷. 文獻中的詞語分布、詞型等級和風格計算[J]. 中文信息學報. 2017， 31 （4）：20-27.

[11]姜秋霞. 信息技術輔助語言教育的研究范式[J]. 電化教育研究，2010（6）：107-108.

智能計算機與應用2019年4期

智能計算機與應用的其它文章: 高級打地鼠游戲的設計與實現; 嬰幼兒體溫監測器設計; 基于背景感知相關濾波的無人機目標跟蹤算法; 基于BP神經網絡的水果識別研究; 社交網絡公眾意見分析研究; 基于臉部特征分析的無人機跟拍系統