王曉玉



摘要:文章探索了中古漢語研究型語料庫的設(shè)計原則和具體構(gòu)建方法。首先,明確了中古漢語語料庫設(shè)計的總原則,并針對語料庫構(gòu)建過程中的每一個環(huán)節(jié)設(shè)立了分原則;其次,把語料庫構(gòu)建過程分為語料選取、語料加工、語料庫管理及檢索系統(tǒng)研發(fā)三大塊,勾勒出了每一模塊構(gòu)建的具體流程和方法,并對構(gòu)建環(huán)節(jié)中遇到的具體問題及對策做出了闡述。文章是對中古漢語研究型語料庫構(gòu)建過程和方法的總結(jié),可以輔助人們更加深入地了解該語料庫的總體概況和使用方法,對語料庫理論的發(fā)展也可起到一定的補充作用。
關(guān)鍵詞:語料庫建設(shè)中古漢語語料標(biāo)注語料檢索
一、 前言
自20世紀(jì)80年代始,中古漢語研究取得了長足進展。然而遺憾的是,古漢語語料庫的建設(shè)遠遠地落后于研究的進展。綜觀國內(nèi)外研究現(xiàn)狀,要么對中古的語料收錄不多,要么沒有進行精細加工。(董志翹2011)中古時期是漢語的質(zhì)變期,中古漢語的研究對于理清漢語語音、詞匯、語法等的發(fā)展脈絡(luò)有著不可或缺的作用。現(xiàn)今語料庫中收錄的中古語料十分不足,而未做分詞標(biāo)注等深層加工又在很大程度上減弱了語料庫的整體使用價值。為使中古漢語研究不斷走向縱深,并有更加整體定性的研究方法和多層面的分析角度,建設(shè)深加工的研究型中古漢語語料庫十分必要。
中古時期的語言面貌與現(xiàn)代很不相同,兩者在語料庫的構(gòu)建上也必然存在差別。一方面,無論在語言學(xué)理論,還是語料庫理論上,針對現(xiàn)代漢語的研究均更為成熟。特別是在分詞標(biāo)準(zhǔn)、語法標(biāo)注類別等方面,現(xiàn)代漢語成果頗多,不僅有權(quán)威的分詞規(guī)范出版,句法分析、格語法、框架語法等多種語法研究也產(chǎn)生了大量研究成果。中古漢語及其語料庫構(gòu)建理論的相關(guān)研究則還很薄弱,尚有待進一步探索。另一方面,中古漢語語料庫在構(gòu)建技術(shù)上還比較落后,自動分詞、自動標(biāo)注的相關(guān)研究相對滯后,這不僅加大了人工操作的工作量,也不利于提高分詞、標(biāo)注的一致性,為語料庫的構(gòu)建質(zhì)量埋下了隱患。除此之外,由于中古漢語只存留在文獻中,并不會出現(xiàn)在日常交際中,這使得語料庫在構(gòu)建目的、加工方法、加工層級上與現(xiàn)代漢語語料庫也有所不同。中古漢語語料庫的構(gòu)建目的較為單一,主要服務(wù)于漢語史研究和古漢語學(xué)習(xí),這就要求在構(gòu)建時更加注重傳統(tǒng)句法、古代特殊語法、特殊語用現(xiàn)象的標(biāo)注,以及疑難字的解析、與現(xiàn)代漢語的對譯等。
中古漢語研究型語料庫主要收錄從東漢到隋的傳世文獻37本,除此之外還有匯集的詩歌雜帖及出土的中古文獻。收錄原始語料的庫容約1000萬字(化振紅2014),加工后的庫容將大大擴展,包括書籍庫、句子庫、詞匯庫、疑難字庫、義項庫、編碼庫六大不同層級的子庫。語料庫采用開源的MySQL數(shù)據(jù)庫[1]對語料信息進行存取,本文擬就語料庫構(gòu)建的相關(guān)問題,進行較深入說明。
二、 語料庫構(gòu)建原則及方法
(一) 語料庫構(gòu)建目標(biāo)及原則
中古漢語研究型語料庫是基于中古漢語書面語的共時專語語料庫,在建立語料庫之初首先要明確的是語料庫構(gòu)建的目標(biāo)和原則。
中古漢語語料庫建設(shè)的主要目標(biāo)有: 1) 提供經(jīng)過校勘的中古文獻已校注的電子版;2) 為中古各種詞匯、語法、搭配等語言現(xiàn)象提供可進行統(tǒng)計的平臺;3) 為中古文獻提供可靠的釋義,為機器翻譯、語言學(xué)習(xí)領(lǐng)域提供基礎(chǔ)材料;4) 為中古漢語語言研究提供大量好的語言實例。
中古漢語語料庫設(shè)計遵循的總原則是: 1) 語料庫的設(shè)計和建設(shè)在系統(tǒng)的理論語言學(xué)原則指導(dǎo)下進行;2) 語料庫語料的構(gòu)成有明確的語言學(xué)理論指導(dǎo),按照一定比例收集語料,而不是中古文獻的簡單堆砌;3) 中古漢語研究型語料庫作為中古時期語言運用的樣本,須采用科學(xué)的方法確定各種語料的比例,使語料具有代表性;4) 語料加工時采用自動和人工相結(jié)合的方式;5) 語料庫中語料以電子文本形式儲存并且可以方便快捷地通過計算機對語料進行各種處理。
(二) 語料庫模塊劃分
在明確構(gòu)建目的和原則的基礎(chǔ)上,初步確立了語料庫構(gòu)建所涉及的幾個模塊,具體如圖1所示:
圖1中“語料選取及整理”“語料加工”是針對具體語料進行的工作,是把選定、加工后的語料整合起來,以一定方式存儲在數(shù)據(jù)庫中。“語料庫管理及使用”是提供管理和使用該數(shù)據(jù)庫的平臺,針對構(gòu)建好的語料庫設(shè)計管理、檢索系統(tǒng),以便為研究者提供共享服務(wù)。這三大模塊在語料庫構(gòu)建中都至關(guān)重要,其中“語料選取及整理”是基礎(chǔ),“語料加工”是核心,這兩者屬語料庫本體層,決定了語料庫構(gòu)建的質(zhì)量。“語料庫管理及使用”屬語料庫應(yīng)用層,決定了語料庫的功能和用戶體驗。這里先介紹本體層的兩個環(huán)節(jié)。
(三) 語料選取及分類
語料是構(gòu)成語料庫的基礎(chǔ),語料的選取是影響語料庫質(zhì)量的重要因素。中古語料庫所收錄的絕大多數(shù)為東漢至隋朝時期的文獻,在選取語料時要遵循代表性、平衡性、關(guān)聯(lián)性與區(qū)別度、特色性四大原則,(化振紅2014)以保證對中古時期語言事實的覆蓋率。入庫的語料如表1所示:
由于影響語言全貌的內(nèi)在因素有很多,單純從某一特征來界定語料庫的代表性、平衡性是不夠的,薩默斯主張采用一種“廣泛的客觀定義的文本類型”(Leech 1991),基于該理論,本文主張從多個角度采用多種特征突出語料的區(qū)別度,如成書時代、作者、作者地域、類型、出土/傳世文獻、語體等,這就使得對語料庫平衡性的界定突破了簡單的線性描述。中古語料庫在收錄語料時,在確保語料規(guī)模的基礎(chǔ)上,盡量均衡語料所具備的各種特征,并保證各種特征的值在所有特征值中不是獨一份的(除“作者”外),從而提高語料庫的代表性和平衡性。
中古時期的文獻雖然以文言為主,但古白話已經(jīng)開始興起,文獻中的口語成分在數(shù)量上雖然比不上文言成分,其增量也十分可觀。然而文獻中的口語成分與書面語成分并不是截然分開的,而是相互混雜、難以剝離的,比如,不少漢譯佛經(jīng)的受眾是廣大勞動人民,為了便于傳播,其口語化程度更深;農(nóng)書、醫(yī)書強調(diào)實用性,口語性也較為突出,等等。基于中古漢語的這一特點,再加上目前市面上已有的文獻情況,中古語料庫確定各種語料的大致收錄比例如表1,其中官修正史和漢譯佛典類語料現(xiàn)存最多,也最具代表性,因此收錄數(shù)量也分別為最多、次多;其次分別是出土文獻、筆記小說、詩歌等。
除此之外,對語料的加工方式及層次也進行了分類。標(biāo)記型指對分詞后的語料僅進行句法層面的標(biāo)注,加工層級較淺;標(biāo)注型指對分詞后的語料進行句法、語義、語用等方面的標(biāo)注,加工層級較深;而自動型指僅借助中古漢語分詞軟件對語料進行分詞的粗加工。從表1可以看出,目前中古漢語語料庫中絕大多數(shù)為深加工語料,標(biāo)注型與標(biāo)記型語料的比例將近1∶6。
(四) 語料加工
語料庫作為一種研究資源,其價值不能僅僅通過規(guī)模來衡量,語料庫更重要的價值在于通過加工給語料庫帶來的“附加”價值。這種“附加”價值就是對語料庫進行多種有用語言信息的加工標(biāo)注,以擴展語料庫的語言信息含量,從而對語言研究做出更大貢獻。生語料庫[2](尤其是漢語)包含的詞法和句法等信息非常少,因此其應(yīng)用價值也就相對有限。分詞是漢語語料庫建設(shè)的基礎(chǔ)性工作,也是進行語料標(biāo)注的前提,而詞是從句子中提取出來的。因此,中古語料庫語料加工流程包括斷句、分詞、標(biāo)注三個部分,具體如圖2所示。
圖2中,斷句是把文本拆成長短合宜的句子,并對句子進行篇章、書籍頁碼等相關(guān)信息的標(biāo)注;分詞是把斷句后的句子根據(jù)中古時期語言的實際使用情況拆分為詞語;標(biāo)注是對拆分后的詞語進行詞性、句法、義項、按語等相關(guān)信息的標(biāo)注。中古語料庫中的斷句過程相對簡單,不贅述,這里主要介紹分詞和標(biāo)注兩大部分。
1. 分詞
漢語的詞沒有形式上的標(biāo)記,因而分詞對于漢語來說是一件麻煩事。為了確保分詞的正確性和一致性[3],首先需要確立分詞規(guī)范。中古漢語分詞的難點已有專文論述(化振紅2014),分詞規(guī)范的細則也將另文闡釋。中古漢語語料庫的分詞采取人工分詞和自動分詞兩種方法。人工分詞是逐句手工錄入,并參考上下文對句子結(jié)構(gòu)以詞為單位分析判斷并逐條錄入,非常耗費人力和物力。自動分詞采用CRF分詞模型(陳晴2005),在模版中加入古漢語音韻、構(gòu)字等信息,以提高分詞正確率,詳情另有專文論述(石民,李斌,陳小荷2010)。需要指出的是該論文的實驗對象是先秦文獻,先秦文獻與中古文獻存在一定差異,再加上中古文獻內(nèi)部本身存在著很大的區(qū)別度(陳小荷,馮敏萱,徐潤華等2013),自動分詞的準(zhǔn)確率不是很高,目前僅在80%~90%,但已成倍提高了人工分詞的效率。現(xiàn)今仍需通過提高分詞一致性、細化分詞規(guī)范、調(diào)整訓(xùn)練數(shù)據(jù)等方法進一步提高分詞的準(zhǔn)確率。
2. 標(biāo)注
為了能夠從語料庫中抽取出更多有用信息,必須對語料進行標(biāo)注。語料庫是供許多帶著不同目的的用戶使用的。數(shù)字化手段讓研究者能從多角度對多層次帶標(biāo)注語料進行數(shù)據(jù)挖掘,大大拓展了語言研究的深度和廣度,有些研究目的甚至連語料庫設(shè)計者都不曾想到過。因此,語料庫的多層次標(biāo)注很重要。中古語料的標(biāo)注應(yīng)遵循兩個基本原則:
一是語料加工分為篇、章、句、詞四個層級,由大到小對這幾個層級進行標(biāo)注。
二是標(biāo)注資源具有復(fù)用性。語料庫的標(biāo)注昂貴且耗時,如果能復(fù)用就物有所值了。為保證語料庫的復(fù)用性,需使每本文獻、每層標(biāo)注信息有足夠的獨立性,改變某文獻、某層的標(biāo)注信息不會對其他語料產(chǎn)生影響。
黃昌寧等(2002)指出,目前語言各層面的標(biāo)注發(fā)展很不平衡。發(fā)展較快的有詞匯層、句法層、語音層和音位層等,今后應(yīng)重點加強語義層和語用層的標(biāo)注。(黃昌寧,李涓子2002)由于中古時期漢語的語音系統(tǒng)與今天相比有很大不同,語音標(biāo)注困難很大且并沒有很強的實用性。語料庫的標(biāo)注取決于語料庫的整體設(shè)計及具體研究目的,同時也是一個重要的檢索依據(jù)。(梁茂成,李文中,許家金2010)中古語料庫的標(biāo)注信息宜涵蓋篇章、詞匯、句法、語義、語用各層,并對文獻中涉及的疑難字以圖片格式進行收錄標(biāo)注。據(jù)此,中古語料庫中的標(biāo)注從大到小包括以下五個方面。
(1) 語篇標(biāo)注。語篇標(biāo)注包括文本來源、版本、朝代、作者等相關(guān)信息。如果語料源于書籍,該書籍的版本、頁碼信息等也會標(biāo)注出來。篇章書籍信息是古文獻、古漢語研究專家進行相關(guān)研究的基本信息。語篇標(biāo)注和校勘后的文獻構(gòu)成中古語料庫中獨立的書籍庫。
(2) 句子標(biāo)注。句子標(biāo)注是把語篇中的句子標(biāo)記上文本自身的信息,以便管理者統(tǒng)一管理語料庫中的語料。常用的文本信息包括行分割符、行數(shù)、章、節(jié)、段落等,中古語料庫中選取“章節(jié)段句”這四層信息組成編碼對句子進行標(biāo)注,形成句子標(biāo)記。該標(biāo)注信息屬于篇章層,但在詞匯層會自動生成詞匯所從屬句子的句子標(biāo)記,從而使詞匯層可以獨立于句子層。該標(biāo)記不僅方便語料庫管理者統(tǒng)一管理語料,而且是詞匯和句子進行關(guān)聯(lián)的中介,為檢索詞匯時可以查詢到上下文信息提供了條件。句子標(biāo)注連同句子形成了句子庫。
(3) 詞匯標(biāo)注。詞匯標(biāo)注是指對詞匯從語法地位、詞性、釋義、用法四個方面進行標(biāo)注,分別稱為“句法標(biāo)注”“詞性標(biāo)注”“義項標(biāo)注”“用法標(biāo)注”。其中詞的句法、詞性、用法標(biāo)注信息均為封閉類,如表2所示:
由表2可知,句法標(biāo)注、詞性標(biāo)注屬于句法層;用法標(biāo)注的層次比較復(fù)雜,大部分屬于語用層,其中“古今字”“通假字”“假借字”屬于漢字層面;義項標(biāo)注屬于語義層。義項標(biāo)注后的詞條匯總形成了義項庫,句法、詞性、用法標(biāo)注信息與詞匯共同形成了詞庫。
詞匯標(biāo)注中,尤其值得一提的是語義層的義項標(biāo)注,它在中古語料庫的構(gòu)建中是一項十分重要的基礎(chǔ)性工作。如果把古漢語中每個詞的現(xiàn)代意義搞清楚,基本語義也就理解了。義項標(biāo)注信息和中古文獻信息形成了古今平行對比語料,因此,義項標(biāo)注在中古語料庫中是重中之重。為了提高義項標(biāo)注的速度,避免把時間過多地花費在查閱相關(guān)資料上,中古語料庫中設(shè)立了通用義項庫,義項庫的構(gòu)成如圖3所示:
中古語料庫中的義項庫目前共包括不重復(fù)的541456條義項,隨著語料庫構(gòu)建過程中自擬義項的增加和其他相關(guān)研究成果的錄入,義項庫的庫容仍會進一步增加。
(4) 按語標(biāo)注。傳世文獻在流傳過程中不可避免地會產(chǎn)生一些訛誤,甚至?xí)霈F(xiàn)不同的文本;再加上時代的限制和編纂者認(rèn)識上的局限,詞典對古代文獻的釋義、對最早文獻的引例也難免會有所疏漏。這種在對文本標(biāo)注時需要特別說明的信息可放在按語中。按語信息可以避免研究者重復(fù)前人已進行過的工作,對研究工作會起到一定輔助作用。
(5) 疑難字標(biāo)注。中古文獻中存在著一些現(xiàn)代字庫中不支持的字,還有一些出土文獻中的字尚未能完全辨識。針對這些疑難字,語料庫專門設(shè)置疑難字庫,以圖片的形式存儲,并對該疑難字進行編號,通過編號可定位到該疑難字的上下文信息及語義信息。
使用Access進行標(biāo)注的主界面設(shè)計圖如圖4所示:
綜上可知,中古研究型語料庫由其所包含文本的書籍、句子、詞匯、義項、疑難字信息(分別對應(yīng)于上圖中的“shuji、juzi、cihui、yixiang、quezi”五張表)組成,包含書籍庫、句子庫、詞匯庫、義項庫、疑難字庫五大子庫。此外,為了方便語料庫的管理和使用,語料庫中還設(shè)有用戶信息庫。
三、 檢索管理系統(tǒng)研發(fā)
語料庫不僅是文本的集合,它還應(yīng)該具有良好的存儲、擴展、檢索、反饋、修正等性能,以便各種研究人員都能從中得到自己所需要的信息。為方便語料庫的管理和使用,我們針對中古語料庫研發(fā)了檢索管理系統(tǒng),其功能如圖5所示。
(一) 管理系統(tǒng)
管理系統(tǒng)是提供給語料庫內(nèi)部成員使用以便操作和管理語料庫的頁面管理系統(tǒng)。它主要提供了書籍和疑難字的增加、刪除、查詢功能。書籍的管理功能是以已加工的語料作為對象按書籍為單位進行的,包括書籍庫、句子庫、詞匯庫、義項庫。對疑難字的管理直接以疑難字庫為單位,每個疑難字的記錄中又有它所對應(yīng)的語料及篇章段信息。如果需要對單個語料中的標(biāo)注信息進行更改維護,無須直接操作語料庫中的數(shù)據(jù),只要在未導(dǎo)入的語料版本中直接通過Access數(shù)據(jù)庫進行修改,確認(rèn)無誤后再次導(dǎo)入數(shù)據(jù)庫即可。
(二) 檢索系統(tǒng)
語料庫建立之后將提供給研究者使用,使他們能夠訪問語料庫內(nèi)容,對相關(guān)語言現(xiàn)象進行分析研究。檢索系統(tǒng)是實現(xiàn)語料庫共享的必要條件,也是語料庫應(yīng)該向用戶提供的基本工具。基于檢索系統(tǒng)在語料庫研發(fā)中的重要地位,中古語料庫檢索系統(tǒng)滿足以下幾個條件。
1. 檢索條件多樣化
檢索條件設(shè)置得是否適宜、專業(yè),這直接決定了語料庫的用戶功能適用性,也影響著使用者對整個檢索系統(tǒng)的使用體驗。由圖5可知,中古語料庫具有五種主要的查詢方式:
(1) 標(biāo)記型查詢。檢索條件是同一詞的詞形、詞性、句法三種信息的組合。
(2) 標(biāo)注型查詢。檢索條件是同一詞的詞形、句法、義項三種信息的組合。
(3) 組合查詢。檢索條件是兩個不同詞的邏輯關(guān)系組合,包括相鄰、同句、或、非四種邏輯關(guān)系。其中“相鄰”指這兩個選定的詞處于同一句子語料中的相鄰位置;“同句”指它們處于同一句語料,但不是相鄰位置;“或”指檢索結(jié)果中包含這兩個選定詞中任何一個;“非”指檢索結(jié)果中包含前一個選定詞但不包含后一個選定詞。
(4) 對比查詢。檢索條件是同一或不同的兩個詞的詞形、句法、書籍信息的組合。用于對同一詞的不同句法地位或所在文獻(或者不同詞的不同句法地位或所在文獻)進行對比檢索。
(5) 疑難字查詢。檢索條件為書籍、疑難字編號兩種信息的組合。
除了這五種基本檢索功能外,中古語料庫還實現(xiàn)了檢索結(jié)果是否附加上下文信息的可選項。還可以針對詞的不同特征選擇不同的查詢范圍,如高頻詞可以選擇某本專書查詢來減小用例的查詢范圍,低頻詞可以選擇全語料庫查詢來擴大用例的查詢范圍。
2. 結(jié)果輸出方便快捷,且易于保存
中古語料庫檢索系統(tǒng)的輸出結(jié)果以網(wǎng)頁形式呈現(xiàn),可直接保存為文本。
3. 解讀清晰易懂
檢索系統(tǒng)頁面上不存在語料庫設(shè)計時所使用的內(nèi)部編碼(如用法碼“RM01”代表用法“姓加名”),內(nèi)部編碼均以轉(zhuǎn)碼形式轉(zhuǎn)換為自然詞匯,符合使用者的操作習(xí)慣,不需要研究者再去過多學(xué)習(xí)語料庫操作規(guī)范,且轉(zhuǎn)碼后整個檢索系統(tǒng)的頁面顯得更加清晰易懂。
4. 具有開放性和可維護性
整個語料庫通過檢索系統(tǒng)實現(xiàn)開放性,通過數(shù)據(jù)庫維護或管理系統(tǒng)實現(xiàn)可維護性。用戶在使用檢索系統(tǒng)時如需交流意見,可在頁面上直接進行反饋,反饋信息會以郵件的形式發(fā)送給語料庫管理員,由管理員收集整理后提交給語料庫維護專業(yè)人員進行討論和回復(fù)。
四、 中古語料庫的應(yīng)用
(一) 漢語史研究
中古語料庫最基本的服務(wù)對象是漢語史研究人員。由于在語篇、句子、詞匯等多個層面對文獻進行了標(biāo)注,它可以支持多種檢索方式,漢語史研究人員利用這些檢索結(jié)果可以進行特定的語言學(xué)研究,例如以下四個方面的應(yīng)用:
第一,使用中古語料庫中最基本的句法、義項、特定句式、詞性、疑難字查詢、統(tǒng)計功能,以輔助相關(guān)的語言學(xué)研究及語文教學(xué)。
第二,根據(jù)不同的研究目的,可對句法、義項、詞性三個條件變換各種組合進行查詢、統(tǒng)計,可用以輔助對中古時期特定詞匯、句法的研究。
第三,根據(jù)字詞的使用頻率統(tǒng)計結(jié)果,大致確定中古時期常用詞的范圍,然后結(jié)合句法、義項、語用查詢來研究常用詞在句法成分、語義等方面的應(yīng)用、變化情況。
第四,檢索同一詞匯、句法結(jié)構(gòu)在各個文獻中的使用情況,以對不同類別、時期、作者的文獻語言風(fēng)格進行對比研究。
(二) 中古漢語詞典編纂
中古漢語語料庫收錄了大批中古時期的文獻,為詞典編纂提供了大量可供篩選的例證。此外,語料庫中對每個詞進行了詞性、句法、義項等方面的標(biāo)注,標(biāo)注時主要采用人工方法,在參考各種權(quán)威中古漢語詞典的基礎(chǔ)上,對各個詞的義項、用法及例證進行考證、補充、修正,此外還對人名、地名、稱號、離合式詞等進行了語用標(biāo)注。這些標(biāo)注信息可以提供中古時期每個詞匯各個層面的統(tǒng)計信息,為中古漢語斷代詞典的編纂提供了直接依據(jù),專家只需根據(jù)分詞情況對檢索到的例證進行篩選,不僅為詞項賦義提供了客觀標(biāo)準(zhǔn),也保證了詞典可以真實反映中古時期的語言面貌,同時也大大減少了詞典編纂人員的工作強度、縮短了編纂周期。
(三) 語言教學(xué)及文化研究
中古漢語語料庫可以直接或間接用于中古文獻的教學(xué)。不僅老師可以利用語料庫向?qū)W生展示某些特定語法范疇、詞匯在中古時期的使用情況,學(xué)生也可以自己利用語料庫來檢索詞的用法、搭配、詞義間的細微差別等,也就是所謂的數(shù)據(jù)驅(qū)動學(xué)習(xí)。這種學(xué)習(xí)方法不僅能為學(xué)生營造一個真實的語境,而且能提供一種探索語言的手段,對教學(xué)的意義是顯而易見的。
除此之外,中古漢語語料庫收錄了中古時期多個領(lǐng)域(如歷史、宗教、醫(yī)學(xué)、農(nóng)業(yè)等)的多本專書,并對這些書做了校勘、分詞、標(biāo)注,這就為相關(guān)領(lǐng)域的文化研究提供了可靠的電子檢索資源。
五、 結(jié)語
中古漢語研究型語料庫是我國第一個針對中古時期文獻的斷代專語語料庫,目前在該語料庫建設(shè)中仍不可避免地存在一些問題,隨著分詞規(guī)范進一步細化、分詞一致性的提高、對中古詞匯特點的深入了解、自動分詞正確率的提升,這些問題也將逐步得到解決。該語料庫目前已應(yīng)用于中古時期專書、詞匯、語法等方面的研究,并產(chǎn)生了一些成果。隨著語料庫的構(gòu)建完成并實現(xiàn)共享,詞典編纂、歸納性語法、語義搭配等相關(guān)應(yīng)用研究不難預(yù)見,而更深層次的語言研究及其他專項應(yīng)用研究也等待諸位同仁共同來發(fā)掘。
附注
[1]MySQL是一種開放源代碼的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),具有速度快、可靠性高和適應(yīng)性強等優(yōu)點。在不需要事務(wù)化處理的情況下,MySQL是管理內(nèi)容最好的選擇。
[2]生語料指收集以后未經(jīng)加工的語料,生語料庫指收錄生語料的數(shù)據(jù)庫;與此相對,熟語料指經(jīng)過加工的語料。
[3]在保持語義同一性的前提下,結(jié)構(gòu)體在語料庫中的分合是否始終一致,如“豬肉”是否始終保持為一個整體,或者始終分開。(孫茂松1999: 90—93)
參考文獻
1. 陳晴.基于條件隨機場的自動分詞技術(shù)的研究.東北大學(xué)碩士學(xué)位論文.2005.
2. 陳小荷,馮敏萱,徐潤華等.先秦文獻信息處理.北京: 世界圖書出版公司,2013.
3. 董志翹.為中古漢語研究夯實基礎(chǔ)——“中古漢語研究型語料庫”建設(shè)瑣議.燕山大學(xué)學(xué)報,2011(1).
4. 國家技術(shù)監(jiān)督局.信息處理用現(xiàn)代漢語分詞規(guī)范.北京: 中國標(biāo)準(zhǔn)出版社,1993.
5. 化振紅.深加工中古漢語語料庫建設(shè)的若干問題.西南大學(xué)學(xué)報,2014(3).
6. 黃昌寧,李涓子.語料庫語言學(xué).北京: 商務(wù)印書館,2002.
7. 梁茂成,李文中,許家金.語料庫應(yīng)用教程.北京: 外語教學(xué)與研究出版社,2010.
8. 石民,李斌,陳小荷.基于CRF的先秦漢語分詞標(biāo)注一體化研究.中文信息學(xué)報,2010(2).
9. 孫茂松.談?wù)劃h語分詞語料庫的一致性問題.語言文字應(yīng)用,1999(2).
10. Leech G. The State of Art in Corpus Linguistics. English Corpus Linguistics, 1991(1): 1—16.
(南京師范大學(xué)中文系南京210000)
(責(zé)任編輯馬沙)