電力專業(yè)語料庫增量構(gòu)建與離線應(yīng)用方法

2019-03-29 10:16:12張新陽李輝

科學(xué)與技術(shù) 2019年10期

張新陽李輝

摘要：專業(yè)小型語料庫具有目標(biāo)明確、語料收集針對性強(qiáng)、語料可更新、標(biāo)注靈活等特點(diǎn)，在各個專業(yè)領(lǐng)域的應(yīng)用日益增多。為了滿足電力行業(yè)單位在辦公、管理、決策等文本處理過程中的需求，建設(shè)一個電力語料庫，提供各種語料檢索及應(yīng)用具有現(xiàn)實(shí)意義。給出了基于Web采集技術(shù)的語料收集、語料處理和語料代表性度量、語料增量更新及子語料庫抽取并離線應(yīng)用的設(shè)計實(shí)現(xiàn)過程。利用云南電網(wǎng)的文本語料進(jìn)行試驗(yàn)，采用三種方法對語料的代表性進(jìn)行度量，利用距詞頻中心的距離指標(biāo)對度量結(jié)果進(jìn)行評價，使用詞語覆蓋度、加權(quán)詞語覆蓋度、詞語重現(xiàn)度等度量方式來表達(dá)通過抽取語料形成的子語料庫與原始語料庫的差異。試驗(yàn)表明，電力專業(yè)語料庫具有特征較為集中的長尾特征，即80%的語料特征可由20%的語料表達(dá)，使用按需求抽取子語料庫離線應(yīng)用具有很好的實(shí)際效果。

關(guān)鍵詞：電力語料庫；距離指標(biāo)度量；詞頻統(tǒng)計；離線應(yīng)用

1 引言

利用計算機(jī)來搜集、整理和加工語料并形成語料庫是研究語言文字的常用方法[1]。目前，國內(nèi)外研究團(tuán)隊構(gòu)建了大量通用語料庫，如Brown、Semcor、LOB、ICE等英文語料庫以及國家語委現(xiàn)代漢語語料庫、北大語料庫、臺北“中研院”語料庫等中文語料庫[2]。另有領(lǐng)域?qū)Ｓ谜Z料庫如學(xué)習(xí)者、FAO農(nóng)業(yè)英語語料庫、中介話語語料庫、學(xué)術(shù)語篇語料庫、法律語料庫[3]等應(yīng)用于特定行業(yè)。語料庫的建設(shè)大多采用基于通用詞典標(biāo)注的方式進(jìn)行，分為語料收集和預(yù)處理、標(biāo)注規(guī)范的制定、質(zhì)量監(jiān)控等過程[4]。收集的語料大多來源于組織發(fā)布的文獻(xiàn)或Web文本，其中來源于文獻(xiàn)的語料較為正式但信息錄入需耗費(fèi)大量人力，來源于網(wǎng)絡(luò)的語料采集成本低，目前被廣泛使用[5-7]，但語料的代表性和準(zhǔn)確性與網(wǎng)站質(zhì)量有較大關(guān)系。

語料庫處理與應(yīng)用的核心問題是從大量的語料中取得文本特征并表示及應(yīng)用。若將語料視為文本特征空間的樣本，則語料庫是一個樣本集，其在特征空間的分布狀態(tài)即為語料庫的重要特征。目前文本分類的研究目的即是希望通過建立單層或多層次的分類來表達(dá)文本集合的分布特征[8-15]。語料庫的分析、度量、約簡等操作均與文本分類及文特征提取與表達(dá)有重要聯(lián)系。

行業(yè)語料庫通常只針對一個專業(yè)領(lǐng)域。主要應(yīng)用于行業(yè)知識庫建設(shè)、問答系統(tǒng)開發(fā)及機(jī)器學(xué)習(xí)系統(tǒng)訓(xùn)練等。目前，行業(yè)語料庫建設(shè)與應(yīng)用的難點(diǎn)問題包括語料庫規(guī)模的確定，語料庫的更新及其復(fù)制應(yīng)用。語料庫規(guī)模過大會降低其應(yīng)用的效率，同時耗費(fèi)處理、存儲、網(wǎng)絡(luò)等資源，而規(guī)模過小，則無法有效地表達(dá)行業(yè)文本的主要特性。語料庫的離線應(yīng)用，即通過子集化操作取出語料庫中的一部分內(nèi)容進(jìn)行使用，如何提取復(fù)制的這部分內(nèi)容能夠最大可能地代表完整語料庫的特征也是應(yīng)用的難點(diǎn)問題。本文面向電力行業(yè)，圍繞電力用戶應(yīng)用需求，利用Web進(jìn)行語料收集，采用基于詞典的方式對預(yù)處理后的生語料進(jìn)行標(biāo)注，利用相似度計算模型對語料代表性進(jìn)行排序，通過增量方式對電力語料庫進(jìn)行更新，從而建立電力行業(yè)專用語料庫，貼合專業(yè)領(lǐng)域用戶在辦公、管理、監(jiān)督、協(xié)調(diào)、決策等工作過程中對于文本搜索、文本處理等任務(wù)的需要，為專業(yè)用戶進(jìn)行文本分析、處理等任務(wù)開展奠定基礎(chǔ)。

2基于Web的電力專業(yè)語料庫增量構(gòu)建方法

2.1基于Web采集的語料獲取及預(yù)處理

基于Web的語料采集是通過網(wǎng)絡(luò)獲取、分析、提取Web網(wǎng)頁內(nèi)容，并進(jìn)行處理以形成特定形式的文本語料既而建立語料庫的過程。Web語料采集過程通常以事先指定的種子URL列表開始。當(dāng)采集工具訪問這些網(wǎng)址時，它會識別網(wǎng)頁中的所有超鏈接，并將其添加到要訪問的網(wǎng)址列表中，稱為抓取邊界。根據(jù)一組策略來遞歸地訪問邊界URL。如果采集程序獲取到頁面，它會復(fù)制并保存信息。頁面內(nèi)容通常被格式識別、編碼轉(zhuǎn)換并統(tǒng)一進(jìn)行保存。

2.2 語料庫的構(gòu)建與應(yīng)用

語料庫的構(gòu)建包括以下步驟：語料庫的設(shè)計、語料的輸入與存儲、語料庫的索引與處理、語料庫的應(yīng)用接口。其中語料庫的設(shè)計包括確定語料庫的規(guī)模、文本采樣的方案、文本分類/分層取樣的方法確定等。語料的輸入與存儲是把語料輸入文本庫的步驟，其間的主要工作包括通常包括格式識別、編碼轉(zhuǎn)換、基礎(chǔ)結(jié)構(gòu)的分割等等；語料的存儲則是由用戶選定特定的形式來存儲管理已收集的語料，通常采用文件或者數(shù)據(jù)庫的方法，其中采用文件的方法進(jìn)行管理具有結(jié)構(gòu)簡單、易于實(shí)現(xiàn)、資源要求低等特點(diǎn)，而數(shù)據(jù)庫管理方法則具有管理嚴(yán)密、查詢與操作功能豐富、數(shù)據(jù)安全等特點(diǎn)。語料索引與處理包括詞語自動切分和詞性自動標(biāo)注、未登錄詞的自動識別，有效地識別并處理各種數(shù)字串、中西人名、中西地名、機(jī)構(gòu)名、后綴短語等，并為它們建立索引，以便于對語料庫的進(jìn)一步應(yīng)用操作。語料庫的應(yīng)用包括自動語音識別、語言知識庫建立、信息抽取、信息檢索、文本分類和過濾、機(jī)器翻譯等方面，不同的應(yīng)用往往依賴于語料庫建立時所包括的語料附屬信息。

2.3 語料代表性度量與特征表達(dá)

語料在整個文本特征空間的分布通常是不均勻的，換言之，給定一個密度度量，語料的分布是稀疏的。這種不均勻性與稀疏性是語料庫的約簡與特征選擇的前提，即可以通過提取一部分語料構(gòu)成子語料庫來盡可能保持原有語料庫的特征。這一抽取過程是語料庫離線應(yīng)用的首要操作步驟。

為了確定子集化語料庫時對于語料的選擇順序，需要事先建立起針對語料的度量方法。本文通過度量單條語料與整個語料集相似性程度來判斷用該條語料表達(dá)語料集的強(qiáng)度，即代表性度量。采用代表性度量值對語料進(jìn)行排序。首先，對分詞后的語料庫進(jìn)行詞頻統(tǒng)計，獲取語料庫的整體信息；其次，分別對每篇文本內(nèi)容進(jìn)行詞頻統(tǒng)計，獲取單篇文本內(nèi)容的整體信息，均按照“詞——詞數(shù)”的方式進(jìn)行整理，如表1、表2所示。

其中，表示子語料庫中詞語的權(quán)重，即子語料庫中語料形成的集合中各詞的權(quán)重，表示原語料庫中詞語的權(quán)重，即原語料庫中語料形成的集合中詞語的權(quán)重。

在上述度量中，和可理解為子語料庫相對于原始語料庫應(yīng)用效果的指標(biāo)，可理解為子語料庫規(guī)模的指標(biāo)。一般而言，對于所有的語料，若給定一個全序關(guān)系，則依據(jù)此序?qū)τ谡Z料庫進(jìn)行子集化，則可以實(shí)現(xiàn)一個、、單調(diào)遞增的過程。此過程中如果的增長速度慢于與的增長速度，則說明在語料庫的子集化操作中能夠用較少的數(shù)據(jù)來達(dá)到較好的效果。通過比較上述三個度量值在子語料庫規(guī)模不斷增大直到等于原語料庫的過程中的增長速度，可以評價該種子集化操作的優(yōu)劣水平。

2.4 語料庫增量更新

語料庫內(nèi)容并非一成不變，當(dāng)有新的文本內(nèi)容添加至語料庫時，需對語料庫進(jìn)行增量更新。語料庫增量更新亦采取代表性度量的方式進(jìn)行。首先對新增語料采取分詞、詞性標(biāo)注和去停用詞等過程，獲得新增的熟語料。然后對熟語料進(jìn)行詞頻統(tǒng)計，對語料庫重新進(jìn)行詞頻統(tǒng)計。最后根據(jù)公式（1）或（2）或（3）對語料重要性進(jìn)行打分并對語料進(jìn)行重新排序，獲得增量更新后的語料序列。方法1、2、3的計算效果在試驗(yàn)部分論證。當(dāng)語料庫的更新速度很快，每次都重新進(jìn)行詞頻統(tǒng)計和所有語料庫代表性度量計算較影響更新效率時，可以采取惰性更新的策略，即設(shè)定一個閾值，當(dāng)更新數(shù)量少于此閾值時，只將新語料進(jìn)行必要的處理以入庫，并不進(jìn)行語料庫中已有語料代表性度量的更新計算。當(dāng)更新數(shù)據(jù)積累到一定程度時，可以進(jìn)行一次集中的更新操作，以重新計算各語料的代表性度量取值。惰性更新可以有效地攤平單次更新的資源耗費(fèi)，提高更新性能。

3 方法流程

3.1方法描述

1、數(shù)據(jù)采集。本文數(shù)據(jù)來源于互聯(lián)網(wǎng)，利用爬蟲工具進(jìn)行數(shù)據(jù)采集過程，獲取云南電網(wǎng)官方網(wǎng)站新聞?wù)Z料1000篇。

2、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換。直接爬取的數(shù)據(jù)存在冗余數(shù)據(jù)和編碼錯誤等問題，需先進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換操作。

3、語料分詞和詞性標(biāo)注。由于本文構(gòu)建的語料庫為電力行業(yè)專業(yè)語料庫，本文在基礎(chǔ)詞表的基礎(chǔ)上添加由電力常用詞匯、電工電氣、變壓器、電力設(shè)備企業(yè)名錄組成的專業(yè)詞表，對經(jīng)過清洗、轉(zhuǎn)換后的生語料進(jìn)行分詞和詞性標(biāo)注操作，獲得電力行業(yè)專業(yè)語料庫。

4、詞頻統(tǒng)計。對電力行業(yè)專業(yè)語料庫進(jìn)行詞頻統(tǒng)計。對單篇文本語料進(jìn)行詞頻統(tǒng)計，得到每篇語料的詞頻統(tǒng)計結(jié)果。

5、語料代表性度量。基于電力行業(yè)專業(yè)語料庫和單篇文本語料詞頻統(tǒng)計結(jié)果按照公式（1）、（2）、（3）進(jìn)行語料代表性度量值的計算。

6、語料代表性排序。將語料按代表性打分進(jìn)行排序。

7、判斷是否存在新增語料。若存在新增語料，重復(fù)上述過程；若不存在新增語料，則語料庫構(gòu)建過程結(jié)束，用戶可根據(jù)自身需求截取前Top 個語料。

8、根據(jù)公式（1）、（2）、（3）所計算生成的語料代表性度量的降序序列，生成詞語覆蓋度、詞語重現(xiàn)度、加權(quán)詞語覆蓋度的度量值序列，作為離線應(yīng)用評價子語料庫應(yīng)用效果的量化指標(biāo)。

3.2方法流程圖

4 試驗(yàn)

4.1試驗(yàn)數(shù)據(jù)

本文爬取云南電網(wǎng)官方網(wǎng)站1000條新聞?wù)Z料，根據(jù)上述方法流程進(jìn)行試驗(yàn)，采用人工校驗(yàn)的方式對結(jié)果進(jìn)行檢驗(yàn)。

4.2 結(jié)果分析

從圖中可以看出盡管按三種方法計算的度量值分布曲線并不重合，但這三種度量值的分布情況較為相似，即度量值較高的語料占比不大，占語料庫多數(shù)比例的語料代表性度量值差異較小。這一特征暗示較少的部分語料即可以有效代表原始語料庫的詞語特性，而大多數(shù)語料代表原始語料庫的程度并不高。從上述圖中可以看出，三種方法分值曲線都是在開始位置下降最快，從第200篇語料減慢。方法1與方法3語料分值下降較快，然后減慢。上圖表明三種方法均可以用于語料庫截取，構(gòu)建小型有代表性的語料庫。

對三種方法得到的排名前100的語料進(jìn)行重復(fù)性檢驗(yàn)，方法1與方法2排名前100的語料相同個數(shù)為81。方法2與方法3排名前100的語料相同個數(shù)為82，三種方法總體上有較好的一致性。

基于前述三種方法所計算出的語料排序，分別構(gòu)造出規(guī)模遞增的子語料庫系列，對此子語料庫系列計算出詞語覆蓋度、詞語重現(xiàn)度、加權(quán)詞語覆蓋度的實(shí)驗(yàn)圖表如下所示：

與詞語覆蓋度（WCR）曲線

圖5和圖6均顯示了按照一個特定的方法對語料進(jìn)行排序，然后基于這一排序以自然數(shù)列選取語料形成子語料庫，并計算這些子語料庫的規(guī)模與子語料庫的詞語覆蓋度WCR、加權(quán)詞語覆蓋度WWCR、詞語重現(xiàn)度WRR的關(guān)系。

圖5和圖6中使用了前述三種排序方法。同時還按照貪婪算法的思想，實(shí)現(xiàn)了一個逐步最優(yōu)WCR度量的語料排序方法，即對于原始語料庫和子語料庫，其中，對于，每一個選取并加入子語料庫的語料滿足的。

圖5顯示了當(dāng)按照一個特定的語料排列的順序來選擇語料生成子語料庫以利于離線應(yīng)用時，該子語料庫的詞語覆蓋度WCR與加權(quán)詞語覆蓋度WWCR的變化情況，其中四種排序方法所導(dǎo)致的WCR與WWCR遞增曲線的形狀差別并不明顯，特別是WWCR曲線幾乎重合。同時相比于WCR曲線，WWCR曲線的上升速度更快。這一圖形很直觀地表明只需要大約10%的語料，子語料庫即能包括原始語料庫中90%以上的權(quán)重詞；即使不考慮權(quán)重，只用原始語料庫30%規(guī)模的子語料庫也能覆蓋80%的詞語，這一數(shù)據(jù)充分表明，使用子語料庫進(jìn)行離線應(yīng)用可以很好地代表原始語料庫的相關(guān)特征。

圖6顯示了WRR曲線與WCR曲線，其中WRR曲線的上升速度低于WCR與WWCR曲線，進(jìn)一步說明少量的詞語即可代表整體的原始語料庫的很多特征。圖6中WRR與WCR曲線之間的距離代表著語料應(yīng)用的邊際效用增加值，當(dāng)兩者距離最大時，表明增加單位語料所增加的應(yīng)用效果最多。

上述實(shí)驗(yàn)數(shù)據(jù)分析表明，從語料庫中選取10%的文本語料，即選擇100篇文檔，即可實(shí)現(xiàn)覆蓋全部語料庫中大約80%的詞語，這一特征表明抽取少量詞語來形成一個子語料庫，即可實(shí)現(xiàn)在某些基本度量上，子語料庫與原始語料庫的應(yīng)用效果差異不大。這一特點(diǎn)為語料庫的抽取及其離線應(yīng)用提供了數(shù)據(jù)支撐。

5 結(jié)束語

本文聚焦于通過Web訪問作為語料采集的輸入方法，以文本數(shù)據(jù)庫的形式來管理語料庫，對語料進(jìn)行清洗、轉(zhuǎn)換、分詞等過程，形成電力行業(yè)專用語料，并實(shí)現(xiàn)語料的增量更新。采用三種語料截取方法將語料庫子集化，選取最能代表語料庫整體的前Top k個關(guān)鍵語料。利用WCR、WWCR、WRR指標(biāo)對三種方法試驗(yàn)結(jié)果進(jìn)行評價，結(jié)果表明上述方法均有較好的性能與適用性。

科學(xué)與技術(shù)2019年10期

科學(xué)與技術(shù)的其它文章: 確保安全的汽車駕駛技術(shù)分析與研究; 我國高科技中小企業(yè)融資問題淺析; 淺析英語動詞時態(tài)對時間關(guān)系的表述; 走近生活悟方法動手實(shí)踐見真知; 休閑女裝發(fā)展前景與展望; 淺談國際貿(mào)易中電子商務(wù)的重要性及應(yīng)用現(xiàn)狀探析