999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大灣區多語種政府新聞標注語料庫建設研究

2022-06-15 05:28:22姜嬴楊靜朱哲宇林佳瑩
文化創新比較研究 2022年9期
關鍵詞:文本用戶

姜嬴,楊靜,朱哲宇,林佳瑩

(北京師范大學珠海分校,廣東珠海 519000)

1 大灣區多語種語料庫研究必要性

目前,粵港澳大灣區已經存在一些語料庫,如“香港兒童粵語語料庫”系統地記錄了8 個幼兒在一年內學習和使用粵語情況,最終整理出177 個檔案,存儲記錄14 兆字節[1];“香港粵語語料庫”通過收集日常談話,針對性地提供給研究者和語言學習者一個反應真實演講和對話內容的粵語語料庫[2];“LIVAC 共時語料庫”語料來源于上海、港、澳、臺,以及新加坡5 地的報紙資料,已處理逾5.7 億字,累積并持續提煉出二百多萬詞條。

大灣區現存語料庫多建立于20世紀90年代,部分語料庫在取材上、時間維度上,存在滯后現象且語種選取較為單一,無法勝任多語種研究的任務。粵港澳大灣區及其輻射區域存在多種語言文字,構成了語言種類復雜多樣性、語言分布分層交織性、對外關系復雜性等問題,是中國從古代到現代語言文字多樣性最發達,使用量最多,同時共存時間最長的地區[3],這些問題都需要多語種語料庫的支持。

普通話、粵語、英語為大灣區語言使用層次第一的3 個語種,覆蓋了大灣區絕大多數的地區和人口。葡萄牙語使用層次位于第3,被認定為澳門地區的官方語言,具有一定代表性[4]。因此,該文選取這4 個語種作為主要研究對象,采集高度規范化的政府新聞語料,并結合標注語料庫數據,嘗試為語言研究者提供多語種語料庫研究的思路。

2 研究內容及方法

該文根據研究過往的標注經驗,分析多語種分詞標注任務中存在的差異,提出符合多語種語料庫的通用分詞標注策略,基于項目研究過程中已經搭建好的在線眾包標注平臺收集人工檢驗的標注結果,對標注結果進行交叉檢驗,提煉出粵港澳地區新聞多語種語料庫,基于編程技術訓練分詞模型并進行交叉驗證,評測標注策略是否符合實際生產要求,根據實驗結果整理出多語種標注規范,提出在研究多語種問題上的建議,為灣區的自然語言研究者提供基礎條件和便利,促進大灣區文化、教育事業發展。

3 數據來源

該研究的普通話文本來自香港律政司、行政長官2018年施政報告、香港政府一站通、政府賬目及報告、香港特別行政區政府新聞公報、中國文化報、大公報,粵語文本來自明報OL,英語文本來自South China Morning Post,葡萄牙語文本來自Revista Macau。以上均為粵港澳地區權威且文本數量較多的新聞網站,總共包含12 個新聞網站,其中有“國際”“兩岸”“中國”等50 多個板塊。自2019年3月開始持續開展標注工作,已收集大量數據,具體規模在6.1 節可見。

4 多語種分詞標注異同

粵港澳大灣區的語言文字生態樣貌較為獨特,語言文字資源也較為豐富,漢語普通話、英語、葡萄牙語在不同區域都具有法定語言的地位,粵語、客家方言、閩方言等多種漢語方言在日常生活中也擁有廣泛的民眾基礎[5]。不同的語言文字在分詞上的規則和難度是不同的,下文舉例說明多語種分詞標注時需要注意的地方。

4.1 是否有分隔符

現代英語、葡語的基本語素表達形式是詞,文本中的詞天然由空格分開,分詞時主要運用的是正則表達式和專家提供的詞庫分詞。普通話、粵語文本的基本組成單位并不是詞而是字,計算機可以輕而易舉地對字進行切分,但詞與詞之間的切割則極為困難,主要是因為中文詞語在句中存在互相重疊的情況,這很容易產生歧義字段,以“不過度開發生物資源”一句為例,進行完全切分的結果如下。

[不,不過,過,過度,度,開,開發,發,發生,生,生物,物,物資,資,資源,源]

完全切分并不是嚴格意義上的分詞,它輸出句中所有出現在詞表中的字和詞。因為中文詞語存在類似“不過”和“過度”交集現象,9 個字被切分成了長度為16 的序列。粵語屬于漢藏語系漢語族漢語方言,文本結構與普通話類似,同樣沒有分隔符做切分,這無疑增加了中文分詞的難度。

4.2 是否有詞語形態變換

對英文和葡語預處理時需要做詞干提取和詞性還原,而中文或者粵語則不需要。英文存在詞形變換,例如,動詞do 需要根據時態的不同變換為does、doing、did、done,do homework 和doing homework 本質上是一樣的,但對于計算機來說是完全不同的兩個字符串。

葡語的名詞和形容詞存在“陽性”和“陰性”的區別,tempo、sol 為陽性,can??o、lua 為陰性。普通話中的“好”在葡語中既可以是bom 也可以是boa,但這實際上這種區別無法被消除,因為詞的“陰陽性”是互相獨立的,并不會有“原型”或者“詞根”一說,也就沒有辦法降維。對分詞來說需要注意的是葡語動詞需要根據人稱變化發生對應的變形,即“變位”,例如,estudar 根據主語的不同需要轉換為estudas、estudo、estuda、estudamos 或estudam,而它們的原型是相同的。

4.3 是否需要考慮顆粒度

在通常情況下對于普通話和粵語分詞來說切分顆粒度越大,結果也就越精確,但與此同時召回率低和歧義切分問題也必然會隨之出現。在實際環境,例如搜索引擎中,當用戶希望獲取有關“自然語言處理”的內容時,若將其拆分為“自然”“語言”“處理”,那么顆粒度如此之大的分詞結果必然會造成搜索引擎返回結果數過多,導致不能滿足用戶預期。

英語中Natural Language Processing 可以被拆分為Natural、Language、Processing,但是按照完整語義的角度出發,同樣可以不將其分詞而是作為一個復合詞來看待,整體入庫。同樣,葡語中Processamento de linguagem natural 可以被拆分為Processamento、de、linguagem、natural。所以在分詞時需要根據具體環境劃分合理的顆粒度。

綜上,普通話、粵語、英語、葡萄牙語之間分詞既有相同之處也有不同之處,主要可以歸納為3 個問題:是否有分隔符、是否有形態轉換、是否需要考慮分詞顆粒度。

5 多語種分詞標注流程策略

5.1 系統設計概述

在標注不同語種的語料時需要做分庫處理,同時對標注人員進行分組,同組人員完成對同一語種的標注工作,方便對語種和語料進行管理。同時,系統內應設置3 種基本模塊:“標注”模塊和“個人”模塊為系統內所有種類的用戶服務,“工作組管理”模塊則只為專家用戶和系統管理員服務,普通用戶只需專注于標注任務本身即可(見圖1)。

圖1 標注用戶流程圖

5.2 標注人員選擇

語料庫是研究人員、學者進行深度研究的基礎,必須保證分詞標注結果由專業領域內的人員產生。比如,普通話文本標注者最好來源于大灣區內部的普通話母語者,粵語文本標注者最好來源于大灣區內部的粵語母語者,若要讓普通話母語者去分詞標注粵語文本中的“點解”(粵語含義:為什么),標注者雖然可以看懂文本中的每一個字,但無法理解文本本身的含義,甚至可能覺得文本出現了錯誤,此時也就無法準確、客觀地對文本進行處理。

每個語種都是十分具有特色的,且部分規則只有在當地長期生活或者母語是該語種者才能知曉,為了得到準確的分詞標注結果,需要由專業人員去處理其擅長的語種領域。

5.3 系統角色分配

知識領域的眾包分配任務需要引入“角色”的概念,多語種眾包標注系統應包含3 種角色:普通用戶、專家用戶和系統管理員。普通用戶為語言、歷史、教育或相關專業的本科生、碩士生或專業標注人員,負責對系統標注結果進行修改。專家用戶為擁有領域內專業知識的且從事自然語言研究的學者、研究人員或高校教授,主要負責對普通用戶產生的結果進行評估和修改。

若標注系統中只包含標注類用戶,則無法很好地對數據、標注過程及一些事務做管理,需要引入系統管理員維護后臺,對語料、用戶、系統的各種狀態進行實時監控與管制,與分詞標注工作的總負責人還有系統內的專家用戶保持一定溝通,保證系統正常、高效運作。

5.4 三級標注

人工標注時總是會存在一些難以避免的錯誤,針對大灣區的多語種標注應采取三級標注模式,使錯誤率接近0%,以保障入庫數據是準確的。第一階段為算法預標注階段,指的是標注系統依據現有的開源分詞工具對導入數據庫中的生語料做預標注,預標注的準確率普遍可以達到85% ~95%。在進入第二階段眾包標注階段時,標注用戶所需要做的只是處理5% ~15% 的系統標注錯誤,大大減少了時間成本。一條語料往往需要至少被兩位不同的標注用戶所標注以確保其正確性,若標注結果不相同,則還會被更多的標注用戶所標注,這是為了保證語料庫的質量,若語料庫的質量無法保證,那么再多的數據量也是無效的。到了第三階段,也就是專家標注階段,專家角色的知識水平和對于同一條語料的理解程度通常是超過普通標注人員的,專家所需要重點處理的是第二階段所遺留下來的“疑難語料”,之后專家用戶也可以對普通用戶的結果做檢查和修改。經過嚴格的三級標注之后我們認為所產出的語料是可信的,可以作為語料庫搭建的基礎。

5.5 多語種標注細節

針對第4 節結尾提出的多語種標注存在的3 種不同之處,在該節提供解決方案。

(1)分割符:對于不存在天然分割的語種,例如,普通話和粵語,在系統預標注階段推薦采用Hanlp、NLTK 等高質量開源工具進行分詞標注預處理。對于存在天然分割的語種,例如,英語和葡語,若僅需提供給標注用戶預分詞結果,推薦使用正則表達式對文本進行預處理。正則表達式分詞的優點在于靈活、門檻較低且標注效果好,以下為該研究提供的一種正則匹配規則。

[ ,,.。??!! \f\n\t\r\v]+

分詞測試中有3 個常見的指標:P 指精確率,代表預測結果中正類數量占全部結果的比率;R 指召回率,代表正類樣本被找出來的比率;F1 代表P 值和R 值的調和平均。在布朗語料庫(Brown Corpus)和麥克莫弗語料庫(MacMorpho Corpus)上進行測試后發現該研究F1 值達到98.97% 和99.73%,這說明在語料沒有基本格式錯誤的情況下,通過正則匹配來初步分詞效果十分不錯。

(2)形態轉換:當需要標注的語種存在時態變換或根據人稱變換詞語形態之類的問題時,需要對語料進行詞干提取或是詞性還原。詞干提取和詞性還原兩者并不相同,詞干提取由基于規則的方法實現,主要用于信息檢索領域,而詞形還原基于詞典方法,在處理單詞準確率較高的領域效果更好,例如,文本分類、情感分析等[6]。其的目的是減少回復的詞語數量,從而達到降低語言模型維度的作用,具體使用何種方式進行預處理需要視使用場景而定。

同時,引入上述處理的具體位置也同樣關鍵。若在系統標注階段引入,則會導致系統標注結果不準確。而且該結果是需要向標注用戶展示的,去掉句中原本存在的一些信息后必然會影響標注者的判斷,造成標注的錯誤。所以,持久化保存語料結果之前應保留語料文本的全貌,在進行模型訓練之前做詞干提取或詞性還原的操作,這保證了詞語的序列不會改變且保留了原文本除了詞語形態之外的所有信息。

(3)分詞顆粒度:通過限定標注格式可以實現同時記錄不同顆粒度分詞標注結果的效果。復合構詞的現象幾乎存在于所有語種中,在對“中央督導委員會”這一復合詞進行人工標注時,推薦采用如下的格式。

[中央/n 督導/vn 委員會/ni]/nto

中括號里的為復合詞的各個組成部分,標注時需要為每個部分進行分詞和詞性標注,而中括號外的詞性為整個復合詞的詞性,這樣可以同時得到不同顆粒度的結果,方便對模型進行調整,但是需要標注人員付出更多的精力和耐心。

5.6 結果存儲策略

同一條語料會被分配到不同的普通標注用戶手中,且在三級標注階段中的第二階段我們規定一條語料應至少分配給兩人以上進行標注,所以在數據入庫時必然會存在多種結果。為了保證結果的全面性和準確性,需要將語料的id 與標注用戶的id 聯系起來同時存儲,而不是進行覆蓋式存儲或者整合式存儲。

同時,考慮到標注用戶的專業性問題,若一條語料被專家用戶修改或者標注后,直接將其作為該語料的分詞標注結果,在提取分詞標注和進行訓練時應優先考慮該類結果,而非普通標注用戶的結果。

5.7 質量保障

聘用標注用戶時應首先進行考核,判斷其是否能夠勝任標注任務,考核的結果將作為初步任務分配的依據,將不同難度的標注任務分配給不同水平的標注者。標注期間應隱式地對標注者再次進行評估,并根據結果重新為其分配適合的標注任務。當標注者完成任務數量達到閾值時應及時給予不同程度的獎勵,對于完成質量差的用戶則及時解聘。

6 實驗

6.1 詞典

在生成詞典和詞性標注時,中文和粵語標注集采用《ICTPOS 3.0 漢語詞性標記集》和《現代漢語語料庫加工規范——詞語切分與詞性標注》 的兼容版本,英文標注采用的標注集為Penn Treebank Tagset,葡萄牙語標注采用的標注集為Universal Tagset。

詞語種數指語料庫中有多少個不重復的詞語,總頻次指的是所有詞語的詞頻之和,分別可以用來衡量語料庫應用的豐富程度和規模大小[7],詞典統計信息如表1所示。

表1 詞典統計

6.2 分詞標注評測

使用Hanlp 提供的NatureDictionaryMaker 接口將已標注語料生成二元語法模型,接著對不同語種語料庫做K 折交叉驗證。

在K 值取10 的情況下,普通話和粵語的F1 均值達到了91%以上,英語和葡萄牙語,F1 均值達到了99% 以上。觀察圖2可知該文給出的多語種標注策略是切實可行的。

圖2 交叉驗證結果

7 結語

該文給出多語種語料庫研究的流程和策略,通過實驗結果和統計信息,展現研究總體進度和策略可信度。同時,該研究經過了長時間的語料標注收集和多種多樣的分詞實驗,為粵港澳地區新聞媒體文本處理提供了較為豐富的數據。后續會繼續采集粵港澳地區各種類型、各種語種的語料,屆時數據量和分詞標注的效果將會大大提升,我們會將語料庫本體和分詞器代碼打包發送到開源平臺,以供感興趣的學者深入研究,為粵港澳地區語言研究事業以及教育事業獻力。

猜你喜歡
文本用戶
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 久青草网站| 国产一级在线观看www色| 国产精品久久久久久久久| 日本精品视频一区二区 | a毛片基地免费大全| 一本色道久久88亚洲综合| 丝袜久久剧情精品国产| 99久久亚洲综合精品TS| 精品第一国产综合精品Aⅴ| 日本道综合一本久久久88| 97se亚洲综合在线韩国专区福利| 亚洲小视频网站| 亚洲国产av无码综合原创国产| 国产亚洲精品97AA片在线播放| 色天堂无毒不卡| 久久人妻xunleige无码| 一级黄色网站在线免费看| 国产欧美日韩18| 亚洲美女AV免费一区| 另类综合视频| 中文字幕中文字字幕码一二区| 欧美亚洲第一页| 99re热精品视频国产免费| 又猛又黄又爽无遮挡的视频网站| 日韩精品亚洲人旧成在线| 国产精品视频a| 少妇极品熟妇人妻专区视频| 久久精品电影| 青青草原国产av福利网站| 亚洲无码免费黄色网址| 四虎成人免费毛片| 亚洲Av激情网五月天| 免费国产小视频在线观看| 久久人搡人人玩人妻精品 | 久久精品亚洲热综合一区二区| 色天天综合久久久久综合片| 国产91无码福利在线| 国产精品亚洲日韩AⅤ在线观看| 亚洲一级毛片免费看| 99久久精品国产麻豆婷婷| 国产一二三区视频| 老司机午夜精品视频你懂的| 日韩福利在线视频| 欧美一级黄片一区2区| 日本在线国产| 日韩色图区| 亚洲va视频| 国内精品一区二区在线观看| 亚洲狠狠婷婷综合久久久久| 国产女同自拍视频| 在线日韩日本国产亚洲| 亚洲日产2021三区在线| 国产一区二区三区在线无码| 午夜欧美理论2019理论| 欧美日韩精品在线播放| 亚洲伊人天堂| 久久这里只有精品23| 精品少妇人妻无码久久| 亚洲国产成人精品一二区| 欧美a级完整在线观看| 一级毛片免费不卡在线视频| 1级黄色毛片| 国产91视频免费观看| 亚洲精品自拍区在线观看| 国产99精品久久| 激情乱人伦| 国产精品欧美日本韩免费一区二区三区不卡| 中国国产高清免费AV片| 国产1区2区在线观看| 日韩欧美国产区| 欧美yw精品日本国产精品| 亚洲精品视频在线观看视频| 40岁成熟女人牲交片免费| 狼友视频国产精品首页| 国产精品yjizz视频网一二区| 国产毛片网站| a在线亚洲男人的天堂试看| 日韩大乳视频中文字幕| 日韩久草视频| 国产青榴视频| 狠狠五月天中文字幕| 日韩美一区二区|