999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向高等教育領域的命名實體標注語料庫構建方法

2022-07-10 13:45:45黃柯源張浩軍李世龍李大嶺王家慧
現代信息科技 2022年5期
關鍵詞:高等教育

黃柯源 張浩軍 李世龍 李大嶺 王家慧

摘 ?要:文章以高等教育政策文件為語料,在領域專家指導下結合高等教育政策文件文本特點,制定了一套標注體系和標注規范,開展了大規模的語料標注工作,構建了一個面向高等教育領域的標注語料庫。該語料庫共標注了137篇政策文件,包含5 102個句子和3 639個實體。同時,通過使用模型對語料庫進行實驗,探討了語料庫的可信度及預標注策略的可行性。結果表明,該語料庫的F1值達到75.31%,為進一步的高等教育領域實體識別研究提供了基礎。

關鍵詞:高等教育;命名實體;標注規范;語料庫構建

中圖分類號:TP18 ? ? 文獻標識碼:A文章編號:2096-4706(2022)05-0095-04

Construction Method of Named Entity Annotation Corpus for Higher Education Field

HUANG Keyuan, ZHANG Haojun, LI Shilong, LI Daling, WANG Jiahui

(College of Information Science and Engineering, Henan University of Technology, Zhengzhou ?450001, China)

Abstract: This paper takes higher education policy documents as the corpus, and under the guidance of experts in the field, combined with the text characteristics of higher education policy documents, formulates a set of labeling system and labeling specifications, and carries out large-scale corpus labeling work, constructs an annotation corpus for higher education field. The corpus is annotated with a total of 137 policy documents, and contains 5 102 sentences and 3 639 entities. At the same time, by using the model to conduct experiments on the corpus, the credibility of the corpus and the feasibility of the pre-labeling strategy are discussed. The results show that the F1 number of this corpus reaches 75.31%, which provides a basis for further research on entity recognition in the field of higher education.

Keywords: higher education; named entity; labeling specification corpus construction

0 ?引 ?言

近年來,黨和國家高度重視我國高等教育發展情況,高等教育領域產出成果頗豐。隨著互聯網中高等教育領域相關信息不斷增多,亟須建立高等教育領域知識圖譜,以便更準確地探析我國高等教育的發展態勢,為高等教育研究者提供理論支撐。

政策文件是由國家相關部門研究制定并下發的指導性文件,其權威性與專業性被大眾普遍認可。因此,本研究以高等教育政策文件為數據源,探究領域語料標注規范,構建高教領域實體識別標注語料庫,為高等教育領域命名實體識別、關系抽取和知識圖譜構建提供可靠的數據支撐。

1 ?相關工作

語料庫作為信息抽取的基礎,其質量直接影響實體識別和關系抽取的結果。現有的語料庫構建方法分為手動構建和自動構建兩種,在醫學[1,2]、國防[3]、公安[4]、建筑[5]等領域均已出現公開構建且廣泛應用的語料庫。李雁群等[6]以《人民日報》和ACE005中文語料為基礎,構建了中文嵌套命名實體識別語料庫。Lowe[7]等通過收集Ubuntu社區一百萬組對話內容,構建了具有人類自然對話特點與機器多次序對話特點的Ubuntu對話語料庫。Hu[8]等通過收集新浪微博的中文短文本摘要,構建了包含200余萬個真實短文本及作者所寫摘要的微博語料庫。目前,尚未發現公開發布的面向高等教育領域的命名實體標注語料庫。因此,亟須構建高等教育語料庫,以推動我國高等教育領域命名實體識別研究的發展。

2 ?面向高等教育政策文件的實體標注規范制定

2.1 ?標注體系

本文將語料庫中實體定義為以下6類:指導思想實體、出臺背景實體、目標實體、原則實體、任務實體和措施實體。本語料庫在標注過程中采用基于BIO策略的字標注方法,該語料庫中共包含13種標簽類型,標簽設置情況如表1所示。

2.2 ?標注準則

本文參照實體標注領域的“不重疊、不嵌套、不包含標點符號及連接詞”的三個基本原則的基礎上,結合高等教育政策文件的相關特點,提出了一套適用于該領域的標注準則:

(1)最大范圍標注:

例1:為深入貫徹落實“習近平總書記給全國涉農高校書記校長和專家代表重要回信精神”,以新農科建設為統領,推進高等農林教育創新發展。

例1中,引號部分為指導思想實體。其中“習近平總書記給全國涉農高校書記校長和專家代表”為“重要回信精神”的定語修飾部分,遵循最大范圍標注,凡遇到指導思想實體中含有定語修飾的,將其一并作為指導思想實體進行標注。

(2)除指導思想實體外,其余實體可包含標點符號:

例2:深入貫徹“黨的十九大和十九屆二中、三中、四中全會精神,”全面落實習近平總書記關于教育的重要論述和全國教育大會精神。

由于政策文件中需要完成的具體任務以及完成任務所需的具體措施描述的十分清晰,因此任務和措施實體往往需要包含標點符號。例2中,引號部分包含有“、”,因此不將其標注為實體。

(3)外層標注:若一句話中包含多個實體,則只標注最外層實體,其內部的實體不進行標注。

3 ?語料庫構建過程

語料庫構建的核心任務是選取一種合適的標注模式,并對語料進行標注。本文采用“領域專家+團體標注”的模式,依據第2節中所提出的標注體系及準則,對137篇高等教育政策文件進行標注,標注過程歷時3個月,共有2名高等教育專家、6名碩士生和3名本科生參與標注工作。

3.1 ?語料選取與預處理

該語料庫以教育部發布的政策文件為數據源。為保證語料質量,在人工采集時剔除回復性文件,保留正式政策文件。標注格式如圖1所示,標注文本中的{...[type]}表示該段內容為一種實體,[]之間表示該實體所屬的類別。

圖1 ?語料標注規則示例

3.2 ?標注過程

為提高語料庫質量,本文制定了多輪分組迭代標注策略。具體流程為:

(1)將9名標注人員隨機分配到三個小組中,每組的3名隊員獨立標注同一篇文章。標注完成后,由其他小組統計該組三名隊員的標注一致率,若一致率低于80%,則重復上述過程。對于不一致性標注,在征求專家的意見后對其進行修改。對于標注一致率連續3次達到80%以上的小組,停止迭代標注。

(2)在所有小組均停止迭代后,從三個小組中選取出標注質量較高的6名標注者,并隨機分配到3個小組中進行二標注。即每組的兩名成員獨立標注同一篇文章,標注結果由標注規范制定者進行審核,統一不一致性標注,并從每組中選取標注質量好的標注者組建最終標注小組。

(3)選取30篇預處理過的政策文件作為初始數據源,交由最終標注小組進行標注。對于不一致性標注,由專家和標注人員共同討論后進行統一。構建實體標注模型,并以上述30篇標注語料作為訓練數據,開發標注工具。

(4)使用標注工具對剩余語料進行預標注,再由標注者對標注結果進行修改,得到完整的高等教育政策文件實體標注語料庫。

3.3 ?語料庫統計

3.3.1 ?標注數量統計

該語料庫共標注了137篇政策文件,共計256 940個字符、5 102句話和3 639個命名實體。語料庫的標注詳情如表2所示。

3.3.2 ?標注一致性分析

在實體識別語料標注領域,通常選擇F1值來計算標注一致性。具體計算流程(1)~(3)式所示。

(1)

(2)

(3)

表3記錄了迭代標注過程中各命名實體的標注一致性,其中迭代次數為5次。

迭代標注過程中,各實體的標注一致性均逐步上升,說明標注前培訓及標注規范迭代更新策略是積極有效的。其中TAS實體和MEA實體的初始標注一致率低于其他實體,其主要原因是政策文件中的方法和措施通常擁有較長的文本長度,導致標注人員無法清晰的辨識實體邊界。隨著迭代標注的進行,最終六種實體的標注一致性均超過了80%可信賴標注驗證標準,表明該標注語料庫具有較高的標注質量且是可信的。

4 ?實驗評估

為評估本文所構建語料庫的性能,本文采取句子級的劃分方法語料按照8:1:1的比例隨機劃分為訓練集、測試集和驗證集,并搭建了三種主流的實體識別模型對標注語料進行初步的實驗驗證。采用準確率(Precision, P)、召回率(Recall, R)和F1值作為該語料庫的測評指標。其測評結果如表4所示。

由表4可知,當測評語料為前三十篇時,BERT-CRF模型的實驗結果優于BERT-BILSTM-CRF模型;當測評語料為最終語料時,BERT-BILSTM-CRF模型的實驗結果反超BERT-CRF模型的實驗結果。主要是因為:BERT是經過大量無標注語料訓練的預訓練模型,其本身具有很好的深度語言特征表達能力。當訓練語料較少時,由BERT所生成的詞向量已經具有較強的語義信息,可以直接通過CRF模型進行判別,若此時經過更為復雜的模型結構,會導致向量的部分語義信息丟失,導致實驗結果的下降。而當訓練語料增加時,復雜的模型結構更容易學習各類實體的特征,因此BERT-BILSTM-CRF的實驗結果更優。

5 ?結 ?論

本文介紹了面向高等教育領域政策文件的語料庫標注體系和標注過程。首先,依據高等教育領域專業知識選定了高教政策文件語料中的各類實體,并制定了標注規范。其次基于此規范展開大規模領域語料標注工作并開發了標注工具。目前,該語料庫已完成26萬余字的標注工作,共包含5 102句語料及3 639個命名實體。此外,本文通過對小組標注結果的一致性分析以及使用不同模型對語料庫進行實驗,探討了所構建語料庫的可信度及標注工具預標注策略的可行性。實驗結果表明,該語料庫的命名實體識別性能F1值達到75.31%。

參考文獻:

[1] 楊錦鋒,關毅,何彬,等.中文電子病歷命名實體和實體關系語料庫構建 [J].軟件學報,2016,27(11):2725-2746.

[2] 曲春燕,關毅,楊錦鋒,等.中文電子病歷命名實體標注語料庫構建 [J].高技術通訊,2015,25(2):143-150.

[3] 馮鸞鸞,李軍輝,李培峰,等.面向國防科技領域的技術和術語語料庫構建方法 [J].中文信息學報,2020,34(8):41-50.

[4] 曹若麟,杜渂.面向實體標注的公安警情領域語料庫的構建 [J].電信快報,2021(3):20-24.

[5] 莫天金,李韌,楊建喜,等.公路橋梁定期檢測領域命名實體識別語料庫構建 [J].計算機應用,2020,40(S1):103-108.

[6] 李雁群,何云琪,錢龍華,等.中文嵌套命名實體識別語料庫的構建 [J].中文信息學報,2018,32(8):19-26.

[7] LOWE R,POW N,SERBAN I V,et al. The Ubuntu dialogue corpus:A large dataset for research in unstructured multi-turn dialogue systems [EB/OL].arXiv:1506.08909 ?[cs.CL] (2016-02-04).https: //arxiv.org/pdf/1506.08909v3.pdf.

[8] HU B T,CHEN Q C,ZHU F Z. LCSTS:A large scale Chinese short text summariazation dataset [J/OL].arXiv:1506.05865 ?[cs.CL].(2016-02-19). https: //arxiv.org/pdf/1506.05865.pdf.

作者簡介:黃柯源(1997.05—),男,漢族,河南平頂山人,碩士研究生在讀,研究方向:自然語言處理、知識圖譜

猜你喜歡
高等教育
教學和管理層面的高等教育服務思考分析
科教導刊(2016年27期)2016-11-15 21:03:53
高校雙語教學現狀與創新分析
科教導刊(2016年26期)2016-11-15 20:12:30
在線性代數課程教學中引入MATLAB的簡單介紹
考試周刊(2016年86期)2016-11-11 07:44:56
法津實驗教學的思考
新形勢下加強高校師德建設的對策研究
科技視界(2016年18期)2016-11-03 22:22:25
大數據對高等教育發展的推動研究
人間(2016年26期)2016-11-03 17:51:57
各地區高等教育與經濟發展水平協調性分析
時代金融(2016年23期)2016-10-31 13:56:28
關于應用型計算機專業培養方案的研究
中國市場(2016年36期)2016-10-19 04:33:08
基于Flash+XML技術的護理技能虛擬教學平臺設計與實現
中國高等教育供給側改革研究:起源、核心、內涵、路徑
大學教育(2016年9期)2016-10-09 07:53:44
主站蜘蛛池模板: 亚洲欧美自拍一区| 一级一级特黄女人精品毛片| 国产不卡网| 国产免费黄| 全部无卡免费的毛片在线看| 色亚洲成人| 久久精品国产电影| 亚洲第一视频网| 国产精品美女免费视频大全| 亚洲国产理论片在线播放| 波多野结衣爽到高潮漏水大喷| 国产chinese男男gay视频网| 国产一区二区三区免费观看| 大香伊人久久| 日本免费精品| 国产激情国语对白普通话| 97成人在线视频| 无码免费试看| 在线免费观看a视频| 国产亚洲精| 国产免费福利网站| 亚洲天堂视频在线观看| 最近最新中文字幕在线第一页 | 久久久久青草大香线综合精品| 国产丝袜第一页| 亚洲成a∧人片在线观看无码| 欧美精品三级在线| 亚洲日韩日本中文在线| 第一区免费在线观看| 最新国产成人剧情在线播放| 2021最新国产精品网站| 日韩欧美国产成人| 天天综合网亚洲网站| 亚洲免费黄色网| 911亚洲精品| 国产91色在线| 国产欧美综合在线观看第七页| 她的性爱视频| 日韩视频福利| 日本免费新一区视频| 人妖无码第一页| 视频二区亚洲精品| 第九色区aⅴ天堂久久香| 午夜福利亚洲精品| 久久永久免费人妻精品| 天天综合网色| 狠狠v日韩v欧美v| 天天综合网站| 中日韩一区二区三区中文免费视频| 国产成人高清亚洲一区久久| 国产99在线| 伊人国产无码高清视频| 国产97色在线| 国产交换配偶在线视频| 亚洲国产中文精品va在线播放| 爱色欧美亚洲综合图区| 天天爽免费视频| 免费一级毛片在线播放傲雪网 | 国产亚洲欧美日韩在线一区| 成人精品亚洲| 日韩精品免费一线在线观看 | 亚洲精品视频网| 综合五月天网| 自偷自拍三级全三级视频| 综合五月天网| 亚洲人人视频| 中文字幕在线观看日本| 天天综合亚洲| 国产精品爽爽va在线无码观看 | 免费国产好深啊好涨好硬视频| 欧美午夜在线视频| 国产精品开放后亚洲| 成人免费网站久久久| 国产成熟女人性满足视频| 国产精品一区二区不卡的视频| AV在线天堂进入| 国产亚洲视频免费播放| 婷婷伊人久久| 亚洲激情区| 午夜国产理论| 国产精品女同一区三区五区| 秋霞一区二区三区|