999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義增強(qiáng)的多策略政策術(shù)語抽取系統(tǒng)①

2022-09-20 04:11:04曹秀娟馬志柔張慶文
關(guān)鍵詞:語義特征文本

曹秀娟, 馬志柔, 朱 濤, 張慶文, 楊 燕, 葉 丹

1(廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院, 南寧 530004)

2(中國科學(xué)院 軟件研究所 軟件工程技術(shù)研究開發(fā)中心, 北京 100190)

3(政和科技股份有限公司, 濟(jì)南 250000)

政策文本是用來記錄政策活動(dòng)而產(chǎn)生的過程性文件, 是政策服務(wù)研究的重要載體和依據(jù), 包括通知、公告、意見、批復(fù)等公文類別. 目前, 政府與企業(yè)之間在政策服務(wù)上存在著一定的壁壘, 一方面企業(yè)無法及時(shí)解讀相關(guān)政策, 不能及時(shí)享受政府補(bǔ)貼; 另一方面, 政府無法及時(shí)了解政策發(fā)布的受益面及其所發(fā)揮的作用,而政策文本分析在政策解讀、政企協(xié)同、企業(yè)決策和成果轉(zhuǎn)化等政策服務(wù)方面具有非常重要的現(xiàn)實(shí)意義.由于政策術(shù)語新詞的大量出現(xiàn), 使得政策領(lǐng)域的分詞不準(zhǔn)確, 嚴(yán)重影響了對(duì)政策文本的解讀[1], 政策術(shù)語抽取成為了解決這一難題的當(dāng)務(wù)之急. 政策術(shù)語具有時(shí)效性、低頻度、稀疏性和復(fù)合短語的特點(diǎn), 難以用頻繁模式和序列標(biāo)注的方法直接抽取, 多由領(lǐng)域?qū)<沂止こ槿?

為了實(shí)現(xiàn)半自動(dòng)化的政策術(shù)語抽取, 本文設(shè)計(jì)了語義增強(qiáng)的多策略政策術(shù)語抽取系統(tǒng), 該系統(tǒng)融合頻數(shù)、自由度、凝固度等多種策略, 獲得包含政策結(jié)構(gòu)信息的術(shù)語新詞; 并利用預(yù)訓(xùn)練語言模型增強(qiáng)語義相似度匹配來召回包含政策語義信息的術(shù)語新詞, 結(jié)合兩者信息來生成政策術(shù)語詞庫并可對(duì)其迭代更新, 切實(shí)解決了人工抽取政策術(shù)語的困難.

1 相關(guān)工作

隨著大數(shù)據(jù)和人工智能時(shí)代的到來, 自動(dòng)術(shù)語抽取技術(shù)作為實(shí)現(xiàn)領(lǐng)域術(shù)語抽取系統(tǒng)的關(guān)鍵技術(shù), 受到了廣泛的關(guān)注和研究. 解決自動(dòng)術(shù)語抽取的主流方法主要有3大類: 基于語言學(xué)方法、基于統(tǒng)計(jì)學(xué)方法、基于深度學(xué)習(xí)方法.

1.1 基于語言學(xué)方法的術(shù)語抽取

基于語言學(xué)方法的術(shù)語抽取根據(jù)領(lǐng)域術(shù)語的語言特征規(guī)則, 或與詞典中的術(shù)語相匹配. 首先將文本進(jìn)行分詞和詞性標(biāo)注, 然后對(duì)比分詞結(jié)果和詞法規(guī)則, 匹配一致的內(nèi)容為候選術(shù)語. 研究者主要通過對(duì)行業(yè)領(lǐng)域術(shù)語的構(gòu)詞模式進(jìn)行分析, 實(shí)現(xiàn)不同領(lǐng)域的術(shù)語抽取.曾浩等人[2]制定了4條擴(kuò)展規(guī)則并結(jié)合統(tǒng)計(jì)特征進(jìn)行術(shù)語抽取. 趙志濱等人[3]運(yùn)用句法分析和詞向量技術(shù)對(duì)新詞發(fā)現(xiàn)進(jìn)行研究, 在護(hù)膚品論壇的真實(shí)文本數(shù)據(jù)集上取得了較好的效果. Kafando等人[4]結(jié)合統(tǒng)計(jì)特征和語言學(xué)定性定量規(guī)則分析, 利用BioTex工具抽取生物醫(yī)學(xué)領(lǐng)域組合術(shù)語. 基于語言學(xué)方法的術(shù)語抽取需要領(lǐng)域?qū)<业闹R(shí)背景進(jìn)行支撐及維護(hù), 無法完成領(lǐng)域遷移.

1.2 基于統(tǒng)計(jì)學(xué)方法的術(shù)語抽取

基于統(tǒng)計(jì)學(xué)方法的術(shù)語抽取主要采用N-Gram統(tǒng)計(jì)語言模型建模, 結(jié)合擴(kuò)展統(tǒng)計(jì)特征對(duì)術(shù)語進(jìn)行抽取.常見的統(tǒng)計(jì)特征主要有詞頻數(shù)(TF)、凝固度(PMI)、自由度(DF)和C-value等. 目前應(yīng)用統(tǒng)計(jì)學(xué)方法進(jìn)行術(shù)語抽取具有較多工作. Chen等人[5]為有效地確定專利領(lǐng)域新詞的邊界, 引入二元詞的雙向條件概率信息,提取專利領(lǐng)域長詞. 王煜等人[6]利用改進(jìn)的頻繁模式樹算法, 結(jié)合DF、PMI和時(shí)間特征, 對(duì)網(wǎng)絡(luò)新聞熱點(diǎn)新詞進(jìn)行了有效識(shí)別. Li等人[7]改進(jìn)PMI并結(jié)合DF特征自動(dòng)抽取未登錄詞. 陳先來等人[8]采用融入邏輯回歸的凝固度模型提取新詞, 有效地提高了電子病歷文本數(shù)據(jù)分詞準(zhǔn)確率. 基于統(tǒng)計(jì)學(xué)方法的術(shù)語抽取能抽取到高頻且高質(zhì)量的術(shù)語, 無法抽取低頻且稀疏的術(shù)語.

1.3 基于深度學(xué)習(xí)方法的術(shù)語抽取

隨著機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的發(fā)展, 推動(dòng)術(shù)語抽取研究產(chǎn)生了各類模型和方法的領(lǐng)域應(yīng)用. Chen等人[9]采用統(tǒng)計(jì)特征提取候選術(shù)語, 利用CNN模型生成消費(fèi)品缺陷領(lǐng)域詞典. 基于術(shù)語語義相關(guān)性的思想, 張一帆等人[10]使用TextRank抽取領(lǐng)域種子詞典, 而后計(jì)算候選術(shù)語與種子集的余弦相似度進(jìn)行術(shù)語抽取.Qian等人[11]使用包含詞語信息的Word2Vec詞向量對(duì)N-Gram頻繁字符串候選詞組進(jìn)行剪枝, 無監(jiān)督地進(jìn)行術(shù)語抽取, 但其并未考慮中文詞語的一詞多義問題. 張樂等人[12]提出將漢字筆畫知識(shí)和知網(wǎng)中的義原知識(shí)引入Word2Vec詞向量訓(xùn)練, 從而獲得多語義詞向量, 但其針對(duì)社交媒體領(lǐng)域. 近年來, 預(yù)訓(xùn)練語言模型BERT提出后, 在術(shù)語抽取上得到了廣泛應(yīng)用, Choi等人[13]將統(tǒng)計(jì)特征TF-IDF與FastText和BERT模型結(jié)合, 實(shí)現(xiàn)了韓文語料的自動(dòng)術(shù)語抽取.

上述研究表明, 單一的方法均無法達(dá)到最佳的術(shù)語抽取效果, 基于統(tǒng)計(jì)學(xué)方法抽取的候選術(shù)語仍需進(jìn)行停用詞過濾和對(duì)應(yīng)領(lǐng)域的語言規(guī)則過濾, 基于深度學(xué)習(xí)的方法需要海量的標(biāo)注數(shù)據(jù)來訓(xùn)練模型, 對(duì)分布稀疏的政策術(shù)語來說, 難以達(dá)到抽取效果. 因此, 本文考慮引入預(yù)訓(xùn)練語言模型來增強(qiáng)語義, 并融合多策略頻繁模式來提高政策術(shù)語抽取效果, 實(shí)現(xiàn)政策術(shù)語的半自動(dòng)化抽取.

2 關(guān)鍵技術(shù)研究

政策術(shù)語抽取系統(tǒng)的半自動(dòng)化實(shí)現(xiàn), 其關(guān)鍵技術(shù)是如何利用人工智能和自然語言處理技術(shù), 嘗試將自動(dòng)術(shù)語抽取與語義知識(shí)相結(jié)合, 高效地構(gòu)建政策領(lǐng)域術(shù)語詞典, 有效提升政策術(shù)語抽取的效果.

通常政策文本術(shù)語抽取示例如表1所示.

由表1可知, 政策術(shù)語有如下的特點(diǎn): 1) 復(fù)合短語: 由多個(gè)詞語嵌套、復(fù)合、派生組成的固定短語;2) 詞性分布: 多為名詞性短語或動(dòng)名詞性短語; 3) 長度分布: 長度分布于4至15字詞之間; 4) 低頻度: 出現(xiàn)的頻次普遍不高; 5) 時(shí)效性: 政策術(shù)語隨著時(shí)間的推移會(huì)不斷更新.

表1 政策文本術(shù)語抽取示例

針對(duì)低頻且稀疏的政策術(shù)語抽取難的問題, 本文提出了一種零樣本語義增強(qiáng)的多策略政策術(shù)語抽取方法來實(shí)現(xiàn)系統(tǒng), 包括多策略頻繁模式抽取算法和語義增強(qiáng)抽取算法.

2.1 多策略頻繁模式抽取算法

肖仰華等人[14]指出衡量一個(gè)術(shù)語的質(zhì)量, 主要考慮4個(gè)方面: 高頻率、一致性、信息量和完整性. 高頻率主要指術(shù)語應(yīng)該在給定文檔中出現(xiàn)足夠頻繁; 一致性是指術(shù)語和不同詞之間的搭配是否合理或是否常見;信息量主要考慮術(shù)語傳達(dá)的信息, 其應(yīng)當(dāng)表達(dá)一定的主題或者概念; 完整性主要指術(shù)語在特定上下文中是一個(gè)完整的語義單元. 凝固度衡量文本片段中字與字之間的緊密程度, 即術(shù)語的一致性; 自由度衡量一個(gè)文本片段左右兩側(cè)字符組合的豐富度, 即術(shù)語的完整性;C-value衡量候選短語質(zhì)量即術(shù)語的信息量, 通過有效校正父子嵌套短語重復(fù)統(tǒng)計(jì)帶來的頻次估計(jì)的偏差,提取多詞嵌套的長政策術(shù)語.

為了抽取政策文本中內(nèi)部凝結(jié)緊且外部組合自由度高的政策術(shù)語, 設(shè)計(jì)了一種多策略頻繁模式抽取算法. 該算法以N-Gram統(tǒng)計(jì)語言模型為基礎(chǔ), 采用綜合詞頻、自由度、凝固度和C-value特征各自優(yōu)勢(shì)的指標(biāo)FPDC來衡量術(shù)語, 結(jié)合停用詞和常用詞前后綴搭配規(guī)則過濾術(shù)語. 算法步驟如下:

Step 1. 文本預(yù)處理. 對(duì)文本進(jìn)行預(yù)處理, 刪除政策文本中的郵箱、電話號(hào)碼、手機(jī)號(hào)碼、日期、網(wǎng)址等,置換標(biāo)點(diǎn)符號(hào)為空格.

Step 2. 候選短語生成. 基于N-Gram統(tǒng)計(jì)語言模型對(duì)文本語料進(jìn)行統(tǒng)計(jì), 過濾詞長閾值以下的文本片段, 得到候選文本片段.

Step 3. 術(shù)語質(zhì)量評(píng)分. 首先對(duì)各候選文本片段計(jì)算詞頻tf、凝固度pmi、自由度df和C-value值cval,然后對(duì)各特征進(jìn)行Sigmoid函數(shù)歸一化, 最后融合各特征值計(jì)算指標(biāo)FPDC, 初始化為每個(gè)特征平均分配權(quán)重, 考慮到政策領(lǐng)域多詞嵌套的中心詞, 對(duì)詞頻進(jìn)行了0.15的懲罰, 對(duì)C-value進(jìn)行了0.15的獎(jiǎng)勵(lì), 如式(1)所示. 根據(jù)閾值篩選, 得到候選政策術(shù)語.

其中, c1···cn表示多個(gè)字構(gòu)成的候選文本片段.

Step 4. 語言規(guī)則過濾. 對(duì)候選政策術(shù)語進(jìn)行停用詞過濾和常用詞作為前后綴的語言學(xué)規(guī)則過濾.

Step 5. 結(jié)果排序輸出. 按照FPDC指標(biāo)由高到低排序, 輸出政策術(shù)語抽取結(jié)果.

2.2 語義增強(qiáng)抽取算法

在零樣本無監(jiān)督挖掘情況下, 多策略算法可以抽取到大量頻繁、高質(zhì)量的政策術(shù)語, 但針對(duì)低頻、稀疏的政策術(shù)語抽取效果仍不夠好. 引入預(yù)訓(xùn)練語言模型來增強(qiáng)政策領(lǐng)域術(shù)語語義特征匹配, 在多策略算法的基礎(chǔ)上, 設(shè)計(jì)了語義增強(qiáng)抽取算法來召回低頻術(shù)語新詞. 語義增強(qiáng)抽取算法流程如下所示:

Step 1. 候選術(shù)語生成. 將現(xiàn)有詞庫中的政策術(shù)語ngrams_dict和文本語料特征詞集合ngrams_fw特征詞計(jì)算歸一化的C-value指標(biāo), 更新父子嵌套類型術(shù)語的FPDC值, 將其作為Jieba分詞的自定義詞典, 對(duì)原始語料重新分詞, 過濾不符合詞長和詞語頻數(shù)要求的文本片段作為候選術(shù)語.

Step 2. 語義向量生成. 從ngrams_fw特征詞中選取FPDC排序前20%的特征詞作為種子詞, 采用RoBERTa預(yù)訓(xùn)練語言模型[15]對(duì)候選術(shù)語和種子詞語義特征向量化, 得出每個(gè)候選術(shù)語和種子詞的語義特征向量表示.

Step 3. 語義相似度計(jì)算. 從每個(gè)種子詞出發(fā), 計(jì)算每個(gè)種子詞和所有候選術(shù)語的語義向量的歸一化歐式距離相似度. 歐氏距離計(jì)算結(jié)果受到向量長度以及向量維度的影響, 取值范圍不固定, 采用L2-norm對(duì)候選術(shù)語和種子詞的語義特征向量標(biāo)準(zhǔn)化. 假設(shè)X是n維的語義特征向量 X=(x1,x2,x3,···,xn), 則向量X的L2標(biāo)準(zhǔn)化公式如下:

向量X和向量Y的歸一化歐式距離計(jì)算公式如下:

Step 4. 語義特征相似度匹配. 遍歷每個(gè)特征種子詞, 找到與每個(gè)特征詞相似度最大的候選術(shù)語, 當(dāng)相似度大于設(shè)定閾值時(shí)認(rèn)為該候選術(shù)語與種子詞相似, 將候選術(shù)語加入結(jié)果術(shù)語集合; 考慮到候選術(shù)語之間的連通性, 對(duì)相似度閾值進(jìn)行指數(shù)衰減法來將詞與詞分開. 設(shè)定最小相似度閾值為MinSim, 閾值將隨著詞連通個(gè)數(shù)增大, 指數(shù)衰減法公式如下:

其中, α為衰減因子, i dx 表示種子詞的序號(hào).

Step 5. 結(jié)果排序輸出. 通過每個(gè)特征種子詞與候選術(shù)語的語義特征相似度匹配, 得到相似度匹配結(jié)果,根據(jù)相似度由高到低排序, 輸出最終的政策術(shù)語抽取結(jié)果, 并對(duì)詞庫進(jìn)行了更新.

3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

3.1 系統(tǒng)架構(gòu)設(shè)計(jì)

為了解決人工抽取政策術(shù)語的問題, 本文設(shè)計(jì)了一套語義增強(qiáng)的多策略政策術(shù)語抽取系統(tǒng). 系統(tǒng)的組織架構(gòu)如圖1所示, 分為數(shù)據(jù)層、模型層、服務(wù)層和應(yīng)用層.

圖1 系統(tǒng)架構(gòu)圖

(1) 數(shù)據(jù)層

數(shù)據(jù)層包括系統(tǒng)中模型使用的停用詞庫、噪聲詞規(guī)則庫和政策術(shù)語詞庫.

停用詞庫用于過濾術(shù)語抽取結(jié)果中的垃圾串, 即如果候選術(shù)語中的任意一個(gè)子串包含在停用詞庫中,則丟棄該候選術(shù)語. 該詞庫初始化為通用的停用詞庫.

噪聲詞規(guī)則庫用于過濾前后綴為常用詞的候選術(shù)語. 該規(guī)則庫中初始化為常與政策術(shù)語作為前后綴進(jìn)行搭配的模式, 如“采用#”“提供#”“#與”和“#如下”等,“#”與常用詞結(jié)合的位置代表該常用詞作為候選政策術(shù)語的前綴或者后綴.

政策術(shù)語詞庫用于保存政策術(shù)語抽取結(jié)果. 詞庫中包含政策術(shù)語、術(shù)語頻次、術(shù)語詞性、術(shù)語類別等信息. 系統(tǒng)提供了對(duì)于詞庫的增、刪、改、查和詞庫統(tǒng)計(jì)信息可視化. 詞庫初始化為空, 通過設(shè)定或調(diào)整特征指標(biāo)FPDC閾值, 由系統(tǒng)從候選術(shù)語列表中批量增加或更新術(shù)語詞庫.

(2) 模型層

模型層是術(shù)語抽取系統(tǒng)所使用的核心模型, 為多策略冷啟動(dòng)服務(wù)和語義增強(qiáng)熱啟動(dòng)服務(wù)提供模型支持, 包括N-Gram統(tǒng)計(jì)語言模型、統(tǒng)計(jì)特征過濾模型、語言規(guī)則模型、特征種子集生成模型、語義特征表示模型和相似度匹配模型. 以下對(duì)各個(gè)模型的作用進(jìn)行簡要介紹.

N-Gram統(tǒng)計(jì)語言模型為初始文本片段生成模型.模型對(duì)文本語料進(jìn)行長度為1到n的滑動(dòng)窗口操作,形成長度為1到n的字符片段序列, 按給定的詞長閾值過濾字符片段序列, 得到候選文本片段集合.

統(tǒng)計(jì)特征過濾模型接收N-Gram模型的輸出, 對(duì)候選文本片段進(jìn)行TF、PMI、DF、C-value特征的統(tǒng)計(jì), 計(jì)算術(shù)語特征融合指標(biāo)FPDC, 按設(shè)定閾值過濾,輸出高于閾值的候選政策術(shù)語.

語言規(guī)則模型對(duì)候選政策術(shù)語進(jìn)行噪聲過濾, 分為停用詞庫過濾和噪聲詞規(guī)則庫過濾, 輸出去噪后的候選政策術(shù)語.

特征種子集生成模型主要生成語料的政策術(shù)語特征種子集. 模型根據(jù)候選術(shù)語和已有政策術(shù)語詞庫的FPDC值計(jì)算C-value進(jìn)行更新, 選取FPDC值排序前20%的候選術(shù)語, 輸出為語料特征種子集.

語義特征表示模型主要生成候選術(shù)語和特征種子詞的語義特征表示. 模型對(duì)所有候選術(shù)語和特征種子詞利用中文預(yù)訓(xùn)練語言模型生成相應(yīng)的語義特征向量,并對(duì)語義特征向量進(jìn)行L2標(biāo)準(zhǔn)化.

相似度匹配模型主要利用候選術(shù)語和特征種子詞的相似度挖掘低頻且稀疏的政策術(shù)語. 模型遍歷語料特征種子集中的每個(gè)特征種子詞, 計(jì)算所有候選術(shù)語與該詞的語義向量的歸一化歐式距離相似度, 根據(jù)指數(shù)衰減的相似度閾值進(jìn)行連通性匹配, 輸出最終抽取的政策術(shù)語結(jié)果.

(3) 服務(wù)層

針對(duì)零樣本的術(shù)語抽取需求, 提供了多策略冷啟動(dòng)服務(wù)和語義增強(qiáng)熱啟動(dòng)服務(wù), 即分別集成了多策略頻繁模式算法和語義增強(qiáng)的多策略術(shù)語抽取算法, 為兩種算法提供RESTful API訪問接口.

多策略冷啟動(dòng)服務(wù)提供無詞庫支持的多策略政策術(shù)語抽取服務(wù), 模型使用第2.1節(jié)介紹的算法. 通過設(shè)定術(shù)語TF閾值、術(shù)語長度閾值、術(shù)語PMI閾值、術(shù)語DF閾值、C-value閾值以及是否進(jìn)行語言規(guī)則過濾, 先利用N-Gram統(tǒng)計(jì)語言模型從政策文本中抽取候選文本片段, 接著基于統(tǒng)計(jì)特征過濾模型和語言規(guī)則模型進(jìn)行候選文本片段分析與過濾, 最后排序輸出冷啟動(dòng)抽取結(jié)果.

語義增強(qiáng)熱啟動(dòng)服務(wù)提供有詞庫支持的語義增強(qiáng)政策術(shù)語抽取服務(wù), 模型使用第2.2節(jié)介紹的算法. 冷啟動(dòng)服務(wù)得到的抽取結(jié)果存在一定的不足, 一方面抽取術(shù)語中帶有噪聲詞匯, 一方面遺漏了低頻數(shù)據(jù). 在冷啟動(dòng)術(shù)語抽取結(jié)果的基礎(chǔ)上, 先利用特征種子集生成模型得到語料特征種子集, 接著依次使用語義特征表示模型和相似度匹配模型去除已抽取噪聲詞和召回未登錄低頻詞, 最后排序輸出熱啟動(dòng)抽取結(jié)果.

(4) 應(yīng)用層

應(yīng)用層提供零樣本條件下的交互式政策術(shù)語抽取構(gòu)建詞庫的功能, 按照術(shù)語抽取的使用場(chǎng)景不同, 分為單篇政策文本術(shù)語抽取和多篇政策文本術(shù)語抽取兩個(gè)場(chǎng)景, 提供政策術(shù)語詞庫的維護(hù)管理, 包括增加、刪除、修改、查詢等交互功能, 以及統(tǒng)計(jì)可視化功能.

在單篇政策文本術(shù)語抽取場(chǎng)景下, 用戶可設(shè)定和調(diào)整政策術(shù)語抽取參數(shù)(術(shù)語TF閾值、術(shù)語長度閾值、術(shù)語PMI閾值、術(shù)語DF閾值、C-value閾值以及是否進(jìn)行語言規(guī)則過濾、是否加入當(dāng)前詞庫和相似度閾值)實(shí)現(xiàn)從無詞庫冷啟動(dòng)到有詞庫熱啟動(dòng)半自動(dòng)化的政策術(shù)語抽取.

在多篇政策文本術(shù)語抽取場(chǎng)景下, 與單篇政策文本術(shù)語抽取不同之處在于, 抽取時(shí)不僅要考慮候選政策術(shù)語在單篇語料中的局部特征, 而且還需考慮其在多篇語料中的全局統(tǒng)計(jì)特征, 實(shí)現(xiàn)對(duì)某類政策文本的全局政策術(shù)語抽取.

系統(tǒng)整體流程如圖2所示.

圖2 語義增強(qiáng)的多策略政策術(shù)語抽取流程圖

3.2 系統(tǒng)實(shí)現(xiàn)與展示

系統(tǒng)實(shí)現(xiàn)采用Python語言作為程序開發(fā)語言, 選用具有強(qiáng)擴(kuò)展性和兼容性的Flask框架作為Web服務(wù)框架, 以Keras框架作為快速加載預(yù)訓(xùn)練語言模型的深度學(xué)習(xí)框架. 系統(tǒng)展示如圖3所示.

圖3 系統(tǒng)界面效果圖

系統(tǒng)包括政策術(shù)語詞庫統(tǒng)計(jì)、政策術(shù)語詞庫管理和政策術(shù)語抽取3大功能模塊. 系統(tǒng)首頁為政策術(shù)語詞庫統(tǒng)計(jì)模塊, 包括政策術(shù)語詞庫中政策術(shù)語總數(shù)、政策術(shù)語長度分布、政策術(shù)語類型分布、政策術(shù)語詞性分布、政策術(shù)語頻數(shù)分布. 政策術(shù)語詞庫管理模塊提供了對(duì)政策術(shù)語詞庫的增、刪、改、查. 政策術(shù)語抽取模塊, 分為單篇政策文本術(shù)語抽取和多篇政策文本術(shù)語抽取兩部分.

4 應(yīng)用與結(jié)果分析

本系統(tǒng)在某公司政務(wù)通平臺(tái)進(jìn)行術(shù)語抽取應(yīng)用驗(yàn)證, 選取數(shù)據(jù)集為1 942篇來自各省、直轄市或以上行政級(jí)別政府單位所公布的政策文本, 由業(yè)務(wù)人員判斷抽取的術(shù)語是否有用. 抽取效果評(píng)價(jià)指標(biāo)如下:

(1) 術(shù)語抽取準(zhǔn)確率

(2) 術(shù)語抽取召回率

(3) F1值

4.1 系統(tǒng)方法可行性分析

為了說明系統(tǒng)抽取方法的必要性和可行性, 設(shè)計(jì)了消融實(shí)驗(yàn)探究各個(gè)特定模塊對(duì)抽取結(jié)果的影響, 得出了如表2所示的實(shí)驗(yàn)結(jié)果.

由表2可知語義增強(qiáng)的多策略算法取得了最好的政策術(shù)語抽取效果, 移除了語義增強(qiáng)、凝固度、自由度、規(guī)則過濾和C-value特征中的任一策略都使得政策術(shù)語抽取效果變差.

表2 1 940篇政策文本術(shù)語抽取效果(%)

4.2 系統(tǒng)結(jié)果有效性分析

為了說明系統(tǒng)抽取結(jié)果的可用性和有效性, 對(duì)驗(yàn)證數(shù)據(jù)集抽取的3 436條術(shù)語進(jìn)行統(tǒng)計(jì)分析, 詞庫中的低頻長詞占比為55%, 通過普通的術(shù)語抽取方法難以抽取得到. 系統(tǒng)抽取的政策術(shù)語示例如表3所示.

表3 政策術(shù)語抽取結(jié)果示例

5 結(jié)束語

本文介紹了語義增強(qiáng)的多策略政策術(shù)語抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn). 該系統(tǒng)針對(duì)政策術(shù)語的時(shí)效性、低頻度和復(fù)合短語等特點(diǎn), 設(shè)計(jì)了一種基于統(tǒng)計(jì)學(xué)方法和語言學(xué)方法的多策略冷啟動(dòng)算法, 并在冷啟動(dòng)得到政策術(shù)語詞庫后, 利用預(yù)訓(xùn)練語言模型語義增強(qiáng)方式召回低頻且稀疏的政策術(shù)語, 提供交互式頁面對(duì)詞庫進(jìn)行了循環(huán)更新, 實(shí)現(xiàn)了半自動(dòng)化的政策術(shù)語抽取, 有助于政務(wù)企業(yè)對(duì)政策內(nèi)容的智能解讀, 提升企業(yè)政策精準(zhǔn)推送服務(wù)效果.

猜你喜歡
語義特征文本
語言與語義
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
如何快速走進(jìn)文本
主站蜘蛛池模板: 正在播放久久| 毛片网站观看| 91成人在线观看视频| 国产美女精品一区二区| 久久香蕉国产线看观看精品蕉| 丰满人妻中出白浆| 天堂岛国av无码免费无禁网站| 国产高潮流白浆视频| 午夜久久影院| 97青青青国产在线播放| 日本一本在线视频| 国产杨幂丝袜av在线播放| 亚洲自偷自拍另类小说| 亚洲国产综合精品一区| 欧洲高清无码在线| 中文字幕在线日本| 成人国产三级在线播放| 亚洲女同一区二区| 亚洲国产清纯| 欧美在线观看不卡| 在线观看欧美国产| 欧美人与性动交a欧美精品| a级毛片网| 在线亚洲精品自拍| 亚洲国产成人精品无码区性色| 国产一级片网址| 无码中文字幕乱码免费2| 亚洲国产精品一区二区高清无码久久| 在线网站18禁| 97影院午夜在线观看视频| 国产一级视频久久| 四虎在线高清无码| 九九九九热精品视频| 国产成人无码Av在线播放无广告| 久久精品国产电影| 99热这里只有精品久久免费| 国产在线一区二区视频| 亚洲第一香蕉视频| 天天躁夜夜躁狠狠躁图片| 国产美女一级毛片| 91精品国产综合久久香蕉922| 国产欧美高清| 精品无码国产自产野外拍在线| 亚洲国产成人久久精品软件 | 欧美第九页| 鲁鲁鲁爽爽爽在线视频观看| 日本国产精品| 青青操国产| 丝袜高跟美脚国产1区| 一级一级一片免费| 久久综合丝袜日本网| 精品久久久久久久久久久| 五月婷婷精品| 精品三级网站| 超碰色了色| 国产美女无遮挡免费视频| 在线观看欧美精品二区| 成人在线不卡视频| 色天天综合久久久久综合片| 久久综合色视频| 久久综合AV免费观看| jizz亚洲高清在线观看| 国产a在视频线精品视频下载| 亚洲一级色| 欧美日韩国产精品综合| 内射人妻无套中出无码| 9丨情侣偷在线精品国产| 日本尹人综合香蕉在线观看 | 青草国产在线视频| 91在线丝袜| 国产香蕉在线视频| 中文字幕亚洲电影| 免费人成视频在线观看网站| 欧美色视频日本| 欧美中文字幕第一页线路一| 国产美女一级毛片| 国产香蕉在线视频| 国产免费福利网站| 午夜福利亚洲精品| 99热亚洲精品6码| 国产一区在线视频观看| 亚洲欧洲日产国码无码av喷潮|