999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

適用于報社自動校對的中文分詞技術(shù)方案研究

2018-07-18 17:52:04李釗熊威
智富時代 2018年5期
關(guān)鍵詞:標(biāo)準(zhǔn)

李釗 熊威

【摘 要】報社校對軟件使用效果不盡如人意,其中一個重要原因是分詞結(jié)果不理想。文章根據(jù)報社校對業(yè)務(wù)特點,在自建文本分詞合理結(jié)果集的基礎(chǔ)上,通過對公開分詞工具的評測比較,探索適用于報社自動校對的中文分詞技術(shù)方案。這對深入研究報社自動校對系統(tǒng),提升報社新聞出版質(zhì)量意義重大。

【關(guān)鍵詞】自動校對;中文分詞

一、引言

目前市場上校對軟件有不少,采用的自動校對技術(shù)方法都是在中文分詞的基礎(chǔ)上,進(jìn)行分析糾錯。分詞結(jié)果不理想,校對效果自然不會好。所以提升自動校對效果的一個研究方向就是中文分詞研究。

對報社而言,過去以采編為主,內(nèi)容為王,缺乏技術(shù)沉淀。近幾年,隨著融合發(fā)展,技術(shù)得到了更多重視和投入。但是要完全自主研發(fā)分詞技術(shù),依然面臨著很多困難。因此引進(jìn)第三方技術(shù)成果,來幫助實現(xiàn)定制化應(yīng)用也是報社技術(shù)發(fā)展的一種方法。只是需要結(jié)合校對業(yè)務(wù)需求選用合適的中文分詞工具。

二、報社校對業(yè)務(wù)需求

由于語言文字現(xiàn)象的復(fù)雜性,新聞文本中的差錯類型多種多樣。根據(jù)表現(xiàn)形式,具體分為以下幾類:

⑴文字差錯:這類差錯是新聞出版差錯中最主要的部分,常見的包括錯字、別字、多字、漏字、顛倒字、繁體字等。

⑵詞語差錯:詞語是語言系統(tǒng)中最活躍的組成形式,很多詞語在詞音、詞形、詞義上近似,因此容易混淆誤用。

⑶語法差錯:主要指違反漢語語法結(jié)構(gòu)規(guī)律的句子。

⑷政治差錯:在涉及政治敏感問題方面,出現(xiàn)導(dǎo)向性、政策性和技術(shù)性錯誤。

⑸標(biāo)點符號差錯:違反國標(biāo)《標(biāo)點符號用法》的標(biāo)點符號使用錯誤。

⑹數(shù)字差錯:違反國標(biāo)《出版物上數(shù)字用法的規(guī)定》的數(shù)字使用錯誤。

⑺計量單位差錯:違反國標(biāo)《量和單位》的計量單位使用錯誤。

⑻英文拼寫差錯:英文內(nèi)容表述中出現(xiàn)的詞語拼寫錯誤。

⑼知識性差錯:內(nèi)容表述中涉及的有關(guān)知識不正確。

校對系統(tǒng)作為一種自動化輔助工具,就是要盡可能識別并糾正以上文字差錯,以幫助校對人員減輕工作量。

三、中文分詞工具選擇

中文分詞技術(shù)是自然語言處理中一個重要組成部分,在國內(nèi)外都有幾十年的研究歷史,也有很多優(yōu)秀成熟的解決方案。目前公開實用的中文分詞主要可分為學(xué)術(shù)類、市場類和開源類三種。

⑴學(xué)術(shù)類:由高校相關(guān)院所研發(fā),主要用于科學(xué)研究。知名代表有中科院NLPIR、哈工大LTP、斯坦福大學(xué)Stanford NLP、復(fù)旦大學(xué)FudanNLP等。目前各高校采用的分詞服務(wù)模式不盡相同,有共享版、試用版、付費版等。

⑵市場類:科技企業(yè)基于市場需求和技術(shù)導(dǎo)向而研發(fā)的開放化服務(wù)平臺。知名代表有百度AI、騰訊文智、玻森BosonNLP等。目前根據(jù)不同開放策略,在線分詞授權(quán)有免費和收費兩種方式。

⑶開源類:由個人技術(shù)研發(fā)并公布在代碼托管平臺上的開源項目。知名代表有paoding、ansj、jieba、Jcseg等。這類分詞都提供開源代碼,只要遵循開源協(xié)議,即可免費使用。

基于報社融合發(fā)展的技術(shù)成本管控和校對業(yè)務(wù)需要,選擇可免費使用且?guī)в性~性標(biāo)注的分詞工具。所以將斯坦福大學(xué)Stanford NLP、復(fù)旦大學(xué)FudanNLP、百度AI、玻森BosonNLP、jieba、ansj、Jcseg這7款中文分詞工具作為備選對象開展評測工作。

四、分詞工具評測方法

判斷分詞工具是否適用于報社自動校對,主要看分詞效果。采用黃金標(biāo)準(zhǔn)(Golden Standard),編制一份正確合理的分詞結(jié)果集作為參考開展評測。由于評測目的是衡量適用度而非準(zhǔn)確度,因此重點考慮的是詞語切分邏輯和詞性標(biāo)注精度。根據(jù)新聞出版文本差錯和自動校對常見問題,分詞需要具備以下六個能力維度。

⑴歧義識別:能識別并根據(jù)語境正確切分歧義內(nèi)容。

【例句】

“研究生命令本科生”分詞標(biāo)準(zhǔn)“研究生/名 命令/動 本科生/名”;

“這塊地面積小”分詞標(biāo)準(zhǔn)“這塊/代詞 地/名詞 面積/名詞 小/形容詞”。

⑵新詞發(fā)現(xiàn):能識別未登錄詞,并準(zhǔn)確標(biāo)注詞性。常見新詞有人名、地名、機(jī)構(gòu)名等。

【例句】

“王總和小麗結(jié)婚”分詞標(biāo)準(zhǔn)“王總/人名 和/連詞 小麗/人名 結(jié)婚/動詞”;

“吳江西陵印刷廠”分詞標(biāo)準(zhǔn)“吳江西陵印刷廠/機(jī)構(gòu)名”。

⑶短語組合:能識別常用的短語詞組。

【例句】

“這樣的人才能經(jīng)受住考驗”分詞標(biāo)準(zhǔn)“這樣的人/代詞 才能/動詞 經(jīng)受住/動詞 考驗/名詞”;

“信息技術(shù)應(yīng)用于教學(xué)”分詞標(biāo)準(zhǔn)“信息技術(shù)/名詞 應(yīng)用于/動詞 教學(xué)/名詞”。

⑷數(shù)字區(qū)分:能正確識別出各種數(shù)字組合詞,例如時間詞、數(shù)量詞等。

【例句】

“一億人有60%投票”分詞標(biāo)準(zhǔn)“一億/數(shù)詞 人/名詞 有/動詞 60%/數(shù)詞 投票/動詞”;

“9月20日購入1KG面粉”分詞標(biāo)準(zhǔn)“9月20日/時間詞 購入/動詞 1KG/數(shù)詞 面粉/名詞”。

⑸英文區(qū)分:能正確識別出各種英文組合詞,例如中英混合詞、英文單詞、網(wǎng)址、郵箱等。

【例句】

“一件T恤衫”分詞標(biāo)準(zhǔn)“一件/數(shù)詞 T恤衫/名詞”;

“官網(wǎng)www.foreo.com”分詞標(biāo)準(zhǔn)“官網(wǎng)/名詞 www.foreo.com/網(wǎng)址”。

⑹錯誤切分:當(dāng)文本存在錯誤時,切分結(jié)果必須要么是散串,要么依然是一個詞。

【例句】

“不原看到”分詞標(biāo)準(zhǔn)“不/副詞 原/副詞 看到/動詞”;

“新加泊旅游”分詞標(biāo)準(zhǔn)“新加泊/名詞 旅游/動詞”。

分詞效果評測指標(biāo)包括召回率(Recall)、準(zhǔn)確率(Precision)、F值(F-mesure)和錯誤率(Error Rate),以下分別簡記為R、P、F和ER。

定義:N為黃金標(biāo)準(zhǔn)切分詞語數(shù),e為分詞錯誤標(biāo)注詞語數(shù),c為分詞正確標(biāo)注詞語數(shù),則以上指標(biāo)計算公式如下:

除了分詞效果,評測中文分詞工具的適用度還要考慮并發(fā)性。并發(fā)性決定自動校對運算性能,主要看接口并發(fā)調(diào)用的限制和方法。

五、評測結(jié)論

編制一份涵蓋六個維度共計2000個例句的分詞結(jié)果測試集,對7個備選中文分詞工具進(jìn)行評測,評測結(jié)果如下:

從結(jié)果可以看出,適用于報社自動校對效果最理想的中文分詞工具是百度AI和玻森BosonNLP,性價比最高的是ansj。

在實際應(yīng)用中,可以采取多分詞混合使用的技術(shù)解決方案。在語料訓(xùn)練上使用百度AI和玻森BosonNLP,在校對算法上使用ansj。另外根據(jù)自動校對需要,還可以對開源分詞代碼進(jìn)行修改和優(yōu)化。至于如何進(jìn)行開源分詞二次開發(fā)則有待下一步研究。

【參考文獻(xiàn)】

[1]宋柔.計算機(jī)輔助漢語校對系統(tǒng)[J].當(dāng)代語言學(xué),2001,01,45~54.

[2]石敏.中文文本自動校對系統(tǒng)[D].江蘇科技大學(xué),2015.

[3]楊爾弘,方瑩,劉冬明,喬羽.漢語自動分詞和詞性標(biāo)注評測[J].中文信息學(xué)報,2006,01,44~49.

[4]黃翼彪.開源中文分詞器的比較研究[D].鄭州大學(xué),2013.

猜你喜歡
標(biāo)準(zhǔn)
2022 年3 月實施的工程建設(shè)標(biāo)準(zhǔn)
忠誠的標(biāo)準(zhǔn)
標(biāo)準(zhǔn)匯編
上海建材(2019年1期)2019-04-25 06:30:48
美還是丑?
你可能還在被不靠譜的對比度標(biāo)準(zhǔn)忽悠
一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
2015年9月新到標(biāo)準(zhǔn)清單
標(biāo)準(zhǔn)觀察
標(biāo)準(zhǔn)觀察
標(biāo)準(zhǔn)觀察
主站蜘蛛池模板: 成人伊人色一区二区三区| 91毛片网| 在线观看免费国产| 精品91视频| 国产一区二区三区在线无码| 亚洲精品人成网线在线 | 呦视频在线一区二区三区| 久久国产黑丝袜视频| 97一区二区在线播放| 亚洲看片网| 精品国产自| 国产精品深爱在线| 亚洲美女高潮久久久久久久| 亚洲一级毛片在线观播放| 色偷偷av男人的天堂不卡| 99精品视频在线观看免费播放| 成人a免费α片在线视频网站| 欧美天堂在线| 久久无码免费束人妻| lhav亚洲精品| 精品综合久久久久久97超人该 | 欧美A级V片在线观看| 在线观看无码a∨| 国产国模一区二区三区四区| 亚洲午夜福利精品无码不卡 | 日韩毛片视频| 青草精品视频| 高清码无在线看| 国产爽歪歪免费视频在线观看| 国产精彩视频在线观看| 久久久91人妻无码精品蜜桃HD| 在线日韩日本国产亚洲| 91网址在线播放| 久久婷婷六月| 亚洲自偷自拍另类小说| 精品少妇人妻无码久久| 一区二区无码在线视频| 日韩在线中文| 香蕉视频在线观看www| 亚洲精品桃花岛av在线| 在线观看国产网址你懂的| 欧美人与性动交a欧美精品| 亚洲香蕉在线| 欧美另类图片视频无弹跳第一页| 国产男人的天堂| 制服无码网站| 熟女日韩精品2区| 日韩欧美国产区| 青草视频久久| 看av免费毛片手机播放| 亚洲中文久久精品无玛| 日韩欧美国产另类| 色噜噜综合网| 欧洲极品无码一区二区三区| 91色老久久精品偷偷蜜臀| 99热国产在线精品99| 中文字幕无线码一区| 久久精品亚洲热综合一区二区| 青青青伊人色综合久久| 热99re99首页精品亚洲五月天| 另类欧美日韩| 久久99精品久久久大学生| 中国精品自拍| 欧美综合成人| 国产亚洲欧美在线视频| 青青网在线国产| 午夜在线不卡| 欧洲日本亚洲中文字幕| 亚洲无码37.| 91久久青青草原精品国产| 国产区在线观看视频| 在线国产三级| 不卡无码网| 久久久91人妻无码精品蜜桃HD| 日韩欧美中文字幕在线韩免费| 美女内射视频WWW网站午夜| 伊人久综合| 中文字幕人成人乱码亚洲电影| 国产成人调教在线视频| 国模粉嫩小泬视频在线观看| 中文字幕人成人乱码亚洲电影| 蜜桃视频一区二区|