999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文分詞在標準信息檢索中的應用

2017-04-25 03:40:26張廣慶朱登峰岳琪佳
質量探索 2017年1期
關鍵詞:標準化標準

張廣慶,朱登峰,岳琪佳

(1.青島市標準化研究院,山東 青島 266071;2.核工業計算機應用研究所,北京 100037;3.山東省青島第五十八中學, 山東 青島 266100)

中文分詞在標準信息檢索中的應用

張廣慶1,朱登峰2,岳琪佳3

(1.青島市標準化研究院,山東 青島 266071;2.核工業計算機應用研究所,北京 100037;3.山東省青島第五十八中學, 山東 青島 266100)

本文介紹如何通過建立簡易標準分詞詞典庫,然后運用基于該標準詞典庫的正向最大匹配法、逆向最大匹配法和雙向最大匹配法對輸入的檢索語句進行分詞,最后依據這些分詞檢索標準的中文名稱。

信息檢索;標準題錄;中文分詞

近年來,隨著“三證合一、一照一碼”、“企業標準自我聲明公開”等政策的逐步落實,標準專業機構紛紛打破原有的工作模式,加大了對標準在人員、資金、科研等方面的投入,帶來了全新的標準服務模式,如浙江標準化院推出綜合性標準服務平臺和企業版標準信息管理系統,極大地方便了標準人員的工作。在這些標準服務平臺和信息管理系統中,使用最多的功能是標準題錄信息的檢索,涉及中文檢索的內容主要有標準中文名稱、摘要和全文。

1 簡易標準分詞詞典庫的建立

中文中的詞語是由漢字組成的最小的有意義的語句單位,詞語之間沒有明顯的區分標記,而英文單詞之間是以空格作為自然分界符。現代中文里,雙音節詞語占的比重最大,也有單音節詞語,如口、廠、洗、染。中文分詞是將連續的漢字序列按照一定的規范重新組合成詞語序列的過程[1],主要應用于智能搜索領域,如百度、搜狗等網站的搜索功能。本文介紹如何通過建立簡易標準分詞詞典庫,然后運用基于該標準詞典庫的三種分詞方法對輸入的檢索語句進行分詞,最后依據這些分詞檢索標準的中文名稱。

本文選取國家標準化管理委員會網站公布的4.88萬條國家標準(含廢止)構建標準檢索庫,選取環境保護類的國家強制性標準166條,構建簡易標準分詞詞典庫(以下簡稱標準詞典庫)。分詞原則主要選取雙音節詞語,如果截取一個詞語影響語義則選擇不截取,如“排放口”不截取成“排放”和“口”,后兩個詞雖然有獨立語義,但合在一起表達的意思更完整,類似詞語還有“發動機”、“固體廢物”、“汽車壓件”等。這些國家標準中文名稱進行人工分詞后的全部詞語有323個,出現次數較多的前30個詞語參見表1。

表1 標準詞典庫部分詞語及在166個國家標準中出現的次數

2 三種中文分詞方法的應用

中文分詞方法有許多種,本文介紹正向最大匹配法、逆向最大匹配法[2]和雙向最大匹配法三種。最大匹配法是指假設分詞詞典庫中的最長詞有i個漢字,取待處理檢索語句的前i個漢字作為匹配詞語,在分詞詞典庫中檢索。如果能檢索到,將該i個漢字截取出來,剩余漢字開始匹配。如果不能檢索到,將該匹配詞語的最后一個漢字去掉,對其余i-1個漢字重新在分詞詞典庫中檢索。重復以上步驟,直到該匹配詞語能檢索到或者只剩一個漢字。以此類推,待處理檢索語句的其余漢字也做同樣方法的匹配,直到匹配完所有的詞語或漢字。正向匹配法是指從前向后匹配詞語,逆向匹配法是指從后向前匹配詞語,雙向匹配法是指用正向匹配法和逆向匹配法分別匹配詞語。如果匹配結果相同,采用這些分詞詞語;如果匹配結果不相同,采用總詞語數最少或者優化后的詞語最少的分詞詞語。

下面,以輸入國家標準GB/T 1.1-2009的中文名稱“標準化工作導則 第1部分:標準的結構和編寫”為例,說明上述三種匹配方法的實現過程。標準詞典庫中的最長詞是“混裝制劑類”5個漢字,最大匹配字數就是5個漢字,每次檢索相應減少1個漢字,直到檢索完成。如果待處理中文語句中有空格、數字、標點符號等自然分隔符,優先截取這些符號之前的語句作為檢索詞語,進行匹配。

2.1 正向最大匹配法的分詞過程

從前向后截取5個漢字是“標準化工作”,在標準詞典庫中檢索。能檢索到,再從第6個漢字截取5個漢字;不能檢索到,則把“標準化工作”每次從后面減少1個漢字。

第1次檢索詞:“標準化工作”,5字,詞典不能檢索到;第2次檢索詞:“標準化工”,4字,詞典不能檢索到;第3次檢索詞:“標準化”,3字,詞典不能檢索到;第4次檢索詞:“標準”,2字,詞典中能檢索到。

第1次分詞完成,找到詞語“標準”,剩余檢索語句“化工作導則 第1部分:標準的結構和編寫”。以此類推,最后的分詞結果是“標準/化/工/作/導/則/第1/部分/標準/的/結/構/和/編/寫”。其中,“標準/第1/部分/標準”詞語屬于詞典詞。因為標準詞典庫的不完善,導致“工作/導則/結構/編寫”詞語沒有被截取,這類詞語屬于非詞典詞。

2.2 逆向最大匹配法的分詞過程

從后向前截取5個漢字是“結構和編寫”,在標準詞典庫中檢索。能檢索到,再從倒數第6個漢字向前截取5個漢字;不能檢索到,則把“結構和編寫”每次從前面減少1個漢字。

第1次檢索詞:“結構和編寫”,5字,詞典不能檢索到;第2次檢索詞:“構和編寫”,4字,詞典不能檢索到;第3次檢索詞:“和編寫”,3字,詞典不能檢索到;第4次檢索詞:“編寫”,2字,詞典不能檢索到;第5次檢索詞:“寫”,1字,詞典不能檢索到。

第1次分詞完成,沒有找到詞語。第2次分詞截取5個字符為“的結構和編”,以此類推,最后的分詞結果是“標準/化/工/作/導/則/第1/部分/標準/的/結/構/和/編/寫”。

2.3 雙向最大匹配法的分詞過程

在上面例子中,正向最大匹配法和逆向最大匹配法的分詞結果都是“標準/化/工/作/導/則/第1/部分/標準/的/結/構/和/編/寫”,則雙向最大匹配法直接采用該分詞結果。在標準詞典庫中增加2個分詞“化工”、“工作”,正向最大匹配法的分詞結果是“標準/化工/作/導/則/第1/部分/標準/的/結/構/和/編/寫”,逆向最大匹配法的分詞結果是“標準/化/工作/導/則/第1/部分/標準/的/結/構/和/編/寫”,兩者的分詞區別是“化工/作”和“化/工作”,可以看出后者是正確的結果。這里引入另一個原則,如果分詞結果不同而總分詞數相同,采用逆向最大匹配法的分詞結果。

雙向最大匹配法的另一個原則是采用單字詞語最少的分詞結果。例如“標準研究院士”在大數據分詞詞典庫中,正向最大匹配法的結果是“標準研究院/士”,逆向最大匹配法的分詞結果是“標準/研究/院士”,前者有1個單字詞語,后者沒有,因此選擇后者的分詞結果。

在標準詞典庫中添加“標準化工作”、“結構”、“編寫”詞語,雙向最大匹配法的分詞結果是“標準化工作/導/則/第1/部分/標準/的/結構/和/編寫”。分別輸入標準詞典庫中的詞語“標準化工作”、“第1”、“部分”、“標準”、“結構”、“編寫”,在標準檢索庫中檢索的結果參見表2。

表2 利用分詞詞語檢索國家標準的結果

從表2中可以看出,使用5字詞語“標準化工作”檢索出來的結果也能符合檢索要求,因此,除直接檢索輸入的語句外,使用分詞后的多字詞語檢索也能滿足人們的檢索需求,這就是智能搜索引擎利用分詞技術實現的檢索語句的搜索功能。

3 結語

以上方法同樣適用于標準的摘要和全文檢索。大多數標準搜索引擎檢索摘要和全文時基于關鍵詞匹配,在區分同形異義和關聯同義詞時存在較大局限。借助中文分詞技術,標準搜索引擎可以預處理輸入的檢索語句,建立以關鍵詞為基礎的查詢分詞庫,通過“模糊化咨詢,智能化回答”,滿足標準工作者的檢索要求,提高查詢效率,幫助他們在最短的時間里獲取更多更優的答案。

[1] 劉開瑛.中文文本自動分詞和標注[M].北京:商務印書館.2000.

[2] 付年鈞,彭昌水,王慰.中文分詞技術及其實現[J].軟件導刊,2011,10(1):18-20.

Application of Chinese Word Segmentation in Standard Information Retrieval

ZHANG Guang-qing1, ZHU Deng-feng2, YUE Qi-jia3
(1. Qingdao Institute of Standardization, Qingdao, Shandong 266071, China; 2. Computer Application Institute of Nuclear Industry, Beijing 100048, China; 3. Qingdao NO.58 High School Shandong Province, Qingdao, Shandong 266100, China)

This paper introduces how to establish a simple standard dictionary database, and then use the standard dictionary based on maximum matching method, reverse maximum matching method and bidirectional maximum matching method of the input query word, finally on the basis of the segmentation criteria Chinese name.

information retrieval; standard title; Chinese word segmentation

TP391.1

A

1672-6286(2017)01-0079-04

張廣慶(1971-),男,山東巨野人。質量高級工程師,本科,主要從事組織機構代碼、軟件、信息化、標準等領域研究。

猜你喜歡
標準化標準
2022 年3 月實施的工程建設標準
標準化簡述
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
企業標準化管理信息系統
你可能還在被不靠譜的對比度標準忽悠
標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》
中國公路(2017年9期)2017-07-25 13:26:38
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
2015年9月新到標準清單
以標準化引領科技創新
主站蜘蛛池模板: 最新国产在线| 波多野结衣一区二区三区四区视频| 99这里只有精品免费视频| 久996视频精品免费观看| 成年人免费国产视频| 国产成人三级| 欧美国产精品不卡在线观看| 欧美成人a∨视频免费观看| 91麻豆国产精品91久久久| 亚洲欧美一级一级a| 91精品综合| 久久网欧美| 东京热av无码电影一区二区| 老司机午夜精品网站在线观看| 久久大香伊蕉在人线观看热2| 无码AV日韩一二三区| 亚洲欧美日韩高清综合678| 国产精品开放后亚洲| 国产成人精品在线1区| 中文字幕久久亚洲一区| 久久综合色88| 1024国产在线| 欧美中出一区二区| 国内毛片视频| 国产成人夜色91| 久久精品嫩草研究院| 91精品久久久久久无码人妻| 国产乱子伦视频在线播放| 国产97公开成人免费视频| 女人18一级毛片免费观看| 人妻中文久热无码丝袜| 中文字幕无码制服中字| 全午夜免费一级毛片| 人妻无码一区二区视频| 国产91小视频| 色综合久久综合网| 亚洲欧美日韩中文字幕在线一区| AV网站中文| 日韩精品无码不卡无码| 久久男人视频| 少妇极品熟妇人妻专区视频| 日韩av手机在线| 91国内外精品自在线播放| 色爽网免费视频| 亚洲第一区欧美国产综合| 亚洲精品图区| 国产精品.com| 欧美性色综合网| 操操操综合网| 国产欧美视频综合二区| 国产导航在线| 特级毛片8级毛片免费观看| 亚洲精品动漫| 久久久受www免费人成| 国内熟女少妇一线天| 国产精品短篇二区| 中文字幕佐山爱一区二区免费| 亚洲日韩Av中文字幕无码| 99草精品视频| 国产成人a在线观看视频| 美女啪啪无遮挡| 一本视频精品中文字幕| 五月激情婷婷综合| 中文字幕永久在线看| 国产一级α片| 国产亚洲精品自在久久不卡 | 久久精品娱乐亚洲领先| 色综合综合网| 99中文字幕亚洲一区二区| 五月天丁香婷婷综合久久| 99热这里只有精品国产99| 一边摸一边做爽的视频17国产| 欧美激情视频二区| 狠狠色噜噜狠狠狠狠色综合久| 国产一区二区三区免费| 成人国产精品一级毛片天堂| 国产微拍精品| 国产福利一区二区在线观看| 中文字幕久久波多野结衣| 午夜一级做a爰片久久毛片| 国产一二三区视频| 国产成人精品三级|