999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種中文分詞的預處理技術

2023-05-14 22:17:38陳書雨曹集翔姚寒冰
計算機時代 2023年5期

陳書雨 曹集翔 姚寒冰

摘? 要: 分析基于詞表的最大匹配分詞算法,針對其缺陷設計了一個附近字表,內容為高頻字在詞表中出現的左邊首字和右邊首字。設計的算法根據高頻詞的特點,將句子盡可能多的分成段,然后將段進行最大匹配。當發現句子中高頻詞時,只取句子中高頻詞的左邊首字和右邊首字在附近字表中查找;若未找到,則表示句子中此高頻字單獨成詞,無需在詞表中匹配,從而減少高頻字單獨成詞時的匹配時間,進而減少整個分詞過程的時間。通過實驗證明此技術能提高中文分詞的效率。

關鍵詞: 高頻詞; 預處理; 中文分詞

中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)05-123-04

Pre-treatment technology for Chinese word segmentation

Chen Shuyu1, Cao Jixiang2, Yao Hanbing2

(1. Centre for Multidisciplinary and Intercultural Inquiry, University College London, London W55RF, UK;

2. School of Compute Science and Artificial Intelligence, Wuhan University of Technology)

Abstract: In this paper, we analyze the maximum matching word segmentation algorithm based on the word-list, and design a nearby character-list based on the high-frequency-words pre-treatment technology to improve the efficiency of Chinese word segmentation. In the proposed algorithm, the sentence is divided into many segments based on the characteristics of high-frequency-words, and then the maximum matching is carried out by searching for part of high-frequency-words in the nearby character-list. Using the algorithm reduces the matching time with the vocabulary in the whole word segmentation process. The experimental data prove that the technology will improve the Chinese word segmentation efficiency.

Key words: high-frequency-words; pre-treatment; Chinese word segmentation

0 引言

隨著自然語言處理的發展,分詞作為基礎任務成為研究重點,中文因其復雜性和特殊性成為分詞熱點話題。中國知網和Web of Science的相關論文顯示,自2010年分詞研究達到小高峰后,中文分詞研究熱度再次緩步增長。作為自然語言處理的基礎任務,分詞究竟有沒有必要,Li等在2019年ACL會議上提出此觀點,并在機器翻譯、文本分類、句子匹配和語言建模4個NLP任務上驗證分詞的非必要性,但這并不說明分詞研究不再有意義[1]。詞級別模型欠佳表現在數據稀疏、過擬合、OOV以及數據遷移能力缺乏等方面,要解決此類問題,提高分詞性能仍有重大意義。由于詞是最小的能夠獨立運用的語言單位,而漢語文本不像西方的書面語言,其詞與詞之間沒有任何空格之類的顯式標志指示詞的邊界,因此漢語的自動分詞問題就成了計算機處理漢語時的首要基礎工作,涉及自動翻譯、文本檢索、語音識別、文本校對及搜索等領域,是諸多應用系統不可或缺的一個重要環節[2]。

1 中文分詞的現狀

分詞就是將連續的字符串或序列按照一定規范重新組合成詞序列的過程。目前,已經有很多成熟的漢語分詞技術。鄒海山等在現有分詞技術的基礎上提出一種基于詞典的正向最大匹配和逆向最大匹配相結合的漢語分詞方案,可以高效、準確地實現中文文檔的主題詞條抽取和詞頻統計;應志偉等基于一個實際的文語轉換系統,改進最大匹配算法,從實用角度解決多音字的異讀問題和中文姓名自動識別問題;歐振猛、余順爭采用基于自動建立詞庫的最佳匹配方法進行中文分詞[3]。

分詞方法的性能可以從準確性、高效性、通用性和適用性等幾個方面來衡量。但考慮到分詞算法的應用領域大多對實時性和準確性兩方面有很高的要求,因此,實現較簡單的機械式分詞法中的正向最大匹配法仍然是應用最為廣泛的一種方法。

吳育良在百度中文分詞技術淺析一文中提出百度分詞使用的就是正向最大匹配法的推測[4];而中科院軟件所的張俊林在百度分詞算法分析一文中提出百度分詞采用的是雙向最大匹配算法(即正向最大匹配和反向最大匹配相結合)的推測,同時提到Google采用的是正向最大匹配分詞算法。下面就首先介紹正向最大匹配算法的基本原理,然后介紹本文中提高效率的預處理技術。

2 正向最大匹配算法基本原理

正向最大匹配算法的切分原理是:①將文本內容按標點符號分成句子集。②對于句子集中每一句子,假定詞典中最大詞長為L,對于待切分的句子,從句首取長度為L的字串進行匹配,如果匹配成功則認為此字串為一個詞,再從下一個字開始繼續該過程;如果匹配不成功,則去掉此字串的最后一個字進行匹配,直至匹配成功或子句為空。例如:對于文本中的字串ABCD,其中AB∈W,ABC∈W,ABCD[?]W,那么切分結果為:ABC/D。

3 高頻詞的預處理技術及算法設計

本算法與常用的基于詞典的最大匹配算法不同之處在于:在文本按標點符號及段落切成若干小段過后,先進行高頻詞的匹配,而此匹配不同于最大匹配算法,詞典的結構也有所不同,這將在后續章節中做詳細闡述。這樣提前處理的優點就是將段(按標點符號切分生成的)再繼續切分,以減少之后最大匹配的次數,從而減少整個分詞過程的時間,提高效率,這也是本算法的優勢所在。由于此操作發生在最大匹配之前,故在本文中稱之為預處理過程。

本算法實驗中用到的詞庫來自搜狗實驗室的互聯網詞庫(SogouW),其來自于對SOGOU搜索引擎所索引到的中文互聯網語料的統計分析,統計所進行的時間是2020年10月,涉及到的互聯網語料規模在1億頁面以上。統計出的詞條數約為15萬條高頻詞,除標出這部分詞條的詞頻信息之外,還標出了常用的詞性信息。

3.1 算法理論基礎

舉個最大匹配的例子:待切分字串為:ABCDEFG。詞典中最大詞長L為7。詞典W內容為:AB、CD、EF。則匹配步驟為:①ABCDEFG[?]W、ABCDEF[?]W、ABCDE[?]W、ABCD[?]W、ABC[?]W、AB∈W,切分:AB/CDEFG;②CDEFG[?]W、CDEF[?]W、CDE[?]W、CD∈W,切分:AB/CD/EFG;③EFG[?]W、EF∈W,切分:AB/CD/EF/G;切分完成??梢钥闯觯荷鲜鋈街?,總共12次匹配,只有3次匹配是有效的,其他的匹配都是無效的。如果能有方法提前確定CD或EF是一個詞,那么總的匹配次數將大大減少。

本文的出發點就是提前確定句子中常用的詞,然后進行最大匹配。為了減少這種提前操作的盲目性,本文提出了基于高頻字的預處理技術,高頻字的特點是在文章中出現頻率很高,因此,本算法的目的就是通過對高頻詞提前識別這一預處理方式,來減少無效匹配的次數,從而提高分詞的效率。

3.2 高頻詞表的內容和數據結構設計

高頻詞表的內容有兩部分組成:①單個字的高頻字;②含有①中高頻字的所有詞。在化柏林[5]的文中給出了從1989~2005年圖書情報學中文核心期刊的42989篇論文的摘要中(其中1996年以前的很多論文沒有摘要)經過分詞提取,得到高頻字,除了標點符號分別是:的、和、了、與、在、及、是、對、中、為、從、等、上、以、下、個。這就組成了本算法中高頻詞表內容中的第一部分。然后將詞庫(SogouW)中所有含第一部分高頻字的詞找出,構成了本算法中高頻詞表內容的第二部分,第二部分含有第一部分中的高頻詞的個數分別是:的(246)、和(347)、了(1113)、與(195)、在(767)、及(174)、是(493)、對(422)、中(2089)、為(890)、從(243)、等(250)、上(1415)、以(659)、下(1297)、個(491)。

孫茂松[6]等人對整詞二分法、Trie索引樹和逐字二分法三種常用的分詞詞典機制進行了詳細分析,這些機制都采用首字Hash索引,而本算法中第一部分中的高頻詞在第二部分中并不總是出現在首位,例如:含“的”的“的士”,“目的”和“有的放矢”。因此,本文根據原有的詞典機制,設計出三個表組合的詞典機制:高頻字表(上述第一部分所有的高頻字)、附近字表(上述第二部分包含高頻字附近的詞即左、右邊首字)和詞表(上述第二部分所有的詞),其結構如圖1所示。

3.3 高頻詞表數據結構設計說明

本算法設計了一個附近字表,其內容為高頻字在詞表中出現的左邊首字和右邊首字。當在句子中發現高頻字時,則只取句子中高頻字的左邊首字和右邊首字在附近字表中查找;若未找到,則表示句子中此高頻單獨成詞(如“書和筆”中的“和”),無需在詞表中匹配,從而減少高頻字單獨成詞時的匹配時間。當句中高頻字不單獨成詞(如“維護和平”中的“和”)時,會在附近字表中找到“平”,然后將首字和關鍵字兩字一起出現的詞(即“和平”)在詞表中的區間進行匹配。

3.4 算法描述

輸入:一個文檔數據中所有句子集合中的一個句子S:{t1,t2,……tn},tj為S中第j個字

輸出:經預處理后的句子NS

// LH為高頻字表,其中第k個區域是LHk:{Text,Num,Lpos,Rpos},Text為高頻字;Num為含高頻字的詞的數目,Lpos為左邊首字指向對應附近詞表的起始位置;Rpos為右邊首字指向對應附近詞表的起始位置

// LN為附近字表,其中第k個區域是LNk:{ Text, Num, Pos},Text為首字;Num為含首字和高頻字組合的詞的數目;Pos為指向對應詞表的起始位置

// LS為詞表,其中第k個區域是LSk:{ Text,Len,Pos},Text為詞;Len為詞的長度,即所含字的個數;Pos為高頻字在詞中出現的位置

// length為集合或表的長度,即元素的個數

[integer LastPos;//記錄當前句子最后一次分割的位置

procedure segment ()

LastPos←0;

for j←1 to S.length do

if LastPos>j then j←LastPos endif //分割位置在當前關鍵字位置之后,表示右部首詞已分割,匹配從最后分割位置開始

for k←1 to LH.length do

if S.tj==LHk.Text then

if S.tj-1≠NULL then

for m←LHk.Lpos to LHk.Rpos do

if S.tj-1==LNm.Text then call match(S,j,LNk);break; end if

repeat

end if

if LastPos>j then break end if //分割位置在當前關鍵字位置之后,表示右部首詞已分割

if S.tj+1≠NULL then

for m←LHk.Rpos to LHk.Num-LHk.Rpos do

if S.tj+1==LNm.Text then call match(S,j,LNk);break end if

repeat

end if

break? //跳出循環,匹配句子中下一字

end if

repeat

repeat

end segment

procedure match (S,j,LNk)? //找出句子中含高頻字的詞,并放入NS中

integer s,e

for n← LNk.Pos to LNk.Pos+ LNk.Len do

s← j - LNk.Pos , e← s + LNk.Len

if LSn.Test== S.tsts+1……te then

NS.put(S.tsts+1……te) //將匹配出成詞的字串做出標記放入NS中

LastPos←e

end if

repeat

end match ]

3.5 算法舉例

例句:“這個方案的目的是可以高效準確地實現中文文檔的主題詞條抽取和詞頻統計”。經過預處理后句子為:“這個/方案/的/目的/是/可以/高效準確地實現/中文/文檔/的/主題詞條抽取/和/詞頻統計”(加粗部分為本算法匹配出的高頻詞)。

4 實驗結果及分析

本文的實驗是基于Apache Jakarta家族中的開源項目Lucene,實驗數據來自搜狗實驗室的全網新聞數據(SogouCA)的精簡版(一個月數據, 437MB),其數據來自若干新聞站點2020年5月-6月期間奧運、體育、IT、國內、國際等18個頻道的新聞數據,提供URL和正文信息。本實驗針對正向最大匹配算法,在相同實驗環境下,選取不同的數據集,進行三次數據測試,其實驗結果見表1。

從表1可以看出,經過預處理后的變化:①分詞速度有明顯的提高,證明了此預處理技術的可行性;②分詞正確率沒有降低,因為此預處理過程同樣是基于詞典的匹配過程。這說明該方法具有一定的實用性。切分錯誤原因主要有兩個方面:一是未登錄到字典中的詞;二是含有錯別字的字串。

5 結論

隨著中文信息處理技術的發展和互聯網信息數據的日益增加,對中文分詞的速率要求越來越高,作為中文分詞基礎的詞典機制研究已成熟。本文研究現有的基于詞典的最大匹配算法的機制,根據高頻詞的特點,通過提前匹配出所有高頻詞進而把整個文本分成更多的段,從而提高分詞的速度,并且高頻詞出現次數越多,該算法的性能越好。當然此算法只是在分詞速度上有所提高,而對于正向最大匹配算法的分詞準確率及未登陸詞的識別等沒有改善。

參考文獻(References):

[1] LI X, MENG Y, SUN X, et al. Is word segmentationnecessary for deeplearning of chinese representations?[c].Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics,2019:359-401

[2] 宗成慶.統計自然語言處理[M].北京:清華大學出版社,2008

[3] 王佳楠,梁永全.中文分詞研究綜述[J].軟件導刊,2021,20(4):247-252

[4] 吳育良.百度中文分詞技術淺析[J].河南圖書館學刊,2008,28(4):115-117

[5] 化柏林.知識抽取中的停用詞處理技術[J].知識組織與知識管理,2007(8):48-51

[6] 孫茂松,左正平,黃昌寧.漢語自動分詞詞典機制的實驗研究[J].中文信息學報,1999,14(1):1-6

主站蜘蛛池模板: 国产毛片高清一级国语| 欧美一区中文字幕| 久久青青草原亚洲av无码| 亚洲黄网在线| 国产精品真实对白精彩久久| 在线另类稀缺国产呦| 伊人AV天堂| 一级香蕉人体视频| 永久免费无码成人网站| 成人另类稀缺在线观看| 99这里精品| 91尤物国产尤物福利在线| 视频一区亚洲| 亚洲精品黄| 成人午夜网址| 99在线观看视频免费| 日韩国产欧美精品在线| 中文国产成人久久精品小说| 热99re99首页精品亚洲五月天| 国产午夜一级毛片| 中文字幕在线日韩91| 国产av色站网站| 97se亚洲综合| 国产成人无码Av在线播放无广告| 婷婷综合缴情亚洲五月伊| 国产网站免费| 亚洲人成亚洲精品| 欧美国产在线一区| 成人午夜免费观看| 午夜免费视频网站| 美女一级免费毛片| 99久久无色码中文字幕| 无码丝袜人妻| 亚洲国产成人麻豆精品| 在线一级毛片| 亚洲日韩第九十九页| 香蕉色综合| 曰韩人妻一区二区三区| 毛片网站在线看| 国产91特黄特色A级毛片| 免费国产好深啊好涨好硬视频| 福利在线不卡| 国产一区二区福利| 国产极品美女在线| 色一情一乱一伦一区二区三区小说 | 国产白浆一区二区三区视频在线| 天天做天天爱夜夜爽毛片毛片| 亚洲一区二区在线无码| 午夜精品久久久久久久无码软件| 午夜a级毛片| 色偷偷男人的天堂亚洲av| 久久国产免费观看| 欧洲熟妇精品视频| 国产午夜无码片在线观看网站| 国产成人无码AV在线播放动漫| 日本精品中文字幕在线不卡| 99热在线只有精品| 国产无码高清视频不卡| 免费人成网站在线高清| 亚洲天堂视频网站| 国产裸舞福利在线视频合集| 中文字幕久久精品波多野结| 久久黄色一级片| 久久久久亚洲精品成人网| 免费在线一区| 天天摸夜夜操| 欧美影院久久| 亚洲,国产,日韩,综合一区| 狠狠干综合| 国产精品嫩草影院视频| 亚洲无码91视频| 99热这里只有免费国产精品| 欧美精品高清| 视频二区国产精品职场同事| 在线a网站| 欧美精品色视频| 亚洲欧洲天堂色AV| 国产男人天堂| 亚洲无限乱码| 欧美日本不卡| 日韩无码黄色| 欧美色综合网站|