999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的中文分詞技術探究

2021-01-08 02:16:42史國舉
無線互聯科技 2021年23期

摘 要:中文分詞屬于自然語言處理技術子集,對中文分詞技術的研究由來已久,文章基于Python結巴分詞,從概述、分類、方法、挑戰、應用及現狀等對中文分詞技術進行探究,旨在拋磚引玉,以供借鑒。

關鍵詞:分詞;中文分詞;Jieba;自然語言處理

1 中文分詞技術的概述

在漢語語言學界,“詞”這一概念一直是個纏繞不清、不可逾越的問題。“詞是什么”(詞的抽象定義)和“什么是詞”(詞的具體界定),這兩個基本問題迄今為止還沒有得到一個權威、明確的表述,很難找到能引起大眾共鳴的詞表。眾所周知,相對于以英文為代表的拉丁語系語言,英文使用空格作為自然的分隔符,而中文由于繼承了古代漢語的傳統,詞與詞之間并無分隔[1]。而在現代漢語中則以雙字或多字占多數,一個字再也不等同于一個詞,如果把字作為分詞的最小單位,它的粒度太小,不能表達完整的意思,而句子的粒度太大,承載的信息太多,很難重復使用。通俗地說,中文分詞就是由機器在中文文本中的詞和詞之間自動添加分界線,是中文信息處理的基礎,是自然語言處理(NLP)的子集,其實質就是劃界。

2 中文分詞技術的分類

經過近30年的探究,中文分詞從提出到現在,已經提出了很多方法,如規則分詞、統計分詞和混合分詞。但至今還沒有推出一套很好的中文分詞系統。規則分詞是最早出現的一種分詞方法,主要通過人工建立詞庫,按照一定的方式進行匹配切分,操作簡單,效率高,但是難以處理新詞。在統計機器學習技術興起的今天,只有把統計機器學習應用到分詞任務中,形成統計分詞,才能更好地應付諸如新單詞發現等特殊情況。但在實際應用中,單純的統計分詞也存在著缺陷,即對語料質量的過分依賴,因而更多地采用二者結合,即混合分詞。

3 ? 中文分析技術的方法

研究表明,現有的分詞方法主要有3種類型。

3.1? 基于字符串匹配的分詞方法

字符串匹配的分詞方法(又稱為“機械分詞法”),就是用待分析的漢字符串與一個“足夠大”的機器詞典來匹配,如果在詞典中發現了某個字符串,就會匹配成功。常見的有正向最大匹配法、反向最大匹配法、最小分割法、雙向最大匹配法等。

3.2? 基于理解的分詞方法

其基本思想是在分詞時進行句法、語義分析,并利用句法和語義信息處理歧義。其基本結構分為3個部分:分詞子系統、語義子系統和總控部分。分詞子系統在總控部分的協調下,可以獲取與詞、句等相關的句法和語義信息,從而對分詞歧義進行判斷,即模擬人對句子的理解過程,這種分詞方法需要許多語言知識和信息,鑒于漢語知識的廣泛性和復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。

3.3? 基于統計的分詞方法

在分析了大量已分詞文本的基礎上,利用統計機器學習模型學習詞匯切分的規則(機器訓練)[2],從而得到未知文本的切分。比如最大概率分詞方法、最大熵分詞方法等。隨著大規模語料庫的建立以及統計機器學習方法的研究和發展,基于統計的中文分詞方法逐漸成了主流方法[3]。

4 中文分詞技術的挑戰

隨著時代的發展,中文分詞技術應運而生,它在很大程度上滿足了人們對自然語言處理的需求,解決了人類與計算機通信的一些障礙。但是,中文分詞技術在分詞規范、歧義切分、新詞識別等方面也存在諸多困難。

4.1? 分詞規范

在中文語言中,詞的概念不清楚是最大的難題。詞語的組合和界定十分模糊,這是一項復雜而龐大的工作。雖然現在已出現了一些標準,但在實際操作中難以運用,所以目前還沒有合理的可操作的理論和標準,導致中文分詞出現了很大的困難。

4.2? 歧義切分

在文本中的字符串,如果基于句子的字面意思進行理解,最終產生多種不同的理解方法。據調查,中文的歧義字段占中文總字數的比例略少于1%,其中詞法歧義字段為84%,句法歧義字段為11%,語義歧義字段為3.5%,而語用歧義字段僅為1.5%。從以上數據可以看出,中文分詞是有望能夠實現的,但對于詞的切分難度還是很大。歧義切分現象是分詞中不可避免的現象,是自動分詞中一個比較棘手的問題,處理歧義切分字段的能力將嚴重影響中文分詞的準確性。

4.3? 新詞識別

新詞的識別就是對未登錄詞的識別,所謂未登錄詞是指系統詞典中沒有收錄的詞。例如人名、地名、公司名等專屬名詞以及各類術語、縮略詞等,無法把這些詞全部收錄到詞典中去,但這些詞經常會在局部文本中大量出現,所以這些詞語讓機器去識別困難是非常大的,識別這些新詞也是分詞的一個重要任務和評價分詞的重要指標。

5 結巴中文分詞的技術

Python的結巴分詞,其分詞功能強大且安裝方便,可以進行簡單分詞、并行分詞、命令行分詞[4],當然它的功能也不止于此,目前還支持停用詞、關鍵詞提取、詞性標注、詞位置查詢等,其算法是基于隱馬爾可夫模型。下面以自然語言處理(NLP)分詞的經典語句:“結婚的和尚未結婚的”為例,來分析結巴分詞的3種模式分詞。

精確模式:嘗試最精確地切割句子,適合文本分析。其精確模式分詞結果為:結婚/的/和/尚未/結婚/的。

完整模式:在句子中掃描所有可能變成成詞的詞語,速度很快,但無法解決歧義。其完整模式分詞結果為:結婚/的/和尚/尚未/未結/結婚/的。

搜索引擎模式:在精確模式的基礎上,再對長詞進行切分,提高召回率,適合用于搜索引擎分詞。其搜索引擎分詞結果為:結婚/的/和/尚未/結婚/的。

6 中文分詞的應用

中文處理技術與西文處理技術相比,還存在著較大的差距,很多西文處理方法無法被中文直接采用,主要原因在于中文需要分詞這一工序。中文分詞技術屬于自然語言處理技術的子集,中文分詞是其他中文信息處理的根基,因此,對中文分詞技術在機器翻譯、智能問答、文摘生成、輿情分析、知識圖譜等應用方面的探究是一個漫長的過程[5]。

6.1? 機器翻譯

計算機能把一種語言翻譯成另一種語言,如百度在線翻譯,能把漢語翻譯成英語、日語、韓語、德語等其他國家語言。

6.2? 智能問答

計算機能夠正確回答輸入的問題。在電商網站中,智能問答具有非常現實的價值,比如代替人工擔任客服,有許多基本而重復的問題,其實都不需要人工客服,通過智能問答系統可以過濾掉大量的重復問題,讓人工座席更好地為顧客服務。

6.3? 文摘生成

計算機能夠準確歸納、總結并產生文本摘要。通過使用機器學習技術,計算機可以自動地從文獻中提取摘要信息,從而全面、準確地反映文獻的中心內容。這種技術可以幫助人們節省大量的時間,并且更加高效。

6.4? 輿論分析

計算機能夠判斷和識別當下輿論的導向,可以幫助分析當前的熱點話題,分析傳播途徑和發展趨勢,對于不良的輿論導向能夠進行有效的控制。

6.5? 知識圖譜

知識點相互連接而成的語義網絡,是表示知識發展過程與結構關系的一系列不同的圖形,用可視化技術描述知識資源及其載體,并對知識進行挖掘、分析、構造、繪制和展示,將其聯系起來。

7 國內自然語言研究的現狀

從20世紀90年代開始,國內自然語言研究進入了快速發展的時期,一系列系統開始大規模商業化,自然語言的研究內容和應用領域也在不斷創新。當前對自然語言的研究主要包括基礎研究和應用研究,其中語音和文本是其中的兩個重點。基礎研究主要涉及計算機、語言學、數學等學科,與之相關的技術有消歧義、語法形式化等。應用研究主要集中在應用自然語言處理的領域,如資料檢索、文本分類、機器翻譯等。在國內,由于對于機器翻譯這一基本理論的研究起步較早,是任何應用的理論基礎,因此,語法、句法、語義分析等方面的基礎研究一直是研究的重點,而近年來隨著網絡技術的發展,對智能檢索的研究也逐漸升溫。今后,數據科學與語言科學融合成為必然趨勢,神經語言學、語料庫語言學、數據語言學、語言智能等在人工智能領域將成為關注的焦點。

8 結語

本文從中文分詞技術的概述、分類、方法、挑戰、應用及現狀等方面進行探究,并在Python環境下實現中文分詞。盡管中文漢字博大精深,但隨著科技的發展和人工智能化的發展,對中文分詞技術的探究不斷深入,相信今后一定能開發出高質量、多功能的中文分詞算法,推動自然語言理解系統的廣泛應用。

[參考文獻]

[1]曾小芹.基于Python的中文結巴分詞技術實現[J].信息與電腦,2019(18):38-42.

[2]祝永志.基于Python的中文結巴分詞技術實現[J].通信技術,2019(7):1615-1619.

[3]孫鐵利.中文分詞技術的研究現狀與困難[J].信息技術,2019(7):187-192.

[4]白寧超.Python數據預處理技術與實踐[M].北京:清華大學出版社,2019.

[5]涂銘.Python自然語言處理實戰:核心技術與算法[M].北京:機械工業出版,2018.

(編輯 王雪芬)

A probe into Chinese word segmentation technology based on Python

Shi Guoju

(Bijie Radio and Television University, Bijie 551700, China)

Abstract:Chinese word segmentation belongs to the subset of natural language processing technology. The research on Chinese word segmentation technology has a long history. Based on Python stuttering segmentation, this paper explores Chinese word segmentation technology from the overview, classification, method, challenge, application and status quo, aiming to throw a brick to attract jade for reference.

Key words:word segmentation; Chinese word segmentation; Jieba;? natural language processing

作者簡介:史國舉(1985— ),男,貴州畢節人,講師,本科;研究方向:大數據分析。

主站蜘蛛池模板: 首页亚洲国产丝袜长腿综合| 最新无码专区超级碰碰碰| a毛片在线免费观看| 国产一级在线播放| 国产在线小视频| 影音先锋丝袜制服| 亚洲国内精品自在自线官| 在线不卡免费视频| 免费国产高清视频| 激情综合婷婷丁香五月尤物| 精品视频一区在线观看| 国产一区二区色淫影院| 91免费国产高清观看| 中日韩一区二区三区中文免费视频| 国产麻豆永久视频| 欧美第九页| 欧美人与性动交a欧美精品| 成人一级免费视频| 婷婷综合在线观看丁香| 亚洲乱强伦| 五月激情综合网| 成人精品午夜福利在线播放| 在线观看国产精品第一区免费| 欧美激情视频在线观看一区| 久久无码免费束人妻| 久久精品91麻豆| 欧美激情一区二区三区成人| 日韩精品无码免费专网站| 亚洲性影院| 中文字幕伦视频| 免费av一区二区三区在线| 九色综合伊人久久富二代| 成人午夜免费观看| 26uuu国产精品视频| 91精品国产一区| 国产成人亚洲日韩欧美电影| 日本人妻丰满熟妇区| 男女男免费视频网站国产| 黄色网址免费在线| 亚洲黄色成人| 国产91蝌蚪窝| 91福利在线观看视频| 久久精品最新免费国产成人| 免费在线a视频| 国产又粗又爽视频| 91口爆吞精国产对白第三集| 亚洲三级影院| 国产成人精品日本亚洲| 99一级毛片| 中文成人在线视频| 欧美色伊人| 国产成人精品亚洲77美色| 国产乱子精品一区二区在线观看| 久久精品国产国语对白| 漂亮人妻被中出中文字幕久久 | 爆操波多野结衣| 欧美成人第一页| 欧美全免费aaaaaa特黄在线| A级毛片无码久久精品免费| 亚洲中文字幕在线精品一区| 国产麻豆91网在线看| 激情五月婷婷综合网| 国产人成乱码视频免费观看| 99久久无色码中文字幕| 色婷婷在线播放| 特级毛片免费视频| 亚洲欧洲日韩综合色天使| 国产美女无遮挡免费视频网站| 999精品在线视频| 精品久久久久久成人AV| 老色鬼欧美精品| 色AV色 综合网站| 免费激情网站| 亚洲综合九九| 免费国产高清精品一区在线| 久久免费视频播放| 婷婷色婷婷| 国产69精品久久久久孕妇大杂乱| 四虎永久在线视频| 亚洲天堂网在线观看视频| 国产精品9| 91麻豆精品国产高清在线|