999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本的詞云分析方法

2022-09-23 13:26:20云太真
電腦報 2022年36期
關鍵詞:詞匯文本

云太真

對中文文本進行詞頻分析,進而生成詞云,是一種常見的文本分析方法。詞云分析有助于快速掌握文章主要內容,抓住重點,深入理解文章內涵,并以圖形化的方式進行展示。本文以國家發展改革委和國家能源局今年5月發布的《關于促進新時代新能源高質量發展的實施方案》一文為例,使用Python語言及其擴展包,對其進行詞頻分析,生成詞云。

一、整理和讀取文件

首先是整理文件,從網上可以找到此文件的文本,復制整理為TXT格式,去掉無關內容,去掉注解和說明。我們分析的是文本正文,對其他內容不做研究。

接著,我們利用Python語言的文件操作,將文件讀入到字符串中,如下:

article=open(‘E:/關于促進新時代新能源高質量發展的實施方案.txt).read()

這條語句在執行的時候會報告錯誤。經查,發現最近Windows10操作系統下的記事本程序進行了更新。使用記事本程序保存TXT文本的時候,它會默認保存為utf-8編碼格式。這說明微軟不再把ANSI編碼作為默認的編碼格式。因此代碼在打開文件的時候,需要指定編碼格式如下:

該語句執行后,article是一個包含文件所有內容的字符串。

二、分詞和詞頻統計

接下來,我們需要將這個連續的文本分割為詞匯,這樣才能進行詞頻分析。需要說明的是,漢語詞匯的分割是一個難題。首先來說,漢語的基本單位是字,字組成詞,詞和詞之間沒有明顯的標識。這一點不像英文文本,英語文本的詞是基本單位,詞和詞之間有空格分開,漢語文本的詞之間是連續的。其次,漢語的詞和詞也能組成詞、成語、歇后語等,這些語言現象的存在對詞匯的分割產生了很多困難。另外,不同學科的文本中往往還存在一些專業詞匯和術語,進行詞匯分割和識別需要對這些專業詞匯和術語進行處理。

為解決中文分詞的問題,不少研究者提出了一些有用的算法。在Python語言領域,有些研究者或機構發布了對應的擴展包給大家使用,有些適用于通用的社會科學文本,有些適用于某些專業領域的文本。這里我們使用最常用的結巴分詞擴展包,使用之前我們要先安裝。具體方法是:在聯網情況下,在操作系統的命令行下運行指令:

pip? install? jieba

然后在程序中首先導入jieba分詞包,即:

import jieba

接下來,我們這樣使用jieba分詞包。這條語句,將把文本字符串article分割為若干詞匯,并按順序,將詞匯作為列表的元素返回,article_words是一個列表。你可以試試觀察一下該列表的內容。

article_words=jieba.lcut(article)

分詞的目的是對文本中的詞匯進行頻度統計,這可以使用Python的字典類型,該字典的鍵就是文本中的詞,值就是該詞出現的頻度。針對前面的分詞列表,進行如下循環:如果是新詞,加入字典,頻度設置為1;如果字典中已經有了,就將頻度加1。代碼如圖:

三、停詞問題

我們接下來需要處理虛詞和標點符號問題。所謂虛詞,就是一些語氣詞和語法助詞,例如“啊”“的”“得”“地”等,這些虛詞和標點符號的出現頻度很高,但在語義分析中沒有意義,一般來說需要除去。除去這些內容的主要辦法是使用停詞文件和停詞列表。

停詞文件是一個事先準備好的TXT文本文件,里面是一些常見的語氣詞、助詞和各種標點符號,每個詞一行。停詞文件可以從網上找到,是別人整理好的,自己在使用中也可以根據經驗加入自己的“停詞”,也就是需要過濾掉的詞。程序讀取停詞文件,存放在停詞列表中。具體代碼如下:

stop_words=open(‘stop.txt,encodi

ng=“utf-8”).read().splitlines()

這里的splitlines()函數可以把讀取到的文件按行存儲到列表中,每行是一個元素。

接下來,我們使用停詞列表,把前面列表中的停詞刪除。

另外,中文文本中,一些出現頻度比較低的詞可能也沒有太大意義,也可以酌情去掉:

代碼這樣寫的主要原因是字典不能在循環的時候刪除元素。注意具體出現頻度多低的詞可以去掉,需要根據文本長度和詞的數量來斟酌,也可以先生成詞云圖觀察后再做調整。

四、詞云圖的生成

詞云圖的生成通常調用第三方庫wordcloud。這個庫在使用之前也需要安裝。具體方法是在操作系統的命令行下輸入如下指令:

pip install wordcloud

然后在程序中先導入wordcloud再使用,即:

import wordcloud

然后,利用模塊中的Wordcloud()方法生成實例化對象,該方法的常用參數如下:background_color表示顏色,默認為黑色;width和height表示生成的詞云圖的寬和高,單位是像素;font_path表示字體文件的路徑;max_font_size表示最大字號;max_words表示最多容納的詞匯。這些參數都有默認值,不是必需的,但對中文詞云分析來說,font_path參數是必須設置的,否則無法顯示漢字。這里我們進行如下設置:

接下來,需要把前面處理好的詞頻字典對象交給詞云對象:

w.generate_from_frequencies(words_freq)

最后,詞云對象就可以導出生成詞云圖了,這是一個.png格式的圖片文件,需要指定路徑和文件名。

w.to_file(‘e:/新能源.png)

程序就這樣完成了。運行結果如下圖:

注意詞云實例化參數中的max_font_size決定了這個詞云圖中最大號詞的字號,font_path指向的是Windows系統中的黑體字,如果想使用其他字體,需要指向對應的字體文件。整理后完整代碼如圖。

猜你喜歡
詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 狠狠做深爱婷婷久久一区| 操操操综合网| 四虎影视无码永久免费观看| 91精品视频在线播放| 无码在线激情片| 97在线公开视频| 天堂中文在线资源| 毛片一级在线| 国产欧美日韩资源在线观看| 国产AV毛片| 亚洲日韩Av中文字幕无码| 538精品在线观看| 影音先锋丝袜制服| 色呦呦手机在线精品| 亚洲日本在线免费观看| 亚洲大尺码专区影院| 91精品网站| 日韩精品中文字幕一区三区| 亚洲 成人国产| 亚洲三级色| 久久久久久国产精品mv| 国产综合另类小说色区色噜噜| 色婷婷亚洲综合五月| 国产一区二区三区日韩精品| 91精品视频网站| 国产一区二区丝袜高跟鞋| 9久久伊人精品综合| 婷婷伊人久久| 欧美一区福利| 久久精品国产在热久久2019| 亚洲人成网站18禁动漫无码| 国产精品手机在线观看你懂的| 在线精品亚洲一区二区古装| 麻豆精品在线| 91成人在线免费观看| 91免费观看视频| 精品国产免费第一区二区三区日韩| 国产精品手机视频| 成人午夜视频免费看欧美| 一级毛片免费观看久| 亚洲激情99| 青草精品视频| a天堂视频在线| 亚洲自拍另类| 最新国产午夜精品视频成人| 91福利在线观看视频| 91美女视频在线| 国产精品综合色区在线观看| 国产9191精品免费观看| 91在线视频福利| 免费国产好深啊好涨好硬视频| 精品国产亚洲人成在线| AV片亚洲国产男人的天堂| 五月天丁香婷婷综合久久| 亚卅精品无码久久毛片乌克兰| 亚洲最新网址| 四虎影院国产| 精品国产成人国产在线| 欧美性猛交一区二区三区| 亚洲热线99精品视频| 国产精品永久不卡免费视频| 欧美激情综合| 东京热一区二区三区无码视频| 四虎永久在线| 国产精品香蕉| 九九热免费在线视频| 久久亚洲国产视频| 亚洲男女天堂| 91区国产福利在线观看午夜| 在线观看的黄网| 26uuu国产精品视频| 国产成人在线无码免费视频| 91精品网站| 国产黄网站在线观看| 精品视频免费在线| 97在线视频免费观看| 中文无码精品A∨在线观看不卡| 久久青草精品一区二区三区| 欧美一区精品| 日韩欧美高清视频| 亚洲国产欧美目韩成人综合| 国产成熟女人性满足视频|