999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

“新基建”背景下的工程英語的詞頻數(shù)據(jù)分析

2022-12-20 03:46:14周世俊李波
關(guān)鍵詞:文本工程方法

◎周世俊 李波

一、研究目的

為響應(yīng)國家“新基建”號召:加快推進(jìn)國家規(guī)劃已明確的重大工程和基礎(chǔ)設(shè)施建設(shè),加快5G網(wǎng)絡(luò)、數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施建設(shè)進(jìn)度,作為重要的基礎(chǔ)產(chǎn)業(yè)和新興產(chǎn)業(yè),“新基建”一頭連著巨大的投資與需求,一頭牽著不斷升級的強(qiáng)大消費(fèi)市場,是中國經(jīng)濟(jì)增長的新引擎。當(dāng)前,大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)成為我國數(shù)字經(jīng)濟(jì)發(fā)展的重要引擎。隨著國家加大力度支持新基建發(fā)展,人工智能、5G、物聯(lián)網(wǎng)、數(shù)據(jù)中心等產(chǎn)業(yè)有望駛上“高速路”,這對國內(nèi)大數(shù)據(jù)產(chǎn)業(yè)來說也是一大關(guān)鍵利好。由之前際高速鐵路和城市軌道交通、新能源汽車充電樁、大數(shù)據(jù)中心、人工智能、工業(yè)互聯(lián)網(wǎng)這幾大領(lǐng)域,又新增5G、超高壓,對數(shù)字化、智能化的重要的程度越來越高,從而加大對外業(yè)務(wù)工程的需求,對外業(yè)務(wù)工程對英語的需要也越來越高,而工程英語多為生僻詞匯且詞匯量龐大,翻譯起來困難是造成對外業(yè)務(wù)發(fā)展極大的不利因素,大大降低工作效率,所以對工程英語有極高的需求,進(jìn)行英語詞頻數(shù)據(jù)分析有助于建立工程英語詞庫,來更好的找到所需的單詞來進(jìn)步對業(yè)務(wù)的交涉大大增加對外業(yè)務(wù)工程的效率,從而間接增加經(jīng)濟(jì)效益。

二、數(shù)據(jù)來源及處理方法

(一)數(shù)據(jù)來源

本文章所涉及的數(shù)據(jù)來自于長春工程學(xué)院的“新基建”+”一帶一路”涉外工程英語應(yīng)用研究的創(chuàng)新團(tuán)隊(duì),本文所包含的據(jù)都是一些國內(nèi)外所達(dá)成的工程合同,這里在本文中不支持展示。

(二)處理方法

在目前國內(nèi)的對外的工程合同大部分都是用pdf的形式來進(jìn)行保存,首先我們得將pdf形式轉(zhuǎn)成word形式或者txt文檔的形式,通過python的一些庫或者自定義函數(shù)的用法來統(tǒng)計(jì)詞頻,通過python的wordcloud庫來進(jìn)行詞云圖的制作,詞云圖可以幫助我們更好分辨不同元素的重要性,對文本出現(xiàn)頻率較高的文本信息進(jìn)行展示。

(三)操作步驟

1.將文本轉(zhuǎn)換成中文進(jìn)行處理。

(1)讀取文件。

①可以將PDF文件用相關(guān)軟件轉(zhuǎn)換成word或者txt文件來進(jìn)行讀取,不過因?yàn)樵谙嚓P(guān)軟件下轉(zhuǎn)換時會發(fā)生亂碼的存在就不能很好的達(dá)到想要的那種效果。

②在讀取PDF文檔的時候可以在python中選擇安裝pdfminer或者PyPDF2這個庫來進(jìn)行讀取,不過對于PyPDF2這個庫來說的話,只支持英文,對中文支持不太好,相對于PyPDF2來說,pdfminer支持多種語言、圖表、圖片等,功能較為強(qiáng)大。對于pdfminer是一個從pdf文檔提取信息并且完全專注于獲取和分析文本數(shù)據(jù)的工具,所以說對于要對工程合同進(jìn)行數(shù)據(jù)處理的話,可以考慮這個工具包,里面有專門的模塊來進(jìn)行存儲,獲得數(shù)據(jù)、解析page內(nèi)容,最為關(guān)鍵的是可以不去讀取圖片,防止工程合同中存在一些圖片導(dǎo)致程序報(bào)錯。像一般python2和python3不兼容這點(diǎn)也著重注意需要對應(yīng)的pdfminer版本。

③對word文檔進(jìn)行讀取的可以使用python-docx庫進(jìn)行讀取,python-docx庫可以讀取表格里的內(nèi)容,像word進(jìn)行保存時可能是docx或者是doc形式,不同的存儲格式需要不同的python庫。

(2)翻譯且進(jìn)行保存。

可以將文檔中的進(jìn)行讀取后,要做一個爬蟲來進(jìn)行翻譯,像百度翻譯、谷歌翻譯、有道翻譯等這個翻譯網(wǎng)站來爬取或者是直接進(jìn)行翻譯,這里用爬取百度翻譯為例:

①首先百度翻譯,是使用ajax的局部的刷新技術(shù),進(jìn)入百度翻譯的頁面,在翻譯面板中隨便輸入或者刪除一些字比如把“吃早飯”變成“吃飯”就會出現(xiàn)“sug”,獲得url。

②進(jìn)行UA偽裝,在python對網(wǎng)頁進(jìn)行請求時,會直接以一個爬蟲的形式去請求網(wǎng)站,這樣的話就會被大部分網(wǎng)站給禁止,所以在這進(jìn)行UA偽裝能幫助我們找到百度翻譯的接口。

③獲得數(shù)據(jù),然后將數(shù)據(jù)存儲在word、pdf、txt文件。

(3)進(jìn)行詞頻分析并制作詞云。

①下載jieba、wordcloud庫。

第一種方法,可以去官網(wǎng)中尋找jieba、wordcloud庫一定要找好對應(yīng)自己python版本的庫,不然會報(bào)錯或者找不到該程序,將下載whl文件復(fù)制到自己python的Script文件下,然后在命令指示符那輸入pip install+Script路徑+所下載的jieba和wordcloud的文件全部名第二種方法,在python的開發(fā)工具pycharm中setting中進(jìn)行下載或者直接在在命令指示符中輸入pip install+庫名,也可以用清華的鏡像的方法來進(jìn)行下載

②進(jìn)行分詞和數(shù)據(jù)處理。

像英文的話有空格區(qū)隔就相當(dāng)于分詞了,但是中文不行,中文有詞語,成語這些的,這時候就需要運(yùn)用到分詞庫了,jieba、pynlpir庫都是中文分詞庫,本文章使用的是jieba庫,它可以進(jìn)行分詞,命令行分詞,還支持關(guān)鍵詞提取等,同時還有jieba庫分詞有三種模式:第一種精確模式、第二種全模式、第三種搜索引擎模式,所以說jieba庫是十分好用的。首先先import jieba再定義一個函數(shù)readfile()讀取文本文檔內(nèi)容(像這里的讀取方法。上文已經(jīng)論述過了)在讀取過程中要注意文本保存內(nèi)容的編碼,不然讀取的內(nèi)容會是亂碼,然后給讀取的文檔內(nèi)容返回回來,其次可以進(jìn)行一個簡單的預(yù)處理定義一個函數(shù)clean(),使用一個for循環(huán)對于文本中存在的標(biāo)點(diǎn)符號去除,最后進(jìn)行分詞處理,在這定義一個wordcount()方法像這里本文章使用jieba。lcut()方法進(jìn)行分詞,這里在定義一個空的字典然后可以進(jìn)行一些無用字的處理,像一些“啊,嗯”等這些無價值的詞,像可以在百度上尋找停用詞表,很容易就能找,像這里本文使用的是哈工大的停用詞表,將停用詞表進(jìn)行一個分詞然后以列表的形式進(jìn)行存儲,然后用if-else語句進(jìn)行一個遍歷將合同里的無價值的詞給優(yōu)先刪除,然后在將刪除完停用詞的內(nèi)容存入sdict字典然后將字典類型強(qiáng)制類型轉(zhuǎn)換成列表,以詞頻從多到少的寫入列表中,函數(shù)最后將列表返回。最后定義writeFile()函數(shù)將處理完的數(shù)據(jù)存入txt的文件。

部分代碼展示以部分可見內(nèi)容展示

(4)進(jìn)行詞云圖制作。

wordcloud可以對文本中出現(xiàn)頻率較高的詞語給予視覺化展示的圖形,這個庫的wordcloud。WordCloud()方法可以進(jìn)行對畫板大小的構(gòu)建,背景的顏色,字體等等一系列的自定義,或者是可以自定義詞云圖的形狀,可以選擇一個圖片形狀來自定義詞云圖的形狀。本文展示簡單的制作云圖的代碼,如下圖:

2.將英文文本進(jìn)行處理。

讀取文件文件在上文都已經(jīng)進(jìn)行過仔細(xì)的講解可以去上文繼續(xù)了解了解,英文文檔可以直接進(jìn)行處理,像前文的clean()、fenci()、wordcount()、readfile()方法幾乎都是一樣,就是比較注意的一點(diǎn)是英文分詞是不需要進(jìn)行分詞,就是不需要像中文那樣jieba庫來特地的進(jìn)行分詞,像英文就是一個單詞一個空格,所以可以用python自帶的split()函數(shù)(split()函數(shù)是對指定的分隔符對字符串進(jìn)行切片,并且以列表的形式返回已經(jīng)分隔完成的字符串列表)進(jìn)行分隔,最終進(jìn)行打印存儲到txt文件里面,最后進(jìn)行詞云圖的制作,來展示合同中高頻出現(xiàn)的關(guān)鍵詞。

四、結(jié)束語

本項(xiàng)目從“新基建”下的工程合同出發(fā)進(jìn)行數(shù)據(jù)分析以及詞云圖的制作,我們采取現(xiàn)在新興的python語言來進(jìn)行數(shù)據(jù)的清洗、提取等一些操作,同時本文章在讀取工程合同時采取不同python庫來進(jìn)行讀取,展示python語言的簡單以及方便性,在處理數(shù)據(jù)方面也沒使用過難的技術(shù)都是采取了函數(shù)的方法來進(jìn)行處理,最后做出詞云圖。這同時也為我國涉外工程對工程合同處理提供了一個思路,也為我國涉外工程解決了一些實(shí)際的需求。

猜你喜歡
文本工程方法
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
子午工程
太空探索(2016年6期)2016-07-10 12:09:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
工程
捕魚
工程
工程
主站蜘蛛池模板: 免费激情网站| 色网在线视频| 毛片久久网站小视频| 天堂在线视频精品| 久久男人资源站| 精品国产福利在线| 国产精品冒白浆免费视频| 最新国产成人剧情在线播放 | 婷婷亚洲综合五月天在线| 本亚洲精品网站| 中文字幕亚洲专区第19页| 日本高清免费不卡视频| 欧美激情伊人| 欧美三级日韩三级| 亚洲视频欧美不卡| 激情视频综合网| 91精品国产自产91精品资源| 色AV色 综合网站| 亚洲天堂视频在线播放| 亚洲成人动漫在线| 国内精品九九久久久精品| 91亚瑟视频| 亚洲人成影院午夜网站| 国产99视频免费精品是看6| 国产精品视频导航| 久久99久久无码毛片一区二区| 2048国产精品原创综合在线| 综合社区亚洲熟妇p| 国产福利小视频高清在线观看| 人人91人人澡人人妻人人爽| 婷婷综合色| 国产欧美在线观看一区 | 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产成人1024精品| 日韩高清一区 | 在线观看热码亚洲av每日更新| 亚洲系列中文字幕一区二区| 老司机久久99久久精品播放| 国产在线视频福利资源站| 91免费精品国偷自产在线在线| 在线国产毛片手机小视频| 亚洲三级影院| 六月婷婷综合| 国产小视频a在线观看| 日本高清有码人妻| 亚洲综合18p| 国产91av在线| 97av视频在线观看| 亚洲国产天堂在线观看| 久久综合九九亚洲一区| 亚洲精品视频在线观看视频| 亚洲综合天堂网| 国产欧美日韩91| 日本精品影院| 乱人伦99久久| 亚洲欧美综合在线观看| 成人免费午夜视频| 国产在线视频导航| 亚洲国产成人自拍| 日韩 欧美 小说 综合网 另类 | 再看日本中文字幕在线观看| 伊人久久久久久久久久| 亚洲黄色成人| 永久在线精品免费视频观看| 日韩欧美国产三级| 无码免费试看| 在线精品亚洲国产| 2022精品国偷自产免费观看| 国产久操视频| 国产成人精品在线1区| 久久成人国产精品免费软件| 在线看AV天堂| 日韩毛片免费| 久久永久精品免费视频| 国产成人a毛片在线| 欧美成人综合在线| 亚洲成a∧人片在线观看无码| 熟女成人国产精品视频| 免费Aⅴ片在线观看蜜芽Tⅴ| 中文一级毛片| 一本大道无码日韩精品影视| 午夜福利免费视频|