999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識產(chǎn)權(quán)保護文本的爬蟲與詞云研究

2021-09-27 16:33:25陳一
電腦知識與技術(shù) 2021年19期

陳一

摘要:為研究國家對知識產(chǎn)權(quán)保護的重點關(guān)注領(lǐng)域,更好地發(fā)揮知識產(chǎn)權(quán)保護在創(chuàng)新和發(fā)展中的重要作用。運用Python對國家知識產(chǎn)權(quán)局官網(wǎng)2020年發(fā)布的關(guān)于知識產(chǎn)權(quán)保護文本進行爬蟲,再運用jieba和wordcloud制作詞云,分析國家對知識產(chǎn)權(quán)保護的側(cè)重點。

關(guān)鍵詞:知識產(chǎn)權(quán)保護;Python;爬蟲;詞云

中圖分類號:TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)19-0118-02

Research on Crawler and Wordcloud of Intellectual Property Protection Text

CHEN Yi

(School of Management and Economics,Kunming University of Science and Technology,Kunming 650000,China)

Abstract: In order to study the key areas of national attention on intellectual property protection, intellectual property protection can play an important role in innovation and development better. Python was used to crawl the text on intellectual property protection published on the official website of the State Intellectual Property Office in 2020, and jieba and wordcloud were used to make word clouds to analyze the state's emphasis on intellectual property protection.

Key words: intellectual property protection; Python; crawler; wordcloud

1引言

2020年我國科技領(lǐng)域多項關(guān)鍵技術(shù)受到實體清單限制,面對“卡脖子”問題,“科技創(chuàng)新是根,知識產(chǎn)權(quán)是魂。”知識產(chǎn)權(quán)保護在激勵創(chuàng)新中發(fā)揮著重要作用,為應對復雜的國際格局和全球經(jīng)濟變革,國家高度重視知識產(chǎn)權(quán)保護。中共中央政治局于2020年11月30日就加強我國知識產(chǎn)權(quán)保護工作舉行第二十五次集體學習。習近平總書記強調(diào),知識產(chǎn)權(quán)保護工作關(guān)系國家治理體系和治理能力現(xiàn)代化,關(guān)系高質(zhì)量發(fā)展,關(guān)系人民生活幸福,關(guān)系國家對外開放大局,關(guān)系國家安全。本文選擇國家知識產(chǎn)權(quán)局官網(wǎng)(https://www.cnipa.gov.cn/),運用python對2020年關(guān)于“知識產(chǎn)權(quán)保護”的文本進行爬蟲,并清洗文本數(shù)據(jù),然后通過爬取的文本制作詞云,分析國家對知識產(chǎn)權(quán)保護的重點關(guān)注領(lǐng)域。

2相關(guān)技術(shù)介紹

Python是一種跨平臺、開源、免費的解釋型高級動態(tài)編程語言。[1] Python語言具有語法簡潔、生態(tài)豐富、多語言集成的特點,近年來得到了迅猛發(fā)展和廣泛運用。

爬蟲,是一個可以自動提取互聯(lián)網(wǎng)上特定頁面內(nèi)容的程序,通過向網(wǎng)站發(fā)起請求,獲取資源后分析并提取有用數(shù)據(jù)。[2]爬蟲的架構(gòu)由爬蟲調(diào)度端、爬蟲核心模塊和存儲數(shù)據(jù)三個部分組成,爬蟲調(diào)度端是程序的入口,主要負責爬蟲程序的控制;爬蟲核心模塊包括 URL 管理器、網(wǎng)頁下載器和網(wǎng)頁解析器。[3]使用 Python 編寫爬蟲具有優(yōu)勢,Python易于配置的腳本特性,在處理字符時非常靈活,Python還有強大的爬蟲模塊和爬蟲框架,能夠便捷高效地下載網(wǎng)頁。[4]

詞云是對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”進行可視化呈現(xiàn),Python通過jieba庫和 wordcloud庫完成關(guān)鍵詞的抽取和詞云生成。[5] “結(jié)巴”分詞是一個 Python 中文分詞組件,可以對中文文本進行分詞、詞性標注、關(guān)鍵詞抽取等功能,[6]文本分析適合采用精確模式分詞。wordcloud 庫是 python詞云制作的第三方庫。詞云以詞語為基本單位更加直觀和藝術(shù)地展示文本,它可以將文本中詞語出現(xiàn)的頻率作為一個參數(shù)繪制詞云,而詞云的大小、顏色、形狀等屬性都可以設定。[7]生成詞云需要配置對象參數(shù)、加載詞云文本、輸出保存詞云文件三個步驟。[8]

3案例研究

國家知識產(chǎn)權(quán)局官網(wǎng)是中國發(fā)布知識產(chǎn)權(quán)信息的官方網(wǎng)站,從國家知識產(chǎn)權(quán)局官網(wǎng)獲取的關(guān)于知識產(chǎn)權(quán)保護的信息具有權(quán)威性和可靠性。運用Python語言編寫爬蟲程序,從國家知識產(chǎn)權(quán)局官網(wǎng)(https://www.cnipa.gov.cn/)上獲取2020年關(guān)于知識產(chǎn)權(quán)保護的文本,爬蟲的步驟分為四步:第一步,通過request庫的get方法向目標站點服務器發(fā)出請求;第二步,獲得請求響應的內(nèi)容,返回Response對象;第三步,解析網(wǎng)頁內(nèi)容;第四步:處理解析出的網(wǎng)頁內(nèi)容,提取重要的信息,進行格式化輸出并保存。輸出結(jié)果利用pandas的duplicated()方法檢查重復的數(shù)據(jù),使用drop_duplicates()函數(shù)完成去重。通過Python爬蟲獲取2020年國家知識產(chǎn)權(quán)局官網(wǎng)發(fā)布的關(guān)于知識產(chǎn)權(quán)保護的文本信息如圖1所示。

在爬取的2020年國家知識產(chǎn)權(quán)局官網(wǎng)發(fā)布的關(guān)于知識產(chǎn)權(quán)保護的文本信息的基礎(chǔ)上,采用中文分詞庫 jieba 對知識產(chǎn)權(quán)保護文本的標題和內(nèi)容進行行分詞,并使用哈工大停用詞表過濾,再通過 wordcloud 庫用統(tǒng)計出來的高頻詞制作詞云。2020年知識產(chǎn)權(quán)保護文本的詞云如圖2所示。

4結(jié)論

知識產(chǎn)權(quán)保護是國家應對發(fā)展和挑戰(zhàn)的重要戰(zhàn)略部署,通過對2020年國家知識產(chǎn)權(quán)局官網(wǎng)發(fā)布的關(guān)于知識產(chǎn)權(quán)保護的文本信息爬蟲與詞云化,可以分析出國家對于知識產(chǎn)權(quán)保護的側(cè)重點。要提高知識產(chǎn)權(quán)保護工作法治化水平,強化知識產(chǎn)權(quán)全鏈條保護,深化知識產(chǎn)權(quán)保護工作體制機制改革,推進知識產(chǎn)權(quán)領(lǐng)域國際合作和競爭,積極發(fā)揮知識產(chǎn)權(quán)保護在促進改革與發(fā)展以及維護國家安全發(fā)面的重要作用。數(shù)據(jù)技術(shù)時代,要充分運用文本挖掘技術(shù)對政策進行研究,為科學執(zhí)政提供有利參考。

參考文獻:

[1] 方芳.基于Scrapy框架京東網(wǎng)站筆記本電腦評論數(shù)據(jù)爬取和分析[J].電腦知識與技術(shù),2020,16(6):7-9.

[2] 張艷,吳玉全.基于Python的網(wǎng)絡數(shù)據(jù)爬蟲程序設計[J].電腦編程技巧與維護,2020(4):26-27.

[3] 吳永聰.淺談Python爬蟲技術(shù)的網(wǎng)頁數(shù)據(jù)抓取與分析[J].計算機時代,2019(8):94-96.

[4] 翟普.python網(wǎng)絡爬蟲爬取策略對比分析[J].電腦知識與技術(shù),2020,16(1):29-30,34.

[5] 嚴明,鄭昌興.Python環(huán)境下的文本分詞與詞云制作[J].現(xiàn)代計算機(專業(yè)版),2018(34):86-89.

[6] 馮與詰.詞云生成系統(tǒng)的構(gòu)建[J].通訊世界,2019,26(3):190-192.

[7] 裴麗麗.基于Python語言對電影影評數(shù)據(jù)爬蟲與詞云制作[J].信息記錄材料,2020,21(5):116-118.

[8] 徐博龍.應用Jieba和Wordcloud庫的詞云設計與優(yōu)化[J].福建電腦,2019,35(6):25-28.

【通聯(lián)編輯:王力】

主站蜘蛛池模板: 欧美不卡在线视频| 久久黄色一级视频| 人与鲁专区| 国产精品人成在线播放| 国产97公开成人免费视频| 91精品网站| 天堂成人在线| 日韩在线中文| 欧美亚洲网| 原味小视频在线www国产| 亚洲国产成人综合精品2020| 香蕉久久国产精品免| 最新国语自产精品视频在| 国产白浆在线观看| 欧美一级夜夜爽www| 日本亚洲最大的色成网站www| 久久综合五月| 亚洲国产日韩欧美在线| 国产精品污视频| 亚洲黄色网站视频| 中国美女**毛片录像在线| 九色国产在线| 国产网站一区二区三区| 国产精品视频白浆免费视频| 精品国产黑色丝袜高跟鞋 | 正在播放久久| 亚洲国产综合自在线另类| 国产嫖妓91东北老熟女久久一| 国产高潮流白浆视频| 秋霞午夜国产精品成人片| 免费av一区二区三区在线| 欧美性久久久久| 亚洲欧美日韩精品专区| 在线日韩日本国产亚洲| 亚洲综合九九| 97国产精品视频自在拍| 亚洲视频欧美不卡| 久久亚洲国产一区二区| 免费黄色国产视频| 国产在线精品美女观看| 国产无码在线调教| 女人18毛片一级毛片在线 | 动漫精品中文字幕无码| 久久久久亚洲Av片无码观看| 欧美国产日韩另类| 国内精品九九久久久精品| 久久夜色撩人精品国产| 国产aⅴ无码专区亚洲av综合网 | 亚洲午夜福利在线| 国产成人午夜福利免费无码r| 伊人精品视频免费在线| 国产va在线观看| 四虎成人精品在永久免费| 99视频在线观看免费| 91综合色区亚洲熟妇p| 国产人前露出系列视频| 青青草综合网| 国产va免费精品观看| 午夜日b视频| 制服丝袜在线视频香蕉| 国产簧片免费在线播放| 91视频免费观看网站| 国产亚洲日韩av在线| 精品五夜婷香蕉国产线看观看| 久久黄色影院| 国产新AV天堂| 亚洲成人高清在线观看| 天堂成人在线| 亚洲国内精品自在自线官| 日韩无码黄色| 国产亚洲精| 亚洲国产精品日韩欧美一区| 欧美日韩福利| 国产一区二区三区精品久久呦| 激情午夜婷婷| 伊人久久青草青青综合| 美女一区二区在线观看| 欧美一级高清免费a| 狠狠躁天天躁夜夜躁婷婷| 免费观看亚洲人成网站| 国产激情在线视频| 亚洲午夜18|