陳一


摘要:為研究國家對知識產(chǎn)權(quán)保護的重點關(guān)注領(lǐng)域,更好地發(fā)揮知識產(chǎn)權(quán)保護在創(chuàng)新和發(fā)展中的重要作用。運用Python對國家知識產(chǎn)權(quán)局官網(wǎng)2020年發(fā)布的關(guān)于知識產(chǎn)權(quán)保護文本進行爬蟲,再運用jieba和wordcloud制作詞云,分析國家對知識產(chǎn)權(quán)保護的側(cè)重點。
關(guān)鍵詞:知識產(chǎn)權(quán)保護;Python;爬蟲;詞云
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)19-0118-02
Research on Crawler and Wordcloud of Intellectual Property Protection Text
CHEN Yi
(School of Management and Economics,Kunming University of Science and Technology,Kunming 650000,China)
Abstract: In order to study the key areas of national attention on intellectual property protection, intellectual property protection can play an important role in innovation and development better. Python was used to crawl the text on intellectual property protection published on the official website of the State Intellectual Property Office in 2020, and jieba and wordcloud were used to make word clouds to analyze the state's emphasis on intellectual property protection.
Key words: intellectual property protection; Python; crawler; wordcloud
1引言
2020年我國科技領(lǐng)域多項關(guān)鍵技術(shù)受到實體清單限制,面對“卡脖子”問題,“科技創(chuàng)新是根,知識產(chǎn)權(quán)是魂。”知識產(chǎn)權(quán)保護在激勵創(chuàng)新中發(fā)揮著重要作用,為應對復雜的國際格局和全球經(jīng)濟變革,國家高度重視知識產(chǎn)權(quán)保護。中共中央政治局于2020年11月30日就加強我國知識產(chǎn)權(quán)保護工作舉行第二十五次集體學習。習近平總書記強調(diào),知識產(chǎn)權(quán)保護工作關(guān)系國家治理體系和治理能力現(xiàn)代化,關(guān)系高質(zhì)量發(fā)展,關(guān)系人民生活幸福,關(guān)系國家對外開放大局,關(guān)系國家安全。本文選擇國家知識產(chǎn)權(quán)局官網(wǎng)(https://www.cnipa.gov.cn/),運用python對2020年關(guān)于“知識產(chǎn)權(quán)保護”的文本進行爬蟲,并清洗文本數(shù)據(jù),然后通過爬取的文本制作詞云,分析國家對知識產(chǎn)權(quán)保護的重點關(guān)注領(lǐng)域。
2相關(guān)技術(shù)介紹
Python是一種跨平臺、開源、免費的解釋型高級動態(tài)編程語言。[1] Python語言具有語法簡潔、生態(tài)豐富、多語言集成的特點,近年來得到了迅猛發(fā)展和廣泛運用。
爬蟲,是一個可以自動提取互聯(lián)網(wǎng)上特定頁面內(nèi)容的程序,通過向網(wǎng)站發(fā)起請求,獲取資源后分析并提取有用數(shù)據(jù)。[2]爬蟲的架構(gòu)由爬蟲調(diào)度端、爬蟲核心模塊和存儲數(shù)據(jù)三個部分組成,爬蟲調(diào)度端是程序的入口,主要負責爬蟲程序的控制;爬蟲核心模塊包括 URL 管理器、網(wǎng)頁下載器和網(wǎng)頁解析器。[3]使用 Python 編寫爬蟲具有優(yōu)勢,Python易于配置的腳本特性,在處理字符時非常靈活,Python還有強大的爬蟲模塊和爬蟲框架,能夠便捷高效地下載網(wǎng)頁。[4]
詞云是對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”進行可視化呈現(xiàn),Python通過jieba庫和 wordcloud庫完成關(guān)鍵詞的抽取和詞云生成。[5] “結(jié)巴”分詞是一個 Python 中文分詞組件,可以對中文文本進行分詞、詞性標注、關(guān)鍵詞抽取等功能,[6]文本分析適合采用精確模式分詞。wordcloud 庫是 python詞云制作的第三方庫。詞云以詞語為基本單位更加直觀和藝術(shù)地展示文本,它可以將文本中詞語出現(xiàn)的頻率作為一個參數(shù)繪制詞云,而詞云的大小、顏色、形狀等屬性都可以設定。[7]生成詞云需要配置對象參數(shù)、加載詞云文本、輸出保存詞云文件三個步驟。[8]
3案例研究
國家知識產(chǎn)權(quán)局官網(wǎng)是中國發(fā)布知識產(chǎn)權(quán)信息的官方網(wǎng)站,從國家知識產(chǎn)權(quán)局官網(wǎng)獲取的關(guān)于知識產(chǎn)權(quán)保護的信息具有權(quán)威性和可靠性。運用Python語言編寫爬蟲程序,從國家知識產(chǎn)權(quán)局官網(wǎng)(https://www.cnipa.gov.cn/)上獲取2020年關(guān)于知識產(chǎn)權(quán)保護的文本,爬蟲的步驟分為四步:第一步,通過request庫的get方法向目標站點服務器發(fā)出請求;第二步,獲得請求響應的內(nèi)容,返回Response對象;第三步,解析網(wǎng)頁內(nèi)容;第四步:處理解析出的網(wǎng)頁內(nèi)容,提取重要的信息,進行格式化輸出并保存。輸出結(jié)果利用pandas的duplicated()方法檢查重復的數(shù)據(jù),使用drop_duplicates()函數(shù)完成去重。通過Python爬蟲獲取2020年國家知識產(chǎn)權(quán)局官網(wǎng)發(fā)布的關(guān)于知識產(chǎn)權(quán)保護的文本信息如圖1所示。
在爬取的2020年國家知識產(chǎn)權(quán)局官網(wǎng)發(fā)布的關(guān)于知識產(chǎn)權(quán)保護的文本信息的基礎(chǔ)上,采用中文分詞庫 jieba 對知識產(chǎn)權(quán)保護文本的標題和內(nèi)容進行行分詞,并使用哈工大停用詞表過濾,再通過 wordcloud 庫用統(tǒng)計出來的高頻詞制作詞云。2020年知識產(chǎn)權(quán)保護文本的詞云如圖2所示。
4結(jié)論
知識產(chǎn)權(quán)保護是國家應對發(fā)展和挑戰(zhàn)的重要戰(zhàn)略部署,通過對2020年國家知識產(chǎn)權(quán)局官網(wǎng)發(fā)布的關(guān)于知識產(chǎn)權(quán)保護的文本信息爬蟲與詞云化,可以分析出國家對于知識產(chǎn)權(quán)保護的側(cè)重點。要提高知識產(chǎn)權(quán)保護工作法治化水平,強化知識產(chǎn)權(quán)全鏈條保護,深化知識產(chǎn)權(quán)保護工作體制機制改革,推進知識產(chǎn)權(quán)領(lǐng)域國際合作和競爭,積極發(fā)揮知識產(chǎn)權(quán)保護在促進改革與發(fā)展以及維護國家安全發(fā)面的重要作用。數(shù)據(jù)技術(shù)時代,要充分運用文本挖掘技術(shù)對政策進行研究,為科學執(zhí)政提供有利參考。
參考文獻:
[1] 方芳.基于Scrapy框架京東網(wǎng)站筆記本電腦評論數(shù)據(jù)爬取和分析[J].電腦知識與技術(shù),2020,16(6):7-9.
[2] 張艷,吳玉全.基于Python的網(wǎng)絡數(shù)據(jù)爬蟲程序設計[J].電腦編程技巧與維護,2020(4):26-27.
[3] 吳永聰.淺談Python爬蟲技術(shù)的網(wǎng)頁數(shù)據(jù)抓取與分析[J].計算機時代,2019(8):94-96.
[4] 翟普.python網(wǎng)絡爬蟲爬取策略對比分析[J].電腦知識與技術(shù),2020,16(1):29-30,34.
[5] 嚴明,鄭昌興.Python環(huán)境下的文本分詞與詞云制作[J].現(xiàn)代計算機(專業(yè)版),2018(34):86-89.
[6] 馮與詰.詞云生成系統(tǒng)的構(gòu)建[J].通訊世界,2019,26(3):190-192.
[7] 裴麗麗.基于Python語言對電影影評數(shù)據(jù)爬蟲與詞云制作[J].信息記錄材料,2020,21(5):116-118.
[8] 徐博龍.應用Jieba和Wordcloud庫的詞云設計與優(yōu)化[J].福建電腦,2019,35(6):25-28.
【通聯(lián)編輯:王力】