999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python語言的學術論文數據挖掘與分析

2021-07-27 08:09:28劉煥英
新媒體研究 2021年5期
關鍵詞:數據挖掘

劉煥英

關鍵詞 Python語言;數據挖掘;醫療人工智能;學術論文;期刊編輯

中圖分類號 G232.1 文獻標識碼 A 文章編號 2096-0360(2021)05-0021-06

隨著互聯網技術的快速發展,大數據時代的來臨,數據規模巨大,但數據存在多樣性、價值密度低及關系復雜等特點。如何從海量的信息中獲得有價值的信息變得越來越困難。近年來逐漸興起的數據挖掘與分析可以很好地解決這個問題。數據挖掘技術通過多種復雜的算法在大量的元數據中發現數據間潛在的規律及有價值的信息。近年來在金融、醫療、社交及電信領域取得了顯著成果,而在期刊出版領域應用較少。在已有的報道中,有編輯提出把數據挖掘應用在網絡投稿系統中,可以對稿件進行分類送審、向作者定向征稿及相似文獻推薦、對投稿流程及投稿系統進行質量評價及促進系統的改進[1]。也已有編輯部利用數據挖掘為期刊的選題策劃、學者選擇、專題策劃、稿件篩選等提供更精準的數據依據,為期刊決策提供參考[2-5]。

在相關的研究中,編輯們更多的是利用HADOOP、ROST News Analysis Tool 4.5等數據挖掘工具,這些工具計算力及交互性不夠強大。本文參考譚春林[6]的數據挖方法,利用Python語言進行數據挖掘及分析。Python語言是數據挖掘領域最熱門的語言,具有較好的解釋性及交互性,且擁有強大的科學計算能力,能對大量科研人員成果數據進行挖掘和分析,從而獲得有用的價值。而期刊編輯可利用Python對某一領域的發文情況進行數據挖掘及分析,尋找熱門選題,指導期刊的選題策劃。在已有的研究中,期刊編輯領域利用Python來進行數據挖掘及分析的報道較少,本文提出利用Python語言對近年來的熱點話題醫療人工智能相關的學術論文進行挖掘和分析,為期刊編輯從事學術研究提供新思路。

1 研究方法

1.1 系統架構

基于Python 3.7的醫療人工智能相關學術論文的信息挖掘分析系統,利用Selenuim來獲取相關的期刊論文,將數據清理并分析后進行結果輸出。該系統主要分為三個模塊,第一個模塊是數據獲取,從中國知網選取相關的文本信息,其中包括作者、機構,關鍵詞、期刊、發表時間、下載及被引用次數等信息。第二個模塊是數據清洗及提取,把通知、辦法、條例等非學術論文的文章刪除。第三個模塊是數據統計分析,提取清理后的元數據,并對元數據統計分析。見圖1。

1.2 數據來源

利用中國知網數據庫(https://www.cnki. net)對醫療人工智能相關題材發文情況進行大數據挖掘和數據分析。本文從中國知網數據庫舊版入口,在“期刊”類目下進行“高級檢索”,檢索條件為“全文=人工智能+醫療/醫學/醫院/健康/中醫;時間=2010-2019;來源=全部期刊“。(數據采集時間為2020年5月10日)

1.3 數據挖掘

從網頁挖掘文獻元數據步驟如下:

第1步:首先使用Selenuim的webdriver. get方法進入中國知網首頁,然后使用Selenuim的element元素的send_keys自動輸入【賬號】與【密碼】,并使用click方法以實現自動點擊以登錄系統。

第2步:首先使用Selenuim的webdriver.get方法進入中國知網期刊 的高級檢索頁,然后使用Selenuim的e lement元素的send_keys、select_ by_value自動輸入【 人工智能】、【邏輯關系 and】、【醫療/醫學/醫院/健康/中醫】click方法以實現自動點擊以進行檢索。

第3步:使用Selenuim元素的find_element_ by_class_name獲檢索結果

標簽后,然后使用find_elements_by_tag_name獲取每行的與
的標簽,分別使用、find_element_by_ class_name與find_elements_by_xpath方法獲取文章的【 主題】、【刊名】、【發表時間】、【被引】、【下載】信息。

第4步:循 環每行把【作者】、【機構】、【關鍵詞】、【基金】、【分類】 存放在具體頁面中,并使用Selenuim元素的click()進入具體頁面,并使用find_element_by_class_name與find_elements_ by_xpath獲取以上信息。

第5步:在循環完當前檢索結果頁后,便進入下一頁,方法如下:

# 循環結果集頁面

同理,在進入下一頁面時,使用方法獲取上述數據,基本思路如下:循環檢索結果->循環每頁->循環每行(獲取【主題】、【刊名】、【發表時間】、【被引】、【下載】)->進入每行具體頁面(獲取【作者】、【機構】、【關鍵詞】、【基金】、【分類】)

第6步:獲取上述信息后,便可以入庫,在這里我們使用的數據庫系統是MySQL 5.7。

t_article字段信息如表1所示。

1.4 數據清洗

把作者為空的文章,例如:通知,辦法、條例等非學術論文刪除,方法如下:

1.5 數據預處理

由于作者、 機構、關鍵詞、基金與分類信息中含有多個屬性,例如多名作者、多個關鍵詞,需要使用Python的split函數把這1行數據拆分成2行或多行數據,然后使用 Python的pymysql模塊寫入MySQL,以利于我們接下來的統計。同理把機構、關鍵詞、基金的屬性也進行拆分,寫入相應的表進行保存。見表2。

1.6 數據統計

使用Python的pymysql模塊讀取MySQL的表,并使用Python調用MySQL的SQL查詢語言進行統計,統計方法如下:

# 獲取文章開始、結束時間及文章總數

1.7 圖片制作

使用Python的wordcloud模塊制作云圖,使用GraphPad Prism 7.0制作折線圖。

2 結果與分析

通過Python數據挖掘共收集到2 253條原始數據,經數據清理后,得到1 706篇醫療人工智能相關的學術論文,來源于804種期刊,所有文章共被引用6 130次,共被下載634 050次。文章共有6 695位作者,2 218個機構參與,共有關鍵詞1 392,其中有基金支持的文章661篇。屬于自動化技術、計算機技術的有853篇,醫藥衛生類的有568篇。

2.1 作者及機構分析

1 706篇醫療人工智能學術論文中署名作者共有6 695位,去除重復后共3 951位不同的作者,其中獨立作者的文章有348篇,合作作者文章為1 358篇。署名1次的作者共有3 546人,署名2次的作者有544人,署名3次的作者有267人,署名4~7次的作者共有252人。只看作者的署名次數反映不出作者的整體貢獻情況,因此需要利用作者加權法進行統計分析。作者加權法是指如果一篇文章有多位作者,根據作者的排名順序進行加權統計,即按作者的排名遞減分配其權數,再進行統計分析。加權系數排名前10的作者為李燦東、于彤、李敬華、向運華、王浩、蕭毅、孟祥鋒、金征宇、譚鐵牛、劉土遠。從作者統計角度來看,此時域范圍內期刊發文作者大多為醫學或人工智能領域專家。

從摘要信息中,共挖掘到3 951位作者所在的機構,其中只出現了1次的機構有1 959個;1 706篇學術論文中,由獨立作者機構完成的論文為1 121篇,機構合作完成的585篇,獨立作者機構完成的文章較多。

根據作者及機構分析,可以得出80%的文章為多作者合作完成,53%的作者只署名一次,66%的文章為獨立作者機構完成,其中中國中醫科學院中醫藥信息研究所是參與完成最多的機構,見表3。醫療人工智能相關學術論文高產機構主要集中在研究所或者醫學院校,這些機構為醫療人工智能領域的研究做出了較大的貢獻。

2.2 關鍵詞分析

對1 706篇醫療人工智能學術論文的關鍵詞進行統計,共統計到關鍵詞的數量為5 716個,平均每篇文章的關鍵詞為3.35個,繪制出關鍵詞云圖(見圖2)。其中高頻關鍵詞171個,排在前10位的的有:人工智能(627次)、學習(120次)、大數據(105次)、機器人(82次)、應用(55次)、深度學習(46次)、機器學習(42次)、醫療(35次)專家系統(34次)、醫學影像(29次)。出現頻次最高的關鍵詞是“人工智能”,其次是“學習”和“大數據”,這三個關鍵詞占所有關鍵詞的14%,而且絕對數量比其他關鍵詞要多。從圖2可知,這些關鍵詞有主題型關鍵詞和內容型關鍵詞,其中主題型關鍵詞有人工智能,機器人,專家系統、醫學影像等,反映了學科性質和研究領域;另外,內容型關鍵詞有學習、應用、大數據、自然語語處理等,反映了學科的研究內容和研究工具。從關鍵詞分析來看,期刊在此時域內載文關鍵詞傾向于人工智能、大數據、機器人、醫學影像、專家系統等。這是部分醫療人工智能相關的學術論文的研究熱點之一。

2.3 刊物分析

1 706篇醫療人工智能相關學術論文分布在804種期刊上,分布較廣泛,經過分析可知,這些期刊主要分為三類:一類是醫學類,一類是自動化技術、計算機技術類,還有一類是綜合類期刊。其中醫學類期刊有218種,自動化技術、計算機技術類的有120種,綜合類期刊有262種。另外,醫學類期刊的載文量是462篇,自動化技術、計算機技術類的有362篇,綜合類期刊的載文量是495篇,其他期刊載文量為387篇。見圖3。

從圖3可以看出,醫學類期刊,自動化技術、計算機技術類及綜合類期刊載文量相當,占總論文數的68%,這說明醫療人工智能領域的論文刊載在這三類期刊上,因為醫療人工智能帶有很強的多學科交叉的性質,涉及醫學、計算機學、語言學等學科,人工智能又是近幾年的研究熱點,因此在期刊上的分布是比較合理的。

醫療人工智能相關學術論文發文量排名前10的刊物為:中國數字醫學(64篇)、電子技術與軟件工程(29篇)、中國醫療設備(23篇)、中國新通信(23篇)、醫學信息學雜志(16篇)、中華中醫藥雜志(15篇)、科技傳播(14篇)、人工智能(13篇)、通訊世界(11篇)、第二軍醫大學學報(9篇)。從以上結果可以看出,刊文量較多的均為醫學類期刊,其中《中華中醫藥雜志》及《第二軍醫大學學報》為核心期刊。

2.4 分類號

1 706篇醫療人工智能相關學術論文中,屬于自動化技術、計算機技術的有853篇,醫藥衛生類的有568篇。其中醫療人工智能相關學術論文數量排行前10的文章類別有TP18(人工智能理論)、R-05(醫學與其他學科的關系)、TP242(機器人)、R-4(臨床醫學)、F49(信息產業經濟)、RTP391(計算機應用,信息處理(信息加工)圖像識別及其裝置、R2-03(中醫現代化研究)、R319(醫學一般科學,其他科學技術在醫學上的應用)、R197.3(保健組織與事業(衛生事業管理))、TP311.13(計算機軟件,程序設計方法)。還包括其他類別如語言文學、研究生教育、服務業、情報資料處理等。從分類號來看,醫療人工智能相關學術論文中,50%的文章屬于自動化技術、計算機技術,33%的文章屬于醫藥衛生類。

2.5 發表時間分析

通過數據挖掘統計出2010—2019年醫療人工智能相關學術論文的發文情況,見圖4。由結果可知,2012—2016年醫療人工智能相關學術論文發文量較平穩上升,2017—2019年醫療人工智能相關的學術論文發文量大幅增加。從近10年來醫療人工智能相關學術論文的發文情況來看,2017—2019年發文量大幅增加,2017年的發文量為2016年的2倍,2018年發文量為2017年的2倍,2019的發文量跟2018年發文量相當。2017年國務院印發了《新一代人工智能發展規劃》及《促進新一代人工智能產業發展三年行動計劃(2018—2020)》,說明我國已在戰略和行動層面部署人工智能的發展目標。標志著人工智能發展成為國家戰略。故2017年起,醫療人工智能的發文量成倍增加。

3 結論

伴隨著我國互聯網的不斷發展,網絡數據資源越來越豐富,但因大部分數據以非結構形式存在著,信息的收集和分析非常困難,數據的利用率較低。在進行數據挖掘前,若使用傳統的人工查詢及收集的方法來對每篇論文的題目、作者、單位、期刊、關鍵詞、引用次數、下載頻次及分類號等相關信息,進行復制粘貼,不但效率低,也無可避免發生數據遺漏及錯誤數據等問題。而使用Python數據挖掘技術,數據采集及分析準確率高,速度快,具有人工收集無法比擬的優勢。

本研究為期刊編輯提供了期刊數據的研究方法和總體思路,從而間接提升編輯部組稿約稿工作的科學性,同時也為作者提供該研究領域的研究熱點及機構等重要學科信息。本文通過中國知網數據庫,搭建了基于Python語言的醫療人工智能相關學術論文的數據挖掘及分析系統,對近10年來醫療人工智能相關學術論文進行數據挖掘,主要對題錄信息中的題名、作者、關鍵詞、機構,及對文章的發表時間、發表雜志、分類號等信息進行分析,得出了該主題的發文特征。醫療人工智能相關學術論文在大多發表醫學類期刊,大部分屬于自動化技術、計算機技術類或醫藥衛生類。該題材文章以多作者合作為獨立作者機構完成居多,高頻關鍵詞有人工智能、大數據、機器人、機器人、醫學影像、專家系統等。

期刊編輯可利用互聯網技術,大數據思維進行編輯與出版學領域的研究,告別傳統的手工檢索的方式,可以大大提高檢索效率。筆者借助Python語言對近10年來醫療人工智能相關學術論文進行題錄分析,揭示該領域海量文章的內容特征,既可為期刊編輯及作者了解最新研究熱點,也為期刊編輯從事編輯與出版學研究提供新技術,是一種值得推廣的數據挖掘技術。

參考文獻

[1]張曉倩.數據挖掘在網絡在線投稿系統中的應用[J].辦公自動化(學術版),2013,260(8):36-39.

[2]王秀芝,宋迎法.基于文本數據挖掘的學術期刊選題策劃研究[J].煤炭高等教育,2016,34(5):122-126.

[3]侯麗珊.基于數據挖掘的精準化辦刊策略[J].中國科技期刊研究,2018,29(5):515-519.

[4]王志鴻,楊松迎,郭敏,等.基于微信平臺的科技期刊內容服務策略及實現[J].編輯學報,2018,30(5):522-524.

[5]李雪,王占坤,崔曉健,等.科技期刊編輯新媒體出版能力的培育[J].編輯學報,2016,28(6):602-605.

[6]譚春林,劉清海.期刊編輯發表論文情況的文本挖掘與分析[J].編輯學報,2019,31(4):407-410.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 黄色一及毛片| 欧美成人午夜视频免看| 97se亚洲综合在线天天| 亚洲成人黄色网址| 又黄又湿又爽的视频| 99精品国产自在现线观看| 四虎综合网| 人妻无码一区二区视频| 成人av手机在线观看| 日韩不卡高清视频| 五月天综合婷婷| 精品国产乱码久久久久久一区二区| a欧美在线| 97久久超碰极品视觉盛宴| 99久久精品免费观看国产| 国产黄网永久免费| 久久人午夜亚洲精品无码区| 91精品国产麻豆国产自产在线| 免费高清a毛片| 无码综合天天久久综合网| 亚洲中文在线视频| 亚洲毛片一级带毛片基地| 亚洲综合精品香蕉久久网| 女同国产精品一区二区| 亚洲成人精品久久| 国产麻豆91网在线看| 中文字幕亚洲另类天堂| 白丝美女办公室高潮喷水视频| 午夜精品国产自在| 波多野结衣一区二区三区四区视频 | 亚洲AV一二三区无码AV蜜桃| 精品人妻无码中字系列| 最新国产午夜精品视频成人| 午夜福利在线观看入口| 婷婷六月综合| 无码高清专区| 嫩草影院在线观看精品视频| 久久精品无码中文字幕| 亚洲中文字幕在线一区播放| 国产欧美视频一区二区三区| 亚洲欧美日韩成人高清在线一区| 国产欧美视频一区二区三区| 亚洲美女操| 免费在线看黄网址| 国产在线观看人成激情视频| 精品久久久久久久久久久| 99这里精品| 亚洲成aⅴ人在线观看| 亚洲国产天堂在线观看| 欧美性猛交一区二区三区| 亚洲嫩模喷白浆| 国产成人精品一区二区秒拍1o| 欧美亚洲国产视频| 国产精品无码一二三视频| 国产精品自在线拍国产电影| 色首页AV在线| 亚洲综合色区在线播放2019| 园内精品自拍视频在线播放| 亚洲高清日韩heyzo| 欧美伊人色综合久久天天| 国产精品香蕉在线观看不卡| 99热这里只有精品免费国产| 亚洲天堂首页| 最新无码专区超级碰碰碰| 国产尤物在线播放| 无码网站免费观看| 国产97视频在线| 岛国精品一区免费视频在线观看| 久久网欧美| 国产成人三级在线观看视频| 国产美女丝袜高潮| 国产成人盗摄精品| 久久久久久久久久国产精品| 爆乳熟妇一区二区三区| 国产成人亚洲无吗淙合青草| 又爽又大又光又色的午夜视频| 秋霞国产在线| 一级在线毛片| 亚洲欧美人成电影在线观看| 国产精品久久久免费视频| 国产三级a| 久久国产av麻豆|