999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-means算法的科技事件影響力評估研究

2019-06-26 07:04:04毛凱劉明李志愷李偉夏瑜潞
無線互聯科技 2019年7期
關鍵詞:搜索引擎

毛凱 劉明 李志愷 李偉 夏瑜潞

摘? ?要:科技事件作為科技發展的產物,對其影響力進行評估,可以對預測新興科技事件的發展走向、相關部門配置科技資源、科教機構進行科普教育選取事件提供重要參考。當今市場上存在的對科技事件影響力評估的方法具有應用場景局限、評價結果受人為主觀影響較大等不足。文章提出一種新的評估方法,利用各大搜索引擎產生的海量數據,結合機器學習中的K-means算法,對科技事件的影響力進行評估。彌補了當前已存在方法對科技事件影響力進行評估的局限,解決了如何基于當前時代產生的大量數據對科技事件做出一個較為客觀準確的評估結果這一問題。

關鍵詞:科技事件;影響力評估;K-means;搜索引擎

1? ? 相關工作

在漫長的科技發展史中,每一個科技發現與創新事件背后往往包含著大量的信息,包括時空屬性、不同事件之間的互相聯系、引起的社會討論熱度等。對科技事件在一段時間內的影響力進行評估,不僅可以對科技事件的發展走向進行預測、規劃,還可以為相關部門制定科技政策、配置科技資源、和進行科普教育提供重要參考。研究表明,對于科技事件影響力評價方法,目前普遍從定性評價和定量評價兩個角度進行。定性評價方法[1]主要包括同行評議法和案例與回溯評價法,定量評價方法主要包括文獻計量法和經濟計量評價法。沈利華等[2]認為,同行評議法已經被各國廣泛應用,可以作為鑒定科研成果的重要評價手段。但是有很多弊端,如難以支持創新,難以對科技成果保密,評議專家的主觀傾向性占比太大等。案例與回溯評價方法[3]是對關鍵事件或典型案例進行回顧和分析,分析導致該事件發生的內外部因素,而非事件本身的影響力。趙丹等[4]則認為,可以利用科技事件產出的文獻計量指標的定量數據,采用數學和統計學方法,對科學活動規律及其影響進行研究與分析,即文獻計量評價法。文獻計量評價方法[5]具有統計學意義上的合理性和可信度,但存在指標單一、學科間不可比較、科學價值不可表征等局限性。而經濟計量評價法局限于開發類科技活動的評價,不適于基礎類、應用類的科技事件。可以看出,以上幾種對科技事件的評價方法應用場景局限,無法通過一種方法較好的評價不同領域內科技事件的影響力,并且缺乏數據支撐,客觀性不足。

本文提出一種新的對科技事件影響力的評估方法,首先,選取分屬不同學科的科技事件,搜集其在百度、谷歌、知網等搜索引擎中的數據,分析其數據特征。其次,通過咨詢領域內專家及社會公識度調查的方式,確定科技事件影響力的級別數量。最后,利用機器學習算法中的K-means算法,根據事件不同的數據特征,將不同影響力的科技事件聚入不同的類別,完成對科技事件影響力的評估。該方法具有海量的搜索引擎數據支撐,因此,評估結果相比于前文提及的幾種方式更為客觀合理,應用場景更為寬闊。

2? ? 數據的獲取與處理

2.1? 特征選擇

科技事件具有非常多的屬性,例如:名稱,被發明或被發現時間,發明人或是發現人,事件內容,事件在網絡上的搜索指數,事件的相關論文數量等,不同的屬性可以形成不同的特征數據。建立一個利用數據評估科技事件影響力的數學模型,首先需要選取合適的特征數據。在科技事件的屬性中,能較為直觀地反映一個科技事件影響力的是該事件在網絡上的搜索指數。同一搜索引擎,產生較多搜索結果的科技事件在一定程度上比產生較少搜索結果的科技事件影響力大。但是使用單一的搜索指數來對科技事件影響力進行評價,會存在一定的局限,因為一個科技事件在網絡上的搜索指數,反應的更多地是該事件在社會大眾中的影響力,而現實中存在一個科技事件影響了很多科技事件的誕生,但是這一科技事件在大眾間的傳播及影響力不大的情況。因此,為了使評估結果更為客觀合理,還應該考慮科技事件在科學領域的影響力。

本文通過擴寬特征數據選擇面和加深特征數據提取兩個途徑,來增加評估結果的客觀性。擴寬特征數據選擇面,通過增加知網相關論文數量和谷歌學術相關數據這兩維特征數據實現。一個科技事件的影響力不僅包含在媒體大眾間的影響,也包含在科技工作者間的影響,一個科技事件的影響力大,大概率能得到相關研究論文數量多的結果,因此,科技事件相關論文數量的多少,也將作為本模型的一個特征數據。加深特征數據提取是指,選用多種主流搜索引擎的數據,減少因為搜索引擎用戶少而引起的誤差和偶然性。主流搜索引擎的數據中,我們選用了百度搜索結果數、谷歌搜索結果數、百度搜索指數和媒體指數這4個數據。理由如下。(1)百度作為國內最主要的搜索引擎,搜索結果數據是建立在國內大量用戶的搜索之上,具有誤差小、總量大的特征。百度搜索結果數,能夠反映科技與創新事件在國人中的影響力。(2)谷歌是全球除中國以外其他地區的主要搜索引擎,谷歌搜索結果數,具有能夠反映科技事件在全球其他地區影響力的特征。(3)百度搜索和媒體指數,分為PC端和移動端,根據當前互聯網在移動端的發展趨勢,我們將移動端的數據也納入了考慮。

2.2? 數據清洗及標準化處理

本實驗按照信息、交通、醫藥、農林、機械、化工6個學科分別挑選出了120個該學科領域內具有象征意義的科技事件,爬取了這些事件從2011~2018年每個月的百度搜索指數和媒體指數、百度搜索結果數、谷歌搜索結果數、谷歌學術和知網相關論文數。

爬取的原始數據的數量級和量綱并不相同,如果直接使用原始數據進行科技事件影響力的評估,數量級和量綱對最終結果的影響會遠遠大于數據本身的影響,產生的誤差較大。此外,部分科技事件的數據存在有缺失值的情況。因此,需要通過數據清洗和數據標準化處理,使不同的特征數據具有相同的尺度。

在實際實驗中,有28個科技事件的數據缺失了百度搜索結果數,有32個科技事件缺失了谷歌搜索結果數,有53個數據缺少百度搜索指數或媒體指數。對缺失數據的事件,首先通過人工核查它們的官方命名,并進行查找,對能獲取的數據進行添加。人工查找之后依然缺失數據的事件,選擇了新的科技事件進行代替。

猜你喜歡
搜索引擎
Chrome 99 Canary恢復可移除預置搜索引擎選項
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
基于Lucene搜索引擎的研究
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
一種自反饋式元搜索系統的設計
搜索引擎,不止有百度與谷歌
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 久久精品视频一| 手机精品视频在线观看免费| 久久天天躁狠狠躁夜夜2020一| 婷婷色在线视频| 又爽又黄又无遮挡网站| 欧美成人免费一区在线播放| 亚洲福利网址| 黄片一区二区三区| 亚洲天堂久久久| 午夜福利亚洲精品| 无码丝袜人妻| 亚洲欧美综合精品久久成人网| 中文字幕丝袜一区二区| 久久综合色天堂av| 高清无码一本到东京热| 91人妻在线视频| 欧美成人日韩| 六月婷婷激情综合| 伊人查蕉在线观看国产精品| 亚洲精品国产日韩无码AV永久免费网| 亚洲天堂视频网| 色哟哟国产成人精品| 免费看a级毛片| 99视频在线观看免费| 国产Av无码精品色午夜| 国产成人精品优优av| 国产一区二区视频在线| 国产簧片免费在线播放| jijzzizz老师出水喷水喷出| 国产人成乱码视频免费观看| 国产一区二区三区夜色| 四虎影视永久在线精品| 日韩一区二区三免费高清| 欧美一级在线播放| 亚洲成在线观看| 成人无码一区二区三区视频在线观看| 在线观看国产精品日本不卡网| www亚洲精品| 一级一毛片a级毛片| 天堂在线视频精品| 亚洲高清无码久久久| 国产精鲁鲁网在线视频| 亚洲一区精品视频在线| 亚洲啪啪网| 亚洲欧美另类中文字幕| 国产精品久久久久无码网站| 久久精品视频一| jizz国产视频| 久久精品91麻豆| 无码内射中文字幕岛国片 | 日韩高清一区 | 亚洲第一视频网| 亚洲浓毛av| 国产成人区在线观看视频| 又粗又硬又大又爽免费视频播放| 大香网伊人久久综合网2020| 91青青草视频| 五月婷婷伊人网| 凹凸精品免费精品视频| 欧美精品H在线播放| 综合亚洲色图| 国产精品林美惠子在线播放| 亚洲视频无码| 99热这里只有精品国产99| 色哟哟国产精品一区二区| 久久这里只有精品国产99| 在线无码av一区二区三区| 国产欧美日韩va另类在线播放| 亚洲天堂777| 亚洲国产成人精品无码区性色| 久久久亚洲色| 手机永久AV在线播放| 无码内射中文字幕岛国片| 国产精品成人一区二区| 久久福利片| 欧美亚洲一区二区三区在线| 97精品伊人久久大香线蕉| 国产成人综合久久精品尤物| 欧美激情伊人| 国产三级精品三级在线观看| 免费观看三级毛片| 人妻中文久热无码丝袜|