999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-近鄰分類算法的供需數據智能匹配研究*

2021-07-30 07:59:18溫志芳
機械工程與自動化 2021年2期
關鍵詞:科技成果分類文本

溫志芳

(山西省信息產業技術研究院有限公司,山西 太原 030012)

0 引言

在我國,科技成果應用比例較高,但成果實現產業化比例較低。提升科技成果轉化水平始終是我國科技體制改革的主攻方向,目前我國相繼出臺了《科學技術進步法》《促進科技成果轉化法》和《關于促進科技成果轉化的若干規定》等一系列政策法規,形成我國促進科技成果轉化的政策體系基本框架。但目前我國科技成果轉化交易還很不完善,尤其缺少訓練有素的既懂技術又懂經濟的專業技術經紀人和規范的技術經營機構,導致供需對接不暢通,供需雙方溝通不良,這是我國的科技成果、知識產權轉化率不高的直接原因。

同時,計算機和信息技術的迅猛發展和普及應用,人工智能技術等新一代信息技術的迅猛發展,迅速擴大的企業行業及高校的應用系統規模,使科技成果行業應用所產生的數據呈爆炸性增長,動輒達到數百TB甚至數十至數百PB規模,科技成果數據已遠遠超出了現有傳統的計算技術和信息系統的處理能力。現代信息產業在高速發展中,智能信息處理成為了炙手可熱的名詞,是一個大樣本和高維變量的數據集合,在人們的生活中扮演著越來越重要的角色。因此,尋求有效的智能信息處理技術、方法和手段,促進成果轉化率已經成為現實世界科技成果轉化的迫切需求。

隨著創新驅動發展戰略的深入推進,本文在科技成果轉化中進行新嘗試、新實踐,探討基于K-近鄰(K-NN,K-Nearest Neighbor)分類算法的供需數據智能匹配研究,將智能信息處理技術應用于成果轉化體系建設,切實研究將過去沉睡的科研成果與市場需求進行智能匹配,實現科研成果的激活與轉化,促使其成為市場創新的新動力,助推科技成果轉化體系建設。

1 算法模型介紹

本文利用有指導的基于K-近鄰分類算法對所選數據進行高維空間分布實驗,通過基于各類高文檔頻率的特征選擇方法、有監督K-NN分類方法,進行全封閉在高維空間中進行測試。

1.1 特征選擇

供給成果的成果簡介是通過適當的文字表達成果所要表達的內容,本身文本比較長,疊加了人類語言的多樣性,體現出文本表示的語言的多元化,因此導致數據的特征選擇將在很大程度上影響到文本類別判斷的最終結果。本文針對這一特性,采用各類高文檔頻率來作為特征選擇的方法展開研究。

1.2 基于K-NN分類算法的成果數據處理

K-NN分類算法的思想是:如果一個文本在特征空間中的k個最相似(即特征空間中最鄰近)的文本中的大多數屬于某一個類別,則該樣本也屬于這個類別。K-NN算法中,所選擇的點都是已經正確分類的對象。

K-NN方法一般選取k為奇數,跟選舉、投票一樣,避免因兩種票數相等而難以判斷其所屬類別。

2 數據的采集及處理

數據采集是智能信息處理技術研究的基礎,在成果轉化體系建設中很好地實現供需數據智能匹配的一個重要方面就是對供給和需求信息的數據收集。隨著物聯網技術的不斷發展,成果轉化數據結構變得越來越復雜,數據類型從以結構化數據為主轉向結構化、半結構化。

本文數據的采集利用現有的山西科技成果轉化和知識產權交易服務平臺,從網站上獲取數據信息,將其存儲為統一的本地數據文件,并以結構化的方式存儲。成果轉化數據的可用性是數據采集的一個關鍵方面,一個正確的數據集合至少包含五方面性質:一致性、精確性、完整性、時效性和實體同一性。

采集回來的供給成果數據共12 519條,包括專利、平臺基地、軟件著作權、金融服務、人才信息、團隊信息、獲獎成果、鑒定成果、其他成果九大類。本次的樣本數據選用九大類的成果簡介字段,即對12 519條成果簡介數據進行智能處理。

數據預處理研究的復雜性體現在它包含豐富的策略和技術,在數據幾個處理階段中非常關鍵的第一步是對成果轉化數據來源的真實性、準確性、完整性、時效性等進行研究,只有確保成果轉化數據來源的質量,才能發揮大數據處理和分析的作用。現實世界采集回來的數據大體上都是不完整、不一致的數據,無法直接進行數據處理,或處理結果差強人意,本研究對數據進行清洗與處理,將大大提高數據模式的質量,降低實際挖掘所需要的時間。

我們將所有的成果數據按照所屬技術領域分為25類:電子信息、現代農業、煤炭、焦化、冶金、電力、化工、現代煤化工、煤層氣、新能源、新能源汽車、新材料、節能環保、裝備制造、交通運輸、新一代信息技術、航空航天、地球、空間與海洋、核應用技術、生物技術、醫藥衛生、食品加工、現代服務業、其他。

3 建立成果與需求的關系模型實現智能對接

針對特定的需求數據,將該條數據的文本內容表示成數學上可以處理的形式,即表示成高維空間中的點。該點為測試樣本,訓練集則為25類的成果數據,通過K-NN分類算法,確定該樣本屬于哪個類別。我們將高維空間兩個點之間的距離定義為:

其中:x、y分別為兩個數據;T為特征集;t為一個特征;f()為點對應的特征值。

實現智能對接的模型計算步驟如下:

(1) 分別計算該需求與各成果數據的距離,同時計算每類距離的平均值。

(2) 確定平均距離最小的類,即表示該需求與該類成果最匹配。

(3) 在該成果與該類的所有距離中,計算距離最小的n條數據,即表示該條需求與這n條成果最為匹配。

高維空間的點我們是看不到的,只有通過對點的分布考察,才可以得知這些點在空間中的分布情況,進一步了解這些數據是否可匹配。

通過數據挖掘技術,對互聯網科技成果轉化的供給與需求數據的收集、清洗與融合整理,分析構建成果轉移轉化路線,建立成果與需求的關系網圖元模型,實現海量數據下成果供需雙方的智能對接。

4 實驗及結果分析

本實驗所選的測試數據不是從UCI機器學習數據集存儲庫中選擇的數據集,而是客戶對企業回饋的科技需求數據。選用13 755條需求數據集,利用上述的基于各類高文檔頻率的特征選擇方法,以及K-NN分類算法進行實驗。

對于分類算法,我們利用文本分類系統的召回率指標對實驗結果進行系統的分析。召回率(Recall)是所有判斷的文本中正確的文本個數占應有文本數的比率,即:

其中:ai為分類器判斷為第i個類別正確的文本數;ci為第i個類別實際文本數。

計算得到的25類需求數據的召回率和總召回率見表1。

表1 25類需求數據的召回率和總召回率

由表1可知,電子信息類、煤炭類、醫藥衛生類等實驗效果較好,說明該類數據具有部分一致性;對于航空航天類、地球類、空間與海洋類等,實驗的召回率都達不到70%,甚至空間與海洋類結果召回率不超過60%,這與這幾類的本身屬性是相關的,屬于這幾個類別的文本數少,在空間的分布不均勻,類別信息不明顯,這些原因都使得這幾類的實驗結果偏低。

5 結論

本文通過從山西科技成果轉化和知識產權交易服務平臺獲取成果和需求數據,并存儲為計算機可以處理的文本格式,進行了基于各類高文檔頻率的特征選擇方法的分類算法研究,利用數據挖掘的分類算法技術對轉化數據模型進行智能匹配,分析并建立供給需求數據模型,使系統擁有自學習功能,為成果轉化體系建立高效機制。通過對成果轉化數據來源的真實性、準確性、完整性、時效性等研究分析得知,在保證數據來源質量基礎上可發揮大數據處理和分析的作用,助力科技成果轉化體系建設。

猜你喜歡
科技成果分類文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
打通科技成果轉化“最后一公里”
商周刊(2019年1期)2019-01-31 02:36:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
科技成果
航天器工程(2014年6期)2014-03-11 16:36:16
科技成果
航天器工程(2014年5期)2014-03-11 16:36:03
主站蜘蛛池模板: 国产精品久线在线观看| 久久综合干| 国产乱肥老妇精品视频| 欧美日韩第二页| 伊伊人成亚洲综合人网7777| 日本欧美成人免费| 综合色婷婷| 亚洲中文制服丝袜欧美精品| 99激情网| 国产成人夜色91| 欧美成人精品一区二区| 福利在线一区| 亚洲Av激情网五月天| 美女无遮挡拍拍拍免费视频| 中文字幕在线视频免费| 青青草综合网| 亚洲精品动漫| 亚洲三级电影在线播放| 国产精品自拍合集| 国产91在线免费视频| 亚洲国产中文欧美在线人成大黄瓜| 国产一区三区二区中文在线| 影音先锋丝袜制服| 精品偷拍一区二区| 国产精品极品美女自在线网站| 美女高潮全身流白浆福利区| 亚洲国产中文在线二区三区免| 日韩av资源在线| 人妻精品久久无码区| 久久91精品牛牛| 久久久波多野结衣av一区二区| 欧美97色| 亚洲国产系列| 欧美人与动牲交a欧美精品| 极品国产一区二区三区| 国产一区二区影院| 国产在线自揄拍揄视频网站| 国产一区二区丝袜高跟鞋| 成人精品视频一区二区在线| 丝袜国产一区| 国产成人综合久久| a毛片免费看| 狂欢视频在线观看不卡| 国产精品青青| 97精品久久久大香线焦| 国产欧美亚洲精品第3页在线| 国产一级特黄aa级特黄裸毛片| 日韩高清一区 | 国产三级精品三级在线观看| 亚洲va精品中文字幕| 91探花国产综合在线精品| 国产精品视频第一专区| 免费久久一级欧美特大黄| 毛片网站在线看| 国产亚洲视频播放9000| 亚洲国产成熟视频在线多多| 亚洲欧美另类久久久精品播放的| 国产精品综合色区在线观看| 99热这里只有精品在线播放| 四虎永久免费地址在线网站| 欧美成人A视频| 99国产在线视频| 成人国产精品2021| 日本高清有码人妻| 在线亚洲精品福利网址导航| 啊嗯不日本网站| 免费欧美一级| 亚洲国产一区在线观看| 中文字幕色站| 婷婷激情五月网| 精品国产www| 自拍中文字幕| 国产精品夜夜嗨视频免费视频| 一级黄色欧美| 亚洲欧州色色免费AV| 亚洲第一黄色网址| 久久黄色视频影| 白浆免费视频国产精品视频| 免费毛片全部不收费的| 91精品免费久久久| 国产在线一二三区| jizz在线观看|