999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于數(shù)據(jù)挖掘技術(shù)的科技政策信息推送算法*

2022-02-19 04:42:42浙江省科技信息研究院陳驍
關(guān)鍵詞:數(shù)據(jù)挖掘詞匯科技

浙江省科技信息研究院 陳驍

為了降低由于科技政策信息與創(chuàng)新主體需求之間匹配度較低引起的推送效果差的問題,提出基于數(shù)據(jù)挖掘技術(shù)的科技政策信息推送算法。首先利用Python組件對(duì)信息中的詞匯進(jìn)行預(yù)處理,利用深度挖掘的方式確定數(shù)據(jù)簇的中心以及半徑,將其作為用戶信息需求匹配的參照,將用戶信息與數(shù)據(jù)簇之間建立匹配關(guān)系,將相似度最高的數(shù)據(jù)簇中對(duì)應(yīng)的信息作為推送內(nèi)容,完成信息推送。通過實(shí)驗(yàn)測(cè)試所提方法的推送效果,結(jié)果表明其推送的誤差均值在10%以內(nèi),用戶滿意度均值為94.13%,錯(cuò)誤推送率僅為0.93%。

信息爆炸的時(shí)代,信息傳播的體量越來越大,與此同時(shí),受眾對(duì)于信息的敏感度也越來越低[1]。為了實(shí)現(xiàn)信息與接收者之間的高度匹配,提高信息傳播的效果,進(jìn)行個(gè)性化的推送成為了重要方式[2]。科技政策是各級(jí)科技管理部門為了促進(jìn)科技創(chuàng)新發(fā)展而制定的科技創(chuàng)新活動(dòng)基本規(guī)則,對(duì)科技發(fā)展方向具有指導(dǎo)意義,能夠激活創(chuàng)新資源、提高利用效率;激發(fā)創(chuàng)新潛力、增強(qiáng)創(chuàng)新實(shí)力;優(yōu)化創(chuàng)新環(huán)境、促進(jìn)創(chuàng)新合作[3]。科技政策信息推送的用戶對(duì)象主要包括企業(yè)、高校、科研機(jī)構(gòu)、創(chuàng)投機(jī)構(gòu)、孵化載體運(yùn)營(yíng)機(jī)構(gòu)等各類創(chuàng)新主體和創(chuàng)新服務(wù)主體。但是如何實(shí)現(xiàn)信息的精準(zhǔn)推送成為了現(xiàn)階段面臨的主要問題[4]。數(shù)據(jù)挖掘技術(shù)是建立在大數(shù)據(jù)基礎(chǔ)之上的,以目標(biāo)信息為基礎(chǔ),分析具有相關(guān)特征的信息,或者分析一類信息的特征[5]。因此,將其應(yīng)用到信息推送中具有十分巨大的價(jià)值潛力。借助數(shù)據(jù)挖掘技術(shù),對(duì)創(chuàng)新主體和創(chuàng)新服務(wù)主體進(jìn)行識(shí)別,通過行為分析,確定存在特定科技政策需求的群體,以此為基礎(chǔ)實(shí)現(xiàn)更具針對(duì)性的個(gè)性化信息推送,對(duì)于提高信息傳播效果將產(chǎn)生積極作用[6-7]。

為此,本文提出基于數(shù)據(jù)挖掘技術(shù)的科技政策信息推送方法,并通過實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。通過本文的研究,以期為科技政策信息在更大范圍內(nèi)發(fā)揮實(shí)際價(jià)值提供幫助。

1 基于數(shù)據(jù)挖掘的信息推送方法

1.1 基于深度挖掘的信息屬性劃分

要實(shí)現(xiàn)科技政策信息的精準(zhǔn)推送,首先要對(duì)目標(biāo)用戶建立充分的了解,為此,本文利用深度挖掘技術(shù)實(shí)現(xiàn)對(duì)特征的描述,并以此為基礎(chǔ)建立了相應(yīng)的用戶畫像[8]。

在對(duì)用戶特征進(jìn)行挖掘之前,首先需要對(duì)用戶的行為信息進(jìn)行初步預(yù)處理。考慮到在實(shí)際的行為數(shù)據(jù)中,數(shù)據(jù)的形式具有明顯的多樣化特征[9],本文首先對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理。利用中文分詞包配套的Python組件作為數(shù)據(jù)核心內(nèi)容提煉工具,實(shí)現(xiàn)對(duì)數(shù)據(jù)中完整詞匯的分解操作,將停用詞表作為判斷依據(jù),當(dāng)完成對(duì)數(shù)據(jù)的完整遍歷后,對(duì)于部分無(wú)意義的停用詞,以及不具有實(shí)際意義詞匯進(jìn)行過濾處理,將過濾后的數(shù)據(jù)內(nèi)容整合成新的詞匯表。以此作為深度挖掘的數(shù)據(jù)基礎(chǔ)。

在新得到的詞匯表中,首先按照屬性將具有同種屬性的詞匯有序放置在同一數(shù)據(jù)簇中,再通過深度挖掘技術(shù)計(jì)算各種詞匯對(duì)應(yīng)索引值。假設(shè)新的詞匯表中,數(shù)據(jù)匯總包含x個(gè)數(shù)據(jù)簇,每個(gè)數(shù)據(jù)簇中的信息量為i,以此為基礎(chǔ)確定對(duì)應(yīng)不同數(shù)據(jù)簇的特征,就可以將待推送目標(biāo)的屬性特征與之進(jìn)行匹配,以此確定其需要的科技政策信息類型。對(duì)不同數(shù)據(jù)簇的數(shù)據(jù)進(jìn)行分類時(shí),首先要確定該簇的中心,其基本原理如圖1所示。

圖1 數(shù)據(jù)簇中心確定方法Fig.1 Method of determining data cluster center

從圖1中可以看出,對(duì)于不同的數(shù)據(jù)簇,其半徑是不同的,簇內(nèi)數(shù)據(jù)的密度也存在一定差異,這是因?yàn)椴煌~匯表中的信息在用戶畫像中的權(quán)重不同。在確定簇半徑時(shí),本文以詞匯出現(xiàn)的頻率作為評(píng)價(jià)標(biāo)準(zhǔn),當(dāng)詞匯出現(xiàn)的頻率為p時(shí),那么其在整個(gè)詞匯表中的權(quán)重計(jì)算方式為

其中,W表示詞匯的權(quán)重值,Pn表示數(shù)據(jù)簇的總頻率。通過這樣的方式,確定數(shù)據(jù)的數(shù)簇的權(quán)重,將頻率最高的詞匯作為中心,對(duì)應(yīng)的半徑即為數(shù)據(jù)簇權(quán)重在整體詞匯中的占比。

通過這樣的方式,將推送信息轉(zhuǎn)變?yōu)橛扇舾蓚€(gè)數(shù)據(jù)簇組成的單元,在確定推送目標(biāo)與推送內(nèi)容時(shí),通過將用戶的行為數(shù)據(jù)特征與之建立匹配關(guān)系即可實(shí)現(xiàn)。

1.2 科技政策信息推送

在上述基礎(chǔ)上,為了實(shí)現(xiàn)信息的精準(zhǔn)推送,要建立起推送對(duì)象與信息之間的匹配關(guān)系。

首先對(duì)待推薦對(duì)象的行為信息進(jìn)行提取,并以上文劃分的數(shù)據(jù)屬性結(jié)果為依據(jù),分別進(jìn)行關(guān)聯(lián)性對(duì)比。當(dāng)確定與用戶行為相近的數(shù)據(jù)簇后,以數(shù)據(jù)簇內(nèi)詞匯對(duì)應(yīng)的科技政策信息為推送內(nèi)容,以此提高信息推送的有效性。其中,信息匹配的方式如圖2所示。

在圖2中,o點(diǎn)表示對(duì)應(yīng)數(shù)據(jù)簇的中心,分散的點(diǎn)表示用戶行為數(shù)據(jù),通過這樣的方式確定用戶對(duì)于科技政策信息的需求,將與之存在匹配關(guān)系數(shù)據(jù)簇內(nèi)對(duì)應(yīng)的信息作為推送內(nèi)容,實(shí)現(xiàn)精準(zhǔn)的信息推送,提高用戶對(duì)推送內(nèi)容的滿意度。

圖2 用戶屬性特征匹配方式Fig.2 Matching method of user attribute characteristics

需要注意的是,部分用戶的行為數(shù)據(jù)會(huì)表現(xiàn)出單一屬性特征,由于數(shù)據(jù)之間都是存在一定關(guān)聯(lián)的,出現(xiàn)該情況極有可能是因?yàn)樾畔⒌牟杉煌暾脩魯?shù)據(jù)的提取存在誤差,因此需要對(duì)數(shù)據(jù)信息進(jìn)行檢驗(yàn),以此確保計(jì)算結(jié)果的可靠性,為推送提供可靠保障。

2 實(shí)驗(yàn)測(cè)試

為了測(cè)試本文提出的信息推薦算法的效果,采用傳統(tǒng)的基于協(xié)同過濾推薦方法[10]和基于模糊遺傳的推薦方法作為實(shí)驗(yàn)的對(duì)照組,通過分析三種方法的推薦效果,實(shí)現(xiàn)對(duì)本文設(shè)計(jì)算法的客觀評(píng)價(jià)。

2.1 實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)測(cè)試是在Windows10環(huán)境下進(jìn)行的,并利用仿真軟件搭建了用戶行為關(guān)系網(wǎng),為了確保實(shí)驗(yàn)設(shè)計(jì)最大限度接近實(shí)際情況,本文選取了浙江科技大腦的100個(gè)用戶行為數(shù)據(jù)作為實(shí)驗(yàn)測(cè)試的樣本。當(dāng)其接收到推送信息后,根據(jù)自身設(shè)定的數(shù)據(jù)與接收信息之間的匹配度,對(duì)其進(jìn)行評(píng)分,評(píng)分的閾值為[0,1]。以此為基礎(chǔ)對(duì)比三種方法信息推送的精度,直接對(duì)精度進(jìn)行統(tǒng)計(jì)難度較大,本文將平均絕對(duì)誤差MAE作為度量推送系統(tǒng)精度的指標(biāo),其計(jì)算方式為

其中,Di表示第i個(gè)用戶對(duì)推送信息的評(píng)分,n表示實(shí)驗(yàn)設(shè)計(jì)的用戶總量。

在此基礎(chǔ)上,利用三種方法進(jìn)行信息推送,并對(duì)比推送的效果。

2.2 測(cè)試結(jié)果分析

在上述基礎(chǔ)上,分別對(duì)比了三種方法的推送效果,為了提高測(cè)試結(jié)果的可靠性,測(cè)試共進(jìn)行了5次,具體如表1所示。

表1 不同推送方法的平均絕對(duì)誤差統(tǒng)計(jì)表Tab.1 Statistical table of average absolute error of different push methods

從表1中可以看出,基于協(xié)同過濾推薦方法平均絕對(duì)誤差基本在20%左右,處于較高的水平,基于模糊遺傳的推薦方法與之相比有所下降,但也達(dá)到了42%,本文方法的平均絕對(duì)誤差基本穩(wěn)定在10以內(nèi),初始測(cè)試時(shí)達(dá)到10.96,但隨著數(shù)據(jù)挖掘的深入,誤差始終穩(wěn)定在10%以內(nèi)。表明本文提出的算法可以實(shí)現(xiàn)對(duì)于信息的高精度推送。

為了進(jìn)一步分析三種方法的推送效果,對(duì)數(shù)據(jù)進(jìn)行了詳細(xì)分析,分析了該部分信息推送用戶對(duì)信息的需求度,該值以用戶匹配結(jié)果為指標(biāo)進(jìn)行統(tǒng)計(jì),得到的數(shù)據(jù)如表2所示。

表2 推送需求度分析表/%Tab.2 Analysis table of degree of push demand/%

從表2中可以看出,協(xié)同過濾推薦方法的推薦結(jié)果中,用戶的整體需求度均值為63.95%,勉強(qiáng)達(dá)到及格水平,無(wú)需求規(guī)模均值達(dá)到了5%以上,模糊遺傳推薦方法的推薦結(jié)果中,用戶整體需求度均值為73.77%,處于良好水平,無(wú)需求規(guī)模均值也僅為3.26%,但與本文方法相比,其仍存在一定提升空間,本文方法推薦結(jié)果中,整體需求度均值為94.13%,無(wú)需求規(guī)模均直接0.83%,明顯低于對(duì)比方法的5.13%和3.26%。表明本文設(shè)計(jì)的信息推送算法綜合性能較優(yōu)。

3 結(jié)語(yǔ)

科技政策信息對(duì)于各類創(chuàng)新主體和創(chuàng)新服務(wù)主體發(fā)展具有重要的指導(dǎo)作用,所以通過精準(zhǔn)匹配實(shí)現(xiàn)精準(zhǔn)推送具有十分重要的價(jià)值。本文提出的基于數(shù)據(jù)挖掘技術(shù)的科技政策信息推送算法,在對(duì)用戶行為進(jìn)行深度挖掘分析的基礎(chǔ)上,實(shí)現(xiàn)了高精度的信息推送。通過本文的研究,希望幫助相關(guān)科技政策信息能夠?qū)崿F(xiàn)更加有效的傳播,助力科技創(chuàng)新事業(yè)發(fā)展。

猜你喜歡
數(shù)據(jù)挖掘詞匯科技
本刊可直接用縮寫的常用詞匯
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
一些常用詞匯可直接用縮寫
本刊可直接用縮寫的常用詞匯
科技助我來看云
科技在線
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
科技在線
科技在線
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 国产簧片免费在线播放| 欧美成人精品高清在线下载| 久久国产高潮流白浆免费观看| 国产视频 第一页| 国产高清在线丝袜精品一区| vvvv98国产成人综合青青| 国产成a人片在线播放| 欧美三级日韩三级| 国产亚洲男人的天堂在线观看 | 少妇人妻无码首页| 国产91九色在线播放| 99国产精品免费观看视频| 精品人妻AV区| 伊人蕉久影院| 色哟哟色院91精品网站| 欧美成人精品一区二区| 亚洲不卡影院| 综合成人国产| 国产亚洲精品97在线观看| 日韩在线成年视频人网站观看| 国产精品女同一区三区五区| 成人亚洲视频| 国产精品自拍合集| 国产成人区在线观看视频| 欧洲日本亚洲中文字幕| 国产素人在线| 在线欧美日韩国产| 成年人久久黄色网站| 成人无码区免费视频网站蜜臀 | 亚洲日本一本dvd高清| 欧美伦理一区| 日本午夜网站| 国产99热| 成人国产三级在线播放| 国产地址二永久伊甸园| 日韩无码白| 2020国产精品视频| 国产成人精品在线1区| 67194亚洲无码| 国产无遮挡裸体免费视频| 乱色熟女综合一区二区| 色爽网免费视频| 在线观看精品自拍视频| 高清免费毛片| 99久久国产综合精品女同| 天堂网亚洲系列亚洲系列| 亚洲综合第一页| 天堂网亚洲系列亚洲系列| www.狠狠| 网久久综合| 亚洲国产成人无码AV在线影院L| 亚洲一级毛片免费观看| 中文字幕人妻av一区二区| 精品国产免费观看一区| 国内精品一区二区在线观看| 国产精品美人久久久久久AV| 制服丝袜在线视频香蕉| 九九视频免费看| 亚洲电影天堂在线国语对白| 国产凹凸视频在线观看| 国产一区二区精品福利| 欧美福利在线| 国产人碰人摸人爱免费视频| 国产呦精品一区二区三区网站| 这里只有精品国产| 久久久久久尹人网香蕉| 亚洲手机在线| 国产精品欧美日本韩免费一区二区三区不卡 | 日韩精品一区二区三区免费| 四虎影视无码永久免费观看| 亚洲无码精品在线播放| 亚洲天堂网视频| 国产成人综合久久| 精品欧美一区二区三区久久久| 91九色国产porny| 欧美日韩亚洲综合在线观看| 日韩午夜伦| 国产免费久久精品99re丫丫一| 中文无码日韩精品| 免费在线一区| 久久综合九色综合97网| 国产一区二区三区在线精品专区|