999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)時(shí)代工作中的模型思維構(gòu)建

2021-06-16 06:38:56盧志強(qiáng)
科學(xué)咨詢 2021年13期
關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)分類

盧志強(qiáng)

(中國(guó)鐵路上海局集團(tuán)有限公司信息技術(shù)所 上海 200071)

以大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等為代表的信息技術(shù)正加速推動(dòng)著社會(huì)信息化進(jìn)程,各個(gè)行業(yè)積累的數(shù)據(jù)資源也越來越多,人們的工作也越來越依靠數(shù)據(jù)。大數(shù)據(jù)分析領(lǐng)域也對(duì)大數(shù)據(jù)專家技能需求分為“數(shù)據(jù)管理、數(shù)據(jù)運(yùn)營(yíng)、洞察分析、算法模型”四個(gè)層次,其中算法模型這個(gè)層次就是數(shù)據(jù)價(jià)值挖掘能力。為了更好地適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展,工作中需要加強(qiáng)對(duì)業(yè)務(wù)的思考和總結(jié),將日常工作中發(fā)現(xiàn)的規(guī)律和經(jīng)驗(yàn)融入大數(shù)據(jù)模型,提高數(shù)據(jù)應(yīng)用能力[1]。

一、數(shù)據(jù)建模原理

在大數(shù)據(jù)分析中,模型是非常有用的工具,模型很多時(shí)候就是一個(gè)類似Y=f(X)的函數(shù),即從參數(shù)X(也可以理解為條件、現(xiàn)象、特征)到結(jié)果Y的一個(gè)推導(dǎo)(映射)規(guī)則。在掌握足夠經(jīng)驗(yàn)時(shí),結(jié)合一些基礎(chǔ)的統(tǒng)計(jì)分析,依靠人工規(guī)則定義就可以實(shí)現(xiàn)建模;而人工對(duì)錯(cuò)綜復(fù)雜、大量的數(shù)據(jù)無法處理時(shí),逐漸轉(zhuǎn)化為依靠人工指導(dǎo)的數(shù)據(jù)挖掘,再到完全依賴機(jī)器進(jìn)行的深度學(xué)習(xí)算法去完成建模。挖掘算法包括分類、聚類、關(guān)聯(lián)規(guī)則、回歸等,而深度學(xué)習(xí)主要是依賴神經(jīng)網(wǎng)絡(luò)模型[2]。

數(shù)據(jù)挖掘的實(shí)質(zhì)是通過計(jì)算機(jī)的計(jì)算能力在一堆數(shù)據(jù)中發(fā)掘出規(guī)律并加以利用的過程。如圖1所示,數(shù)據(jù)挖掘通常通過已知輸出的結(jié)果的數(shù)據(jù)作為訓(xùn)練集產(chǎn)生出模型,再用另外一部分知道已知輸出結(jié)果的數(shù)據(jù)作為驗(yàn)證集來驗(yàn)證模型的可信程度,通過驗(yàn)證后,再用到測(cè)試集中去取得實(shí)際的效果。因此,對(duì)數(shù)據(jù)挖掘而言,需要經(jīng)歷規(guī)則學(xué)習(xí)、規(guī)則驗(yàn)證、規(guī)則使用的過程[3]。

圖1 一般數(shù)據(jù)訓(xùn)練模型過程

規(guī)則學(xué)習(xí)又稱為模型訓(xùn)練,在這個(gè)步驟中有一個(gè)數(shù)據(jù)集將作為訓(xùn)練集,通常會(huì)把過去已經(jīng)發(fā)生的數(shù)據(jù)作為訓(xùn)練集。在對(duì)比已知的結(jié)果和輸入的變量的過程中,更換模型或者調(diào)整模型中的參數(shù),對(duì)訓(xùn)練集達(dá)到較高的評(píng)價(jià)指標(biāo)后,就得到一個(gè)預(yù)期的計(jì)算規(guī)則。引入驗(yàn)證集是為了驗(yàn)證模型的效果和準(zhǔn)確度,驗(yàn)證集和訓(xùn)練集具有相同的格式。如果有效的話就可以在實(shí)際場(chǎng)景中對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè),如果效果不理想還可以進(jìn)一步調(diào)整模型。

二、數(shù)據(jù)挖掘算法模型

數(shù)據(jù)挖掘的算法很多,這里根據(jù)一些經(jīng)典算法結(jié)合工作生活中的應(yīng)用案例介紹其原理。

(一)分類

這是針對(duì)已知的類別構(gòu)建出分類的模型,通過分類的模型來探求其他未分類對(duì)象的類別。分類的算法很多,如決策樹是一種常見的樹形結(jié)構(gòu)分類模型;貝葉斯算法是一種利用先驗(yàn)概率統(tǒng)計(jì)知識(shí)分類未知類別的模型;其他常見算法還包括神經(jīng)網(wǎng)絡(luò)分類、K-近鄰分類、支持向量機(jī)SVM分類、基于關(guān)聯(lián)規(guī)則的分類等。現(xiàn)實(shí)中有很多應(yīng)用分類算法的實(shí)例,如在金融領(lǐng)域,根據(jù)職業(yè)、家庭經(jīng)濟(jì)狀況、年齡、資產(chǎn)等特征將貸款人的信用風(fēng)險(xiǎn)劃分為“安全”與“有風(fēng)險(xiǎn)”兩類,就是個(gè)二分類問題;在軌道交通管理中,根據(jù)檢修工人對(duì)各種故障狀態(tài)的記錄進(jìn)行標(biāo)準(zhǔn)化和量化處理,利用狀態(tài)數(shù)據(jù)特征對(duì)設(shè)備故障進(jìn)行多類別分類,提高設(shè)備管理水平。

(二)聚類方法

與分類不同,聚類不需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)記,也就不需要事先進(jìn)行訓(xùn)練。聚類按照數(shù)據(jù)的內(nèi)在結(jié)構(gòu)特征進(jìn)行聚集形成簇群,從而實(shí)現(xiàn)數(shù)據(jù)分離。常見的聚類算法有K-means聚類、均值漂移聚類、基于密度的聚類方法、最大期望聚類、層次聚類等。聚類應(yīng)用領(lǐng)域廣泛,可用于企業(yè)發(fā)現(xiàn)不同的客戶群體特征、消費(fèi)行為分析、市場(chǎng)細(xì)分、交易數(shù)據(jù)分析等;可用于生物學(xué)的動(dòng)植物種群分類、醫(yī)療疾病診斷、異常點(diǎn)分析等。在鐵路交通旅客管理中,運(yùn)用聚類算法對(duì)不同類別旅客乘車選擇問題進(jìn)行研究,發(fā)現(xiàn)旅客出行時(shí)間、月收入、出行目的與費(fèi)用對(duì)旅客進(jìn)行聚類,以輔助調(diào)整鐵路線路實(shí)現(xiàn)不同類別旅客對(duì)客運(yùn)產(chǎn)品選擇的偏好。

(三)關(guān)聯(lián)分析

關(guān)聯(lián)規(guī)則挖掘是在大量數(shù)據(jù)中挖掘數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系,對(duì)關(guān)聯(lián)性的強(qiáng)弱判定依據(jù)置信度和支持度的值。Apriori算法就是經(jīng)典的關(guān)聯(lián)分析算法,主要形式為度量頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則廣泛應(yīng)用于商務(wù)營(yíng)銷、推薦系統(tǒng)、社會(huì)治理等領(lǐng)域。如在交通管理領(lǐng)域,通過對(duì)交通事故數(shù)據(jù)做關(guān)聯(lián)分析,可以對(duì)不同天氣、時(shí)間、路段、環(huán)境、基礎(chǔ)設(shè)施等要素做關(guān)聯(lián)分析,探測(cè)其中的規(guī)律,可能發(fā)現(xiàn)“時(shí)段”與“追尾”屬于強(qiáng)關(guān)聯(lián)規(guī)則,即存在強(qiáng)關(guān)聯(lián)。

(四)回歸分析

回歸分析是一種研究自變量和因變量之間關(guān)系的預(yù)測(cè)模型,用于分析當(dāng)自變量發(fā)生變化時(shí),因變量的變化值。即對(duì)原因與結(jié)果之間變化關(guān)系的分析,由此可以建立回歸方程,用以預(yù)測(cè)變量的依賴關(guān)系。常見的回歸算法有線性回歸、邏輯回歸、多項(xiàng)式回歸、逐步回歸、嶺歸回等。回歸分析可以應(yīng)用于各類預(yù)測(cè)分析中,包括銷售盈利分析、氣候預(yù)測(cè)回歸分析、交通出行人流量回歸分析等。甚至可以根據(jù)回歸分析結(jié)果與實(shí)際發(fā)生情況進(jìn)行異常點(diǎn)分析,如利用火災(zāi)預(yù)警系統(tǒng)來預(yù)測(cè)建筑物火情及分析縱火案。通過將一年內(nèi)火災(zāi)案件與當(dāng)天天氣、建筑物自身因素等資料數(shù)據(jù)化,形成一套火災(zāi)級(jí)別與火災(zāi)因素的擬合函數(shù),可以形成經(jīng)驗(yàn)數(shù)據(jù),有效提升火災(zāi)預(yù)警能力。

(五)深度學(xué)習(xí)

面對(duì)非常復(fù)雜、冗余且多變的數(shù)據(jù),有效提取出特征并將其表達(dá)出來非常重要。“深度學(xué)習(xí)”是隨著海量大數(shù)據(jù)樣本與計(jì)算處理能力發(fā)展而產(chǎn)生的,允許計(jì)算機(jī)學(xué)習(xí)使用特征的同時(shí),也學(xué)習(xí)如何提取特征。深度學(xué)習(xí)主要采用的框架是神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等。學(xué)習(xí)過程是通過組建含有多個(gè)隱層的神經(jīng)網(wǎng)絡(luò)模型,對(duì)輸入的高維數(shù)據(jù)逐層提取特征,以發(fā)現(xiàn)數(shù)據(jù)的低維嵌套結(jié)構(gòu),形成更加抽象有效的高層表示,這使得數(shù)據(jù)項(xiàng)與特征、特征映射到結(jié)果的過程難以解釋[4]。深度學(xué)習(xí)廣泛應(yīng)用于人工智能領(lǐng)域,如人臉識(shí)別、語音識(shí)別、體態(tài)識(shí)別等,這些智能技術(shù)也作為信息化基礎(chǔ)設(shè)施在各行各業(yè)進(jìn)行部署應(yīng)用。

三、算法模型指標(biāo)理解

通過數(shù)據(jù)訓(xùn)練得到一個(gè)模型后,如何判斷此模型的效果?這就類似學(xué)校對(duì)學(xué)生用什么指標(biāo)評(píng)估學(xué)生素質(zhì)?是主課的總成績(jī),還是多門課平均成績(jī),還是優(yōu)先看哪門課成績(jī)?數(shù)據(jù)模型是否有效,也有很多評(píng)價(jià)指標(biāo),常用的評(píng)估指標(biāo)是查全率和查準(zhǔn)率。假設(shè)分類中有正負(fù)兩種樣本,其中TP是表示正確分類的正樣本數(shù)量,F(xiàn)N表示未被正確分類的正樣本數(shù)量,F(xiàn)P表示被錯(cuò)誤分類為正樣本的負(fù)樣本[5]。

1.查全率(Recall),又叫召回率,即正確分類的正樣本數(shù)量占所有正樣本數(shù)量的比例,計(jì)算公式為:

R=TP/(TP+FN)

2.查準(zhǔn)率(Precision),又叫準(zhǔn)確率,即正確分類的正樣本數(shù)量占所有被模型識(shí)別出的正樣本數(shù)量的比例,計(jì)算公式為:

P=TP/(TP+FP)

如果一個(gè)模型兩個(gè)指標(biāo)值都非常好,即調(diào)整條件使查全率和查準(zhǔn)率都提高,那無疑是最優(yōu)的情況。但這兩個(gè)指標(biāo)往往是“此消彼長(zhǎng)”,像“魚和熊掌”一樣,不能兼得。對(duì)于模型效用的評(píng)估,查全率、查準(zhǔn)率這些只是常見的評(píng)估指標(biāo),具體偏向哪個(gè)指標(biāo),很多時(shí)候也會(huì)根據(jù)場(chǎng)景區(qū)分。例如門禁系統(tǒng)在做身份驗(yàn)證時(shí),那就追求高查準(zhǔn)率;在進(jìn)行風(fēng)險(xiǎn)預(yù)警時(shí),可以根據(jù)需求適當(dāng)放棄部分查準(zhǔn)率,盡量放寬查全率。

四、結(jié)束語

大數(shù)據(jù)已經(jīng)成為推動(dòng)各個(gè)行業(yè)工作創(chuàng)新發(fā)展的大引擎,也是新的生產(chǎn)力的增長(zhǎng)點(diǎn)。為了更加有效地利用大數(shù)據(jù)資源,理解數(shù)據(jù)建模原理,將模型化思維應(yīng)用于工作實(shí)踐,可以對(duì)傳統(tǒng)產(chǎn)業(yè)進(jìn)行升級(jí),改進(jìn)原有工作業(yè)務(wù)模型。

猜你喜歡
數(shù)據(jù)挖掘關(guān)聯(lián)分類
“苦”的關(guān)聯(lián)
分類算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
奇趣搭配
教你一招:數(shù)的分類
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 国产真实乱人视频| 国产高清在线丝袜精品一区| 欧美福利在线观看| 欧美色香蕉| 人妻无码一区二区视频| 伦精品一区二区三区视频| 国产剧情国内精品原创| 国产综合无码一区二区色蜜蜜| 精品视频在线一区| 欧美不卡视频一区发布| 亚洲一级毛片在线观播放| 国产91九色在线播放| 在线免费无码视频| 国产一区二区免费播放| 99精品免费欧美成人小视频 | 亚洲三级电影在线播放| 久久国产免费观看| 欧美成人午夜在线全部免费| 2021无码专区人妻系列日韩| 综合社区亚洲熟妇p| 一本大道在线一本久道| 2021天堂在线亚洲精品专区| 欧美综合区自拍亚洲综合绿色 | 日本一本正道综合久久dvd| 黄色网址手机国内免费在线观看| 一级黄色网站在线免费看| 免费全部高H视频无码无遮掩| 婷婷久久综合九色综合88| 一级做a爰片久久免费| 国产成人喷潮在线观看| 精品少妇人妻无码久久| 亚洲人妖在线| 国产欧美精品专区一区二区| 亚洲一区二区黄色| 精品国产自在在线在线观看| 91小视频在线观看免费版高清| 99re热精品视频国产免费| 青草娱乐极品免费视频| 久久伊人操| 曰韩免费无码AV一区二区| 国产色伊人| 亚洲AV成人一区二区三区AV| 一级香蕉视频在线观看| 亚洲国产清纯| 成人在线观看一区| 秋霞一区二区三区| 亚洲永久色| 婷婷亚洲视频| 婷婷六月综合网| 日韩在线视频网| 中国国产一级毛片| 最新国产成人剧情在线播放| 呦女精品网站| 欧美日本激情| 97无码免费人妻超级碰碰碰| 久草美女视频| 亚洲伊人久久精品影院| 亚洲天堂视频网站| 亚洲免费福利视频| 中文字幕在线免费看| 中字无码av在线电影| 国产精品香蕉在线观看不卡| 六月婷婷精品视频在线观看| 97在线观看视频免费| 中国国产A一级毛片| 最新精品国偷自产在线| 国产成人禁片在线观看| 日韩高清成人| 午夜无码一区二区三区| 国产精品尤物在线| 毛片网站在线播放| 香蕉蕉亚亚洲aav综合| 欧美日韩精品在线播放| 精品国产一区二区三区在线观看 | 国产成人h在线观看网站站| 国产免费福利网站| 色综合天天综合中文网| 手机成人午夜在线视频| 国产99免费视频| 国产激爽大片高清在线观看| 国产理论一区| 播五月综合|