999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據相關性挖掘技術研究

2021-09-24 06:05:28賀怡
電腦知識與技術 2021年23期
關鍵詞:挖掘大數據

賀怡

摘要:在信息技術飛速發展的時代,信息正以數字化方式進行存儲、交互,人們通過各種電子設備連入互聯網,并使得信息交互和存儲變得越發快捷。當數據呈爆炸式增長后,從海量數據中獲取人們需要的信息變得十分困難,在人工智能等技術的發展過程中,通過對大數據進行分析和計算,可以快速得到目標信息,極大地推動了大數據發展。本文通過對數據特征相關性分析,提出基于特征相關性進行統計和排序,完成對大數據相關性分析,可以通過該方法對大數據中有用數據提取,并實現對網絡中數字化信息的挖掘。

關鍵詞:大數據;相關性分析;數據特征;挖掘

中圖分類號:TP311? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)23-0023-02

在數據分析使用上,大數據采用部分樣本相關性作為研究重點。相關性是指數據變量之間的量化值之間具有一定規律。一般而言,數據變量并不會直接表現出相關性,而是數據變量的某些特征之間具備一定線性或非線性交互關系。從大數據中挖掘數據特征之間的隱含關系是數據挖掘的主要價值。當前常用的數據挖掘技術主要是從數據量、數據類型和數據增長角度對信息進行挖掘,由于數據量大,為獲取完整且針對性強的信息需要對樣本進行平衡和去噪[1]。數據相關性最主要的運用在推薦系統,人們通過對大數據相關性分析,獲得用戶偏好和用戶畫像,可以精準推送可用信息[2]。本文提出一種基于數據特征排序的數據挖掘算法,可以在面對高維度數據時有效講冗余信息排除,且最大程度保證信息完整性。在對大數據進行相關性分析時,需顯式給出數據特征相關性,可以得到最優的信息解。

1數據特征選擇方法

在特征提取方面,最初假定某特征的特征值僅為0和1,且在所有輸入樣本中,大部分數據的特征取值均為1,可認為該特征作用不大。僅當特征值為離散型變量時,該方法可用于特征判斷。選擇單變量特征,將其依次進行測試,并衡量該特征和相應變量之間的關系,根據得分去除不好的特征,可以對數據進行較好解析,但在特征優化和泛化能力上并不占優勢。因此可以在數據特征選擇上采用析因設計,該方法是一種結構化分析法,將數據的每個要素相互組合,進行兩個和多個評價,是多因素的交叉分組設計分析[3]。其統計模型如下:

式中,數據樣本的特征為[x1、x2、x3]等,特征相互作用為乘積[x1x2]、[x1x3]、[x1x2x3]等,[ε]是隨機產生誤差。當系數[β]代表特征之間的相關性時,則根據[β]進行排序,當值越大時代表該特征與數據樣本的相關性最大?;跀祿颖镜奈鲆蚍椒ㄟ^程是:(1)采用對稱不確定性對特征進行排序。其優化方程如下:

其中,[xk]屬于數據樣本的待選特征,其余兩者為選定的特征。該方法能保留特征之間的相互作用。通過排序得到的順序[k]個特征進行測試,減小搜索空間的范圍。(2)將數據樣本所有特征進行二值化,當樣本特征屬于高范圍時,設定為1;屬于低范圍時,設定為負1。(3)計算峰值,使數據樣本能獲得足夠多的特征集合,完成矩陣,對單個特征、二階特征及N階特征進行構造,完成二值化。(4)計算特征。首先初始化實驗的理想數據樣本值,通常記作R,根據實驗得到結果r,將其取均值,能有效減少隨機誤差產生。(5)計算復雜度,完成最終排序。在最大樣本特征判定時,首先將輸入的數據樣本按照矩陣中第一個特征(選定特征集)進行歸類,分為高范圍和低范圍區間;第二次遍歷則按照第二個特征進行歸類,依次類推到選定的順序[k]個特征。

基于特征的選擇算法將數據樣本記錄為輸入特征和輸出目標值的集合。其中每一列特征對應一行數據,令K階相互作用為向量,則每一向量組成特定的特征內積。如采用下列三個樣本數據相互正交:

將樣本目標值令為上述樣本數據的異或組合:

在將四階交互[Ix1;x2;x3;y=1] ,其余項交互為0,即單獨項與目標值,兩兩組合項與交互值,則得到三樣本相交為:

由此可見,三者交互恰好與樣本目標值相等,說明在高階作用比低階組作用更大,采用降維既可以減少運算,又保證了相關性。

2數據挖掘參數選擇

在進行數據挖掘時,常常會對算法進行一些參數調整。比如在使用深度學習時,模型錯誤率、匹配程度、數據集構造等。在具體的運用中,要將模型參數調整到適合的值,才可以獲得最佳的挖掘性能,而當前的參數調整已成為數據挖掘的瓶頸之一,通過特征篩選可以直接獲得相關性較好的模型。設挖掘的模型參數集為[U=x1,x2,...,xM] ,這些集合等價于特征選擇的特征。其性能以y表示,相當于整個模型的響應。在調整參數時,首先將其完全遍歷,并采用特征排序同樣方法進行數據二值化,使特征參數均分布在高范圍1和低范圍負1之間。然后根據特征集合的數量,設計適合的表格,將其參數分布在表格中。最后根據表格進行測試,對每一個參數組合進行訓練,并得到性能y,重復測試訓練多次,得到多個指標y,最終形成指標集合。單在一個參數的選擇上并不會直接影響結果,可以通過特征的不同組合進行判斷。判斷的原則是將特征進行一一組合,當計算得到的特征表格和信噪比組成表格時,計算各組合目標參數,并將其排序,靠前的參數作為主要調整對象。

根據表格和測試結果,首先對各個組合的隨機誤差進行信噪比對比。其中指標響應的均值、標準差、信噪比計算公式如下:

完成上述計算后,在對信噪比進行排序。根據排序方法,可以獲得表格中取值為1的特征組合的信噪比:

同樣可以獲得表格中低范圍信噪比:

兩者的信噪比差值為:

其差值也等價于表格中首位兩列的內積除6。最后根據排序選擇最優的特征組合。根據信噪比差值可以快速完成特征組合排序,當排序在前時,證明該特征與數據樣本的相關性較強。通過選擇目標特征的排序最優,就能得到上述參數的目標值,依次作為調整的閾值,對于信噪比低的參數則可以將其作為模型的不相關特征進行處理,以此可以加快模型的運行速度。

猜你喜歡
挖掘大數據
使德育開花結果
將“再也沒有”帶向更有深度的思考中
古詩詞教學中藝術內涵的挖掘策略
挖掘檔案文化資源推進檔案文化建設
資治文摘(2016年7期)2016-11-23 00:37:46
關注數學思考 提升數學本質
文理導航(2016年30期)2016-11-12 15:02:43
大數據技術在商業銀行中的應用分析
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 2020最新国产精品视频| 亚洲成A人V欧美综合天堂| 2021国产精品自产拍在线观看| 婷婷开心中文字幕| 日韩成人在线网站| 色噜噜中文网| 成人字幕网视频在线观看| 日韩天堂在线观看| 国产精品熟女亚洲AV麻豆| 亚洲激情区| 亚洲国产精品日韩av专区| 国产欧美日韩精品第二区| 国产精品手机在线观看你懂的| 久久精品国产精品国产一区| 欧美伊人色综合久久天天| 美女无遮挡拍拍拍免费视频| 国产欧美视频综合二区| 精品国产免费观看一区| 亚洲中文字幕97久久精品少妇| 午夜在线不卡| 一级黄色欧美| 性欧美在线| 日韩高清一区 | 超清无码一区二区三区| 亚洲色图欧美激情| 久久精品只有这里有| 国产精品第页| 成人亚洲天堂| 亚洲伊人天堂| 红杏AV在线无码| 成人综合在线观看| 91国内在线观看| 日韩不卡高清视频| 三区在线视频| 精品人妻一区无码视频| 国产精品刺激对白在线| 亚洲综合极品香蕉久久网| 在线免费不卡视频| 国产不卡在线看| 亚洲不卡影院| 毛片免费视频| 99久久精品免费观看国产| 久久人体视频| 成人午夜精品一级毛片| 伊人久久精品无码麻豆精品| 日本在线免费网站| 国产69囗曝护士吞精在线视频| 丁香五月婷婷激情基地| 亚洲一区二区视频在线观看| 国产粉嫩粉嫩的18在线播放91 | 国产特级毛片aaaaaa| 日本一区二区三区精品AⅤ| 欧美三級片黃色三級片黃色1| 国产精品无码AV中文| 91精品国产一区| 国产亚洲视频中文字幕视频| 亚洲AV无码乱码在线观看代蜜桃 | 日韩av无码DVD| 国产高清在线丝袜精品一区| 国产高清在线观看| 2020最新国产精品视频| 亚洲精品视频免费| 欧美国产日韩一区二区三区精品影视 | 亚洲色精品国产一区二区三区| 欧美色伊人| 91精品国产情侣高潮露脸| 欧美精品1区| 91蜜芽尤物福利在线观看| 蜜臀AV在线播放| 成人字幕网视频在线观看| 亚洲Av综合日韩精品久久久| 国产www网站| 高清无码一本到东京热| 伊人查蕉在线观看国产精品| 女同久久精品国产99国| 日韩免费中文字幕| 久久永久视频| 国产精品亚欧美一区二区| 呦女精品网站| 免费国产一级 片内射老| 亚洲欧美日韩中文字幕在线| 亚洲av无码片一区二区三区|