999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙區塊鏈結構的高維光譜離群數據挖掘

2022-07-02 13:55:48程雅瓊
電腦知識與技術 2022年15期
關鍵詞:數據挖掘

程雅瓊

摘要:在對高維光譜數據集中的離群數據進行分類和挖掘時,由于傳統基于逆k近鄰計數的挖掘方法在應用中極易受到宇宙背景噪聲、光線衰弱等因素影響,使得成功挖掘出的離群數據點數量少,最終會嚴重影響挖掘精度。針對這一問題,在引入雙區塊鏈結構的基礎上,開展高維光譜離群數據挖掘方法設計研究。通過基于雙區塊鏈結構的高維光譜數據獲取、高維光譜數據離群點檢測、基于離群分數的三元組挖掘樣本選擇和高維光譜離群數據分離,提出一種全新的挖掘方法。通過實驗證明,新的挖掘方法可有效解決上述問題,促進挖掘精度的不斷提升。

關鍵詞:雙區塊鏈結構;離群數據;高維光譜;數據挖掘

中圖分類號:TP18? ? ? 文獻標識碼:A

文章編號:1009-3044(2022)15-0017-02

當前科學技術的快速發展也在一定程度上促進了天文領域的發展,同時也使得天文數據呈現出爆炸式的增長趨勢。目前世界上光譜獲取率最高的望遠鏡是LAMOST望遠鏡,在夜晚觀測條件下能夠獲取到數萬條的光譜,能夠為天文領域的相關研究提供更加可靠的依據和素材,對于促進天文領域的完善和快速發展而言都有著十分重要的意義。針對高維光譜的分類是從上千維的光譜數據當中,選擇或提取能夠實現更精準識別的特征,并將各個特征匯總構建一個特征空間[1]。同時,在對高維光譜進行分類的過程中,光譜數據集當中通常會存在一部分離群分布的數據,由于其特征與已知的天體特征區別較大,因此常常被劃分為一類未知的光譜數據類別。這些離群數據在高維數據集當中存在的主要原因,是由于宇宙背景噪聲、光線衰弱等因素對光譜數據造成了嚴重的污染,進而使得這一部分數據無法實現準確識別[2]。針對這一問題,該領域研究人員對其進行了不斷探索,并逐步提出多種對高維光譜離群數據進行分類識別的挖掘方法。但由于針對這一問題的研究起步較晚,因此目前大部分挖掘方法在實際應用中都存在訓練時間長、識別精度低的問題。因此,針對上述論述,本文在引入雙區塊鏈結構的基礎上,開展對高維光譜離群數據挖掘方法的設計研究。

1 基于雙區塊鏈結構的高維光譜離群數據挖掘方法設計

1.1 基于雙區塊鏈結構的高維光譜數據獲取

在高維光譜數據集中,由于數據量巨大,因此為了確保后續挖掘的效率和精度,在挖掘前需要從不同的文件當中獲取待挖掘的數據,并在完成對數據的提取后,針對其不同維度進行預處理。預處理的內容主要包括對數據的標準化處理和對其主成分的降維分析處理。針對占用空間較大,并且分布在不同文件中的高維光譜數據,采用直接讀取文件的方式會消耗大量的時間,因此針對這一問題,本文將原始數據根據高維光譜數據ID存入MySQL數據庫當中,并在后續挖掘的過程中,隨機抽取少部分數據,并將其存入到h5文件當中,將其視為訓練集和測試集,以此提高對高維光譜離散數據挖掘的效率[3]。同時,在后期完成挖掘后,也可通過這一操作,采用隨機數獲取表格ID的方式,使用MySQL數據庫當中的數據,進一步提高數據的利用價值。通過上述操作獲取到的高維光譜數據可以實現由于序號造成數據片面化的問題,進而使整個數據集的特性得到更充分地發揮[4]。在完成對高維光譜數據的獲取后,基于其海量數據特點,引入雙區塊鏈結構,將獲取到的數據進行存儲。圖1為基于區塊鏈結構的高維光譜數據存儲結構示意圖。

在圖1所示的存儲結構基礎上,可確保在挖掘過程中更精準地獲取需要進行挖掘的數據集,進一步為離群數據的挖掘提供依據。同時,存儲在上述結構當中的數據集為經過PCA降維處理后的數據。在處理的過程中,可結合協方差矩陣對其進行降維,協方差矩陣表達式為:

[cov(X,Y)=i=1n(Xi-X)(Yi-Y)n-1]? ? ? ? ? ? ? ? ? ?(1)

公式(1)中,[cov(X,Y)]表示為兩個高維隨機變量度量結果;[X]和[Y]表示為均值;[Xi]和[Yi]表示為某組數據i當中的數據。根據上述公式(1)完成對所有高維光譜數據的PCA降維處理[5]。協方差矩陣的實質是實現對兩個隨機變量關系的度量統計,通過協方差矩陣計算后,數據集當中存在的高維光譜數據能夠實現降維處理,從而為后續挖掘提供便利條件。

1.2 高維光譜數據離群點檢測

根據上述論述內容,在完成對基于雙區塊鏈結構的高維光譜數據獲取后,并實現對數據的PCA降維處理,需要對數據集當中所有離群點進行檢測。通過隨機選擇某一數據集當中的子集,選擇某一數據點到數據子集之間最近的三個點,并計算求解得出其平均數值,通過不斷重復上述操作,最終得到該組數據的離群分數,其表達式為:

[χ=rm]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)

公式(2)中,[χ]表示為某一組數據的離群分數;[r]表示為某一數據點到數據子集之間最近的三個點,并計算求解得出其平均數值;[m]表示為重復操作次數。在這一數據的基礎上,引入正態分布,對數據點到隨機子集之間的距離進行分析,并將與該數據中心距離較遠的兩側數據作為離群值[6]。具體而言,在進行離群點檢測的過程中,其流程可大致分為以下四個步驟:第一步,隨機選擇高維光譜數據集當中的抽取數據子集;第二步,計算待挖掘的數據到該數據子集之間的歐氏距離;第三步,計算求解多個點之間歐氏距離的平均值,并按照公式(2)完成對離群分數的計算;第四步,設置閾值,并按照如下公式,找出相應數據點:

[r>μ+ασ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)127CF405-BA7B-47CF-A338-3B3B5F1F764A

公式(3)中,[μ]表示為均值;[σ]表示為常數。若檢測點相關參數代入到上述公式(3)中成立,則說明該檢測點為離群點;若檢測點相關參數代入到上述公式(3)不成立,則說明該檢測點不是離群點。按照上述四個步驟,完成對高維光譜離群點的檢測。

1.3 基于離群分數的三元組挖掘樣本選擇

在完成對高維光譜數據離群點檢測后,為了能夠進一步提高挖掘的精度,引入表示學習理論,針對數據集當中的所有離群數據點進行獲取,并結合上述離去分數的計算結果,實現對三元組挖掘樣本的選擇,并通過該樣本完成對本文挖掘方法的迭代訓練[7]。具體而言,在選擇過程中應當首先根據上述公式(2)計算的結果,從高維光譜內部候選集當中抽取多個需要進行查詢的對象,并以此獲取到訓練樣本。假設需要進行挖掘的數據對象被抽樣成為查詢對象的概率為P,并且這一數據的變化與其異常值恰好呈現出反比例變化關系,根據上述論述,得出P的表達式為:

[P=Z-rit=1i(Z-rt)]? ? ? ? ? ? ? ? ? ? ? ? ? ? (4)

公式(4)中,[Z]表示為所有高維光譜數據集內部異常值的總和;[r]表示為某一待挖掘的數據對象對應的離群值分數;[rt]表示為高維光譜數據集內部候選集合異常值。結合上述公式,完成對P值的計算后,根據均勻概率從內部候選集當中選擇出內部數據的正樣本。最后,再從異常候選集中獲取到離群數據的負樣本,選擇最可能為異常值的數據作為負面實例的最高概率,通過給定該數據的變化范圍,確定其負面實例出現的概率,并將上述得出的所有結果構成一個完整的三元組樣本,以此為挖掘訓練提供可靠的挖掘樣本。

1.4 高維光譜離群數據分離

在完成對樣本的選擇后,通過不斷迭代訓練促進挖掘方法的精度提升,在完成挖掘后,還需要對高維光譜數據當中已經被找出的離群數據進行分離。引入淺層表示學習網絡,采用一層雙向長短期記憶層和一層全連接層的結構,對上述獲取到的三元組挖掘樣本進行大量計算,并在進行預處理后結合深度學習方法,以此增加時間開銷,并得到精度更高的挖掘結果。在淺層表示學習網絡當中將縮減數據集、稀疏度系數閾值等作為輸入,將最終得到的局部離群數據分離結果作為輸出。在該網絡結構當中,根據子節點的數量和縮減數據集的條數,計算得出各個子節點需要進行計算的數據子集個數,即縮減數據集條數/節點數目。在主節點通過表示學習網絡搜索后,對其挖掘任務進行編號,并依次完成對所有子集中數據節點的編號。按照上述離群點檢測流程,將所有符合公式(3)的數據子集匯總,并輸出,從而實現對離群數據的分離。

2 對比實驗

通過本文上述論述,在明確了基于雙區塊鏈結構的挖掘方法基本應用思路后,為了進一步驗證這一挖掘方法的應用效果。選擇以天文領域當中的某一高維光譜數據集作為研究對象,分別利用本文提出的基于雙區塊鏈結構的挖掘方法和傳統基于逆k近鄰計數的挖掘方法對該數據集當中的離群數據進行挖掘和分離。在實驗過程中,為了確保實驗的客觀性,首先需要對高維光譜數據集進行預處理,實現對其歸一化,并通過PCA實現對高維光譜數據集的降維處理,以此也能夠進一步簡化實驗過程。為了方便論述,將本文提出的挖掘方法設置為實驗組,將傳統基于逆k近鄰計數的挖掘方法設置為對照組。在本文實驗選擇的數據集當中,其維數為50,光譜數據集分別含有5263(6M)、36448(42M)、71562(101M)、78596(112M)條。將上述所有數據統一存儲在E4546CPU數據庫當中,在實驗過程中使用兩臺512MB內存計算機作為子節點,將其中一臺作為主節點。在實驗過程中,設置高維光譜離群數據的稀疏度為-1,將其稀疏因子設定為0.2,分別設置一種單機環境和一種并行環境,應用兩種挖掘方法對實驗數據集中的離群數據進行挖掘。對比實驗組和對照組挖掘方法通過挖掘后得到的離群數據點個數,挖掘到離群數據點越多,則說明該挖掘方法更有效,更能夠實現對高維光譜離群數據的準確識別;反之,挖掘到的離群數據點越少,則說明該挖掘方法利用價值越低,無法實現對高維光譜離群數據的準確識別。根據上述論述,記錄實驗組和對照組兩種挖掘方法的應用效果,并繪制成表1。

從表1中得出的實驗結果可以看出,實驗組在單機環境下和并行環境下挖掘出的離群數據點個數均明顯多于對照組挖掘離散數據點個數。同時,通過表1中數據進一步分析得出,對照組單機環境下對離散數據點的挖掘數量明顯多于并行環境,其主要原因是并行環境中復雜因素較多,由于對照組挖掘方法沒有能夠抵抗外界干擾因素影響的能力,因此使得最終實驗結果不理想,而實驗組并沒有出現這一問題,設置在對第一組數據和第三組數據進行挖掘時,并行環境的挖掘效果優于單機環境。因此,綜合上述論述能夠證明,本文提出的基于雙區塊鏈結構的挖掘方法在應用到對真實高維光譜數據集進行挖掘時,能夠實現對其中大量離群數據點的準確挖掘,挖掘精度與以往基于逆k近鄰計數的挖掘方法相比得到明顯提高。

3 結束語

針對高維光譜數據集當中的離群數據,實現對其充分挖掘,對于后續高維光譜數據集的使用和天體數據分類處理而言,具有十分重要的作用。針對此,本文在引入雙區塊鏈結構的基礎上,提出了一種全新的挖掘方法,并結合實驗驗證了該方法的可行性。但由于研究能力有限,在研究過程中,本文采用的數據處理方法在時間復雜度上過高,雖然能夠確保最終挖掘結果的精度,但挖掘效率仍然有待進一步提升。因此,針對這一問題,在后續的研究當中,還將引入多種不同的算法和分類器,對本文挖掘方法進行不斷完善,從而設計出一種更加適合用于對高維光譜中離群數據進行挖掘的方法,提高高維光譜數據的利用價值。

參考文獻:

[1] 唐偉寧,劉穎,于旭,等.基于離群數據挖掘的低壓竊電行為辨識方法研究[J].電子設計工程,2021,29(23):56-59,64.

[2] 尚福華,曹茂俊,王才志.基于人工智能技術的局部離群數據挖掘方法[J].吉林大學學報(工學版),2021,51(2):692-696.

[3] 田文祥.基于離群數據挖掘技術的高校學生學業預警研究[J].黑龍江科學,2021,12(7):54-56.

[4] 李林睿,常舒予,喬一鳴.基于表示學習的高維光譜離群數據挖掘[J].電腦知識與技術,2021,17(22):90-93.

[5] 馬洋,趙旭俊,蘇建花,等.基于核密度估計的離群數據挖掘[J].太原科技大學學報,2020,41(6):456-462,469.

[6] 羅念華,陶佳冶,劉俊榮.依賴大數據離群數據挖掘算法的業務系統間權限異構監控研究[J].自動化與儀器儀表,2019(5):179-182.

[7] 朱云麗,張繼福.基于逆k近鄰計數和權值剪枝的離群數據挖掘算法[J].小型微型計算機系統,2019,40(8):1627-1632.

【通聯編輯:張薇】127CF405-BA7B-47CF-A338-3B3B5F1F764A

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 久久久久无码精品| 2020国产精品视频| 国产91久久久久久| 免费看美女毛片| 国产在线无码av完整版在线观看| 国产区成人精品视频| 麻豆精品在线| 91精品啪在线观看国产91九色| 99热这里只有成人精品国产| 亚洲侵犯无码网址在线观看| 色首页AV在线| 国内熟女少妇一线天| 国产va在线观看免费| 茄子视频毛片免费观看| 性喷潮久久久久久久久| 亚洲男女天堂| 亚洲国产精品VA在线看黑人| 在线中文字幕日韩| 色成人综合| 国产欧美精品一区aⅴ影院| 欧美成人在线免费| 欧美中文字幕一区| 丁香亚洲综合五月天婷婷| 欧美日本视频在线观看| 亚洲成人播放| 女人18毛片一级毛片在线 | 国产成人精品亚洲77美色| 免费国产高清精品一区在线| 国内精品九九久久久精品| 成人在线观看不卡| 国产成人欧美| 日韩a级片视频| 国产久草视频| 国产一区二区免费播放| 一级毛片在线免费视频| 伊人查蕉在线观看国产精品| 欧美另类视频一区二区三区| 成人一级黄色毛片| 国内精品伊人久久久久7777人| 欧美激情第一区| 天堂网国产| 国产一区二区人大臿蕉香蕉| 国产精品男人的天堂| 午夜精品区| 国产精品原创不卡在线| 欧美另类精品一区二区三区| 美女被躁出白浆视频播放| 88国产经典欧美一区二区三区| 亚洲区视频在线观看| 99久久精品久久久久久婷婷| 国产高颜值露脸在线观看| 欧美α片免费观看| 亚洲大尺度在线| 午夜欧美理论2019理论| 99久久免费精品特色大片| 香蕉国产精品视频| 成人午夜福利视频| 日本午夜网站| 国产9191精品免费观看| 456亚洲人成高清在线| 91免费国产高清观看| 蜜桃视频一区二区| 99视频国产精品| 日韩AV无码一区| 欧美一级黄色影院| 91人妻在线视频| 久久久久久尹人网香蕉| 麻豆精品在线视频| 欧美国产日韩另类| 色偷偷综合网| 婷婷亚洲视频| 波多野结衣中文字幕久久| 亚洲成人免费看| 91综合色区亚洲熟妇p| 亚洲第一成人在线| 国产成人综合日韩精品无码首页| 国产欧美日韩资源在线观看| 亚洲午夜国产片在线观看| 婷婷六月激情综合一区| 五月婷婷导航| 亚洲欧洲AV一区二区三区| 亚洲无码电影|