林明方
(廣東工程職業技術學院 信息工程學院,廣州 510520)
異構式分布下的Internet數據挖掘方法優化研究
林明方
(廣東工程職業技術學院 信息工程學院,廣州 510520)
為了提高異構式分布下的internet數據的利用率,增加internet的多樣化使用功能和數據傳輸率,減少internet運行的時間,需要對異構式分布下的internet數據進行挖掘;當前的數據挖掘方法多是先采用SOM系統的可視化功能對異構式分布下的internet數據進行聚類,然后根據聚類結果的計算完成對異構式分布下的internet數據挖掘;但該方法存在操作過程復雜,internet數據經常性丟失的問題;為此,提出了一種基于本體論的異構式分布下的internet數據挖掘優化方法;該方法首先對異構式分布下的internet數據進行預處理選取出數據特征,并利用特征選擇決策系統對挖掘數據進行特征選擇,在此基礎上利用信息熵實現異構式分布下的internet數據的過濾,過濾過程中通過信息熵數據過濾的理論值減小的變動,得到最佳數據過濾值,最后以預處理中獲得的各項數據信息為基礎,采用決策樹生成算法中的信息增益值的迭代計算結果對異構式分布下的internet數據進行高精度挖掘;仿真實驗結果證明,所提方法提高了異構式分布下的internet數據操作的靈活度,增加了internet數據的可循環利用率,使異構式分布下的internet操作更加簡潔化、高效率化,為該領域的研究發展提供了強有力的依據。
異構式分布;internet;數據挖掘方法;優化研究
隨著計算機科學與互聯網技術的不斷發展以及普及,異構式分布下的internet數據分別在辦公自動化、電子數據交換、遠程交換、遠程教育、電子公告板系統BBS、電子銀行、證券及期貨交易、廣播分組交換、信息高速公路、企業網絡、智能大廈和結構化綜合布線系統等社交性平臺以及系統中都有著廣泛的應用。因此異構式分布下的internet數據的發展受到了人們的廣泛關注和高度重視[1-2]。異構式分布下的internet不僅可以支持不同協議的不同應用,將各具優勢的產品或系統進行結合利用,而且還可以滿足網絡業務的多樣化需求[3],提高internet中各項多功能平臺和系統的利用率。由于異構式分布下的internet具有不確定性、多樣性、靈活性等特點,所以需要對異構式分布下的internet數據進行挖掘。大多數的異構式分布下的internet數據挖掘方法在進行數據挖掘時無法對其進行迅速、有效、高精度的挖掘,導致異構式分布下的internet在運行或操作時經常出現丟包率過大,數據操作過程復雜,計算有誤差等問題[4-5]。在這種情況下,如何減少異構式分布下的internet數據挖掘的丟包率,提高internet數據挖掘的精度成為了亟待解決的問題。而基于本體論的異構式分布下的internet數據挖掘優化方法可以對其進行靈活、方便、可靠、高精度的數據挖掘。是解決上述問題的可行途徑[6],受到了該領域專家的廣泛關注,并且已經成為了異構式分布下的internet數據挖掘領域研究學者的研究課題,同時也獲得了很多優秀的方法[7]。
文獻[8]提出了一種基于最近鄰聚類的異構式分布下的internet數據挖掘方法。該方法采用改進的最近鄰聚類算法對異構式分布下的internet數據進行訓練,使異構式分布下的internet數據在滿足挖掘精度要求前提下,減少隱藏的網絡數據節點數,簡化internet數據結構,加快異構式分布下的internet數據的學習速度,達到改善異構式分布下的internet數據學習效率的目的,在此基礎上用最近鄰聚類方法對異構式分布下的internet數據進行挖掘。該方法可以安全、穩定地對異構式分布下的internet進行數據挖掘,但是存在消耗時間過長的問題。文獻[9]提出了一種基于垂直搜索的異構式分布下的internet數據挖掘方法。該方法首先利用垂直搜索的方式從異構式網絡搜集數據,對得到的網絡數據信息進行數據分類操作處理,將處理過后的結構化網絡數據保存至異構式分布下的internet數據庫中,然后對internet數據庫中的網絡數據進行分析,發現其中的規則和特征,最后根據異構式分布下的internet數據庫中的網絡數據的規則和特征對異構式分布下的internet數據進行挖掘。該方法可以快速的對異構式分布下的internet數據進行挖掘,但是存在數據挖掘精度較低的問題。文獻[10]提出了一種基于粗集理論和神經網絡結合的異構式分布下的internet數據挖掘方法。該方法首先利用粗集理論對原始網絡數據進行屬性約簡化,然后使用神經網絡對異構式分布下的網絡數據實現學習與預測操作,完成網絡數據屬性的不一致約簡化,最后利用粗集理論對神經網絡知識的獲取完成對異構式分布下的internet數據挖掘。該方法對異構式分布下的internet數據挖掘的容錯能力較好,但挖掘完成速度較慢,而且過程繁瑣。
針對上述產生的問題,提出一種基于本體論的異構式分布下的internet數據挖掘優化方法。該方法首先對欲挖掘的異構式分布下的internet數據進行預處理操作,使挖掘精度更高,挖掘速度更快,然后利用決策樹生成的算法對異構式分布下的internet數據進行挖掘。仿真實驗證明,所提方法可以高效精確地對異構式分布下的internet數據進行挖掘,且具有良好的可實現性。
1.1 異構式分布下的internet數據預處理
利用本體論對異構式分布下的internet數據進行挖掘,首先進行異構式分布下的internet數據預處理,在數據預處理中要確定異構式分布下的internet原始數據集的數據目標屬性集合以及數據條件屬性集合,其次將屬性集合的取值范圍區分為若干個小區間,一個internet數據離散符號對應一個數據屬性集合小區間,由此得到一個異構式分布下的internet數據的特征選擇決策系統,對特征選擇決策系統中的相同數據記錄進行合并,記作(R,CRD),建立異構式分布下的internet數據的特征選擇決策系統,是對傳統數據挖掘方法中沒有進行數據特征選擇而直接進行internet數據挖掘的方法進行了優化。
在數據特征選擇之前要將數據的特征提取出來,在本文中利用最大間隔算法對異構式分布下的internet數據進行特征提取。假設internet數據服從某一特征分布P,那么根據最大間隔算法計算異構式分布下的internet數據特征提取相似值w為:
(1)
其中,O代表異構式分布下的internet數據特征提取的預定義閾值,q代表internet數據特征提取維數。
依據異構式分布下的internet數據特征提取相似值w,得知internet數據特征的提取過程為:
輸入:F,G,h
輸出:w1,w2,…wδ
其中,F代表異構式分布下的internet數據特征提取數據集,G代表異構式分布下的internet數據特征提取中一特征參數,h代表異構式分布下的internet數據待提取特征維數,δ代表internet數據特征提取中特征屬性映射值。由此完成了對異構式分布下的internet數據特征提取。
將本體論應用于異構式分布下的internet數據的特征選擇,就是要從異構式分布下的internet原始數據中提取出最能反映出異構式分布下的internet數據挖掘本質的特征,以下是異構式分布下的internet數據特征選擇方法具體過程:
假設,輸入:異構式分布下的internet數據條件屬性集A、數據決策屬性集B、數據決策系統(R,CRD)。
輸出:異構式分布下的internet數據生成分辨矩陣H、數據約簡集X(A,B)。
1)若n代表internet數據決策系統中屬性個數,則:
X(A,B)=φ
(2)
其中,X代表異構式分布下的internet數據約簡值,φ代表異構式分布下的internet數據約簡集。
2)假設一個n×n的internet數據屬性集合矩陣N;
3)根據本體論中分辨矩陣生成數據分辨矩陣,記錄在(2)中的internet數據屬性集合矩陣N,則有:
for(j=i+2;i (3) ifB(xi)=B(xi),Nij←φ (4) 其中,i代表數據條件屬性個數,j代表數據決策屬性個數,N代表internet數據屬性集合矩陣。 4)將2)中的每個internet數據屬性子式集合添加到XLOP(A,B)中; 5)輸出internet數據屬性集合矩陣N,約簡集XLOP(A,B)。 綜上所述,利用上述建立的異構式分布下的internet數據的特征選擇決策系統,完成對異構式分布下的internet數據的特征提取和數據特征選擇過程。 在異構式分布下的internet數據挖掘中為了提高數據挖掘質量,必須對internet數據進行過濾,基于本體論的異構式分布下的internet數據挖掘優化方法利用的是信息熵對internet數據進行過濾,利用信息熵的過濾理論值對internet數據過濾條件值IT進行輸入: IT=(U,At,Vx,Ix) (5) 則輸出為: (6) 其中,U代表internet每一屬性對應的數據屬性值集,V代表異構式分布下的internet數據挖掘樣本的期望信息值,V′代表internet過濾數據挖掘樣本的期望信息值,I代表internet數據過濾過程中的信息函數值,I′代表internet數據過濾過程中的信息熵理論值,t代表internet數據屬性均值,x代表internet數據屬性值。 使每個internet數據屬性值x∈At,對異構分布下的internet數據屬性值進行排序,對于非internet數據屬性值,假設其屬性值為有序關系可以將其轉化成數據數值序,此步驟在異構分布下的internet數據值排序過程進行了優化,使非internet數據屬性也可以排序。完成排序后,要對每個internet數據屬性值x∈At依據信息熵的過濾信息函數執行以下步驟。 fori=1toK-1 (7) 其中,K代表利用信息熵對異構式分布下的internet數據過濾的最大指定過濾值。則利用信息熵對異構分布下的internet數據過濾可定義為: (8) 其中,H代表信息熵對異構分布下的internet數據過濾的定義值,p代表internet數據屬性概率分布值。 當異構分布下的internet數據不斷增加時,信息熵數據過濾的理論值變動很小,則輸出最佳過濾值,完成對異構分布下的internet數據的過濾。 綜上所述,異構式分布下的internet數據預處理主要由數據特征選擇和數據過濾組成,數據的預處理提高了數據挖掘的質量,減少了數據挖掘的時間。 1.2 異構式分布下的internet數據挖掘 在完成基于成本體論的異構式分布下的internet數據挖掘的數據預處理后,采用決策樹算法對異構式分布下的internet數據進行挖掘。具體方法如下: 決策樹算法依據自上而下的方式構造異構式分布下的internet數據挖掘決策樹,分為internet數據決策樹生成與internet數據決策樹剪枝,本文對internet數據決策樹剪枝不做研究。internet數據決策樹生成算法利用信息增益來選擇異構式分布下的internet數據中最好的挖掘屬性,信息增益具體計算方式如下: 假設有m個信息,挖掘的數據屬性概率分布為: p=(p1,p2,…pm) (9) 則該異構式分布下的internet數據挖掘樣本S的期望信息值: (10) 其中,S代表異構式分布下的internet數據挖掘中的樣本總數,m代表信息增益中的信息個數。 給定的異構式分布下的internet數據挖掘樣本si∈S,internet數據挖掘樣本總數為Si,根據異構式分布下的internet數據挖掘類別屬性值將si劃分為z個數據類別屬性子集,每個數據挖掘類別子集中包含的異構式分布下的internet數據挖掘樣本數為sij,則internet數據挖掘屬性概率分布如式(10)所示: p=(Si1/Si,Si2/Si,…,Siz/Si) (11) 根據公式(10)得知internet數據挖掘樣本si的期望信息值為I(si)=I(p)。異構式分布下的internet數據挖掘樣本集S的熵為: (12) 異構式分布下的internet數據挖掘樣本S的信息增益值為: Y(S)=I(S)-E(S) (13) 其中,Y代表異構式分布下的internet數據挖掘的信息增益值,E代表異構式分布下的internet數據挖掘樣本集的熵。 對上述過程進行迭代計算,直到滿足下列條件之一結束迭代計算:1)給定的internet數據結點的所有樣本屬于同一分類;2)沒有多余的internet數據屬性可以進一步劃分數據屬性樣本;3)異構式分布下的internet數據分支屬性樣本為空。至此完成對異構式分布下的internet數據挖掘。 為了證明基于本體論的異構式分布下的internet數據挖掘優化方法的有效性,需要進行一次仿真實驗。在Visual C的環境下搭建異構式分布下的internet數據挖掘實驗仿真平臺。實驗數據取自于SPSS Clementine11.1數據挖掘系統,在該實驗中,利用本體論對SPSS Clementine11.1數據系統中的異構式分布下的internet數據進行高質量挖掘。表1是對基于文本論的異構式分布下的internet數據挖掘優化方法中特征選擇數據量(萬個)與其選擇效率(%)之間關系的描述。 表1 internet數據挖掘中數據特征選擇與選擇效率關系 通過表1中的各項數據明顯看出基于文本論的異構式分布下的internet數據挖掘優化方法是安全可靠的。在表中數據特征選擇效率雖然隨著特征選擇數據量的增加而不斷波動,但選擇效率基本在90%以上,更加說明了基于文本論的異構式分布下的internet數據挖掘優化方法的整體有效性。表2是對基于文本論的異構式分布下的internet數據挖掘優化方法中過濾數據量(萬個)與過濾所用時間(s)的關系描述。 表2 internet數據挖掘中數據過濾與所用時間關系 表2中對基于文本論的異構式分布下的internet數據挖掘優化方法中過濾數據量與其所用時間的關系描述中過濾數據所用時間隨著過濾數據量的增加波動相對較小,說明本文所提的數據挖掘優化方法時間消耗較少,進一步證明了基于文本論的異構式分布下的internet數據挖掘優化方法的可實現性。圖1是對文獻[9]所提挖掘方法與本文方法挖掘效率(%)的對比。 圖1中文獻[9]所提挖掘方法挖掘效率隨著挖掘數據量的增加處于波動較大狀態。本文所提數據挖掘優化方法挖掘效率處于平穩波動狀態,且挖掘效率較高,明顯優于文獻[9]所提挖掘方法,這主要是因為利用本文所提方法進行數據挖掘 圖1 不同方法下挖掘效率對比 時對異構式分布下的internet數據挖掘時,利用最大間隔算法對internet數據進行特征提取、依據internet數據的特征選擇決策系統對internet數據進行特征選擇,以及采用信息熵對internet數據進行過濾的異構式分布下的internet數據挖掘預處理工作。為異構式分布下的internet數據挖掘打下了堅實基礎,有利于對異構式分布下的internet數據進行高效率挖掘。圖2是文獻[8]所提挖掘方法與本文所提方法誤差率(%)的對比。 圖2 數據挖掘誤差率 圖2中本文所提基于文本論的異構式分布下的internet數據挖掘優化方法挖掘的誤差率明顯低于文獻[8]所提挖掘方法,本文所提方法數據挖掘誤差率在額定的數據挖掘數量持續增加中波動狀態相對穩定,且一直在5%以下。主要是因為internet數據決策樹的生成在數據挖掘過程中起著不可或缺的輔助作用,提高了異構式分布下的internet數據挖掘的準確率,有效增加了本文所提方法的可行性和優化性。 仿真實驗證明,本文所提基于文本論的異構式分布下的internet數據挖掘優化方法可以精確地對異構式分布下的internet數據進行挖掘,保障了internet數據挖掘的整體有效性,提高了數據挖掘的速度,為該領域的研究發展提供了可靠依據。 采用當前方法對異構式分布下的internet進行數據挖掘時,無法高精度、高效率地實現異構式分布下的internet數據挖掘,存在挖掘誤差率高、速度慢、不安全的問題。提出一種基于文本論的異構式分布下的internet數據挖掘優化方法。通過仿真實驗證明,所提方法可以精準地對異構式分布下的internet數據進行挖掘,具有良好的應用價值,是切實可行的。 [1]呂 佳,陳東生.基于聚類算法的服裝感性數據挖掘方法[J].紡織學報,2014,35(5):108-112. [2]王 磊,張永堅,賈繼鵬,等.基于Hadoop的公共建筑能耗數據挖掘方法[J].計算機系統應用,2016,25(3):34-42. [3]劉青鳳,李紅蘭.基于數據挖掘方法的風力渦輪機狀態監測技術研究[J].計算機測量與控制,2014,22(5):1336-1339. [4]柳萌萌,趙書良,韓玉輝,等.多尺度數據挖掘方法[J].軟件學報,2016,27(12):3030-3050. [5]丁騁騁,邱 瑾.性別與信用:非法集資主角的微觀個體特征——基于網絡數據挖掘的分析[J].財貿經濟,2016,37(3):78-94. [6]楊丹丹.搜索引擎及網絡數據挖掘相關技術研究[J].數字化用戶,2014,20(11):126-126. [7]方永美,熊俊濤,楊振剛,等.基于貝葉斯網絡數據挖掘的蔬菜質量安全分析[J].湖北農業科學,2016,55(23):6253-6257. [8]肖志軍.一種面向社會網絡的熱點話題數據挖掘算法[J].計算機應用與軟件,2014,31(6):24-28. [9]許學添,鄒同浩.網絡數據庫中隱蔽數據快速挖掘方法研究[J].電子設計工程,2016,24(24):15-18. [10]余國清,周蘭蓉.一種公共網絡攻擊數據挖掘智能算法研究[J].計算機測量與控制,2016,24(10):190-193. Under the Heterogeneous Distribution of Internet Data Mining Method Optimization Research Lin Mingfang (School of Information Engineering, GuangDong Engineering Polytechnic,Guangzhou 510520,China) In order to improve the utilization rate of the Internet data under the heterogeneous type distribution, increase the diversification of the Internet use function and data transfer rate, reduce the operation of the Internet time, needs to be under the heterogeneous distribution of Internet data mining. The current data mining method is to adopt the visual function of SOM system under the heterogeneous distribution of Internet data clustering, then according to the clustering results of calculation with heterogeneous distribution of Internet data mining. But this method is a complex process of operation, regular Internet data missing problem. To this end, this paper proposes a heterogeneous distribution based on ontology of Internet data mining method. The method of first selection under the heterogeneous distribution of Internet data preprocessing the data characteristics, and use the feature selection decision-making system for mining data feature selection, on the basis of using information entropy under the heterogeneous distribution of Internet data filter, filter by information entropy in the process of data, the change of the theoretical value of reducing data filtering to get the best value, and finally on the basis of the pretreatment of the data obtained from the information, using the decision tree generation algorithm of iterative calculation results of information gain value to high precision under the heterogeneous distribution of Internet data mining. Simulation experimental results show that the proposed method improves the heterogeneous distribution of Internet data operation flexibility, increased the recycled utilization rate of Internet data, makes the heterogeneous distribution of the Internet more concise, efficient operation, the research in the field development provides a strong basis. heterogeneous distribution of; internet; data mining methods; optimization research 2017-03-30; 2017-04-24。 廣東省科學技術廳項目(2014A010103008);廣東省高等職業教育教學改革項目(20140116);廣東省高等職業教育品牌專業建設項目-廣東工程職業技術學院軟件技術專業(2016gzpp031)。 林明方(1981-),男,廣州梅州人,碩士,高級工程師,主要從事嵌入式技術與應用、軟件工程技術方向的研究。 1671-4598(2017)07-0282-03 10.16526/j.cnki.11-4762/tp.2017.07.070 TP311 A
2 仿真實驗結果與分析




3 結束語