999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多量級(jí)應(yīng)急數(shù)據(jù)無(wú)監(jiān)督離散化方法研究

2021-04-29 03:21:54高天宇王慶榮馬辰坤
計(jì)算機(jī)工程 2021年4期
關(guān)鍵詞:差異方法

高天宇,王慶榮,楊 妍,馬辰坤

(蘭州交通大學(xué)電子與信息工程學(xué)院,蘭州 730070)

0 概述

應(yīng)急信息化響應(yīng)是國(guó)家應(yīng)急管理體制的發(fā)展趨勢(shì),數(shù)據(jù)處理與分析方法作為應(yīng)急信息化響應(yīng)的基礎(chǔ),被應(yīng)用于應(yīng)急工作的各個(gè)階段。分析應(yīng)急數(shù)據(jù)的特點(diǎn)是應(yīng)急數(shù)據(jù)處理與分析的合理性保障,連續(xù)數(shù)據(jù)的離散化是數(shù)據(jù)分析與挖掘的關(guān)鍵預(yù)處理方法,其決定最終數(shù)據(jù)處理與挖掘結(jié)果的質(zhì)量。

連續(xù)數(shù)據(jù)的離散化方法包括有監(jiān)督離散化方法和無(wú)監(jiān)督離散化方法。常用的有監(jiān)督離散化方法包括信息熵[1]、粗糙集[2]以及類-屬性關(guān)聯(lián)性[3-5]等離散化方法。信息熵離散化方法是一種基于數(shù)據(jù)混亂程度的不確定性計(jì)算方法;粗糙集離散化方法能較好地處理數(shù)據(jù)邊界的不確定性;類-屬性關(guān)聯(lián)離散化方法可應(yīng)用于數(shù)據(jù)的自動(dòng)離散和混合過程[6-7]。無(wú)監(jiān)督離散化方法主要包括等寬離散化、等頻離散化、近似等頻離散化[8-10]以及聚類離散化[11]等方法。等寬離散化方法能在不同區(qū)間保持原數(shù)據(jù)分布進(jìn)行離散,操作靈活簡(jiǎn)單;等頻離散化方法是基于數(shù)據(jù)頻率分布進(jìn)行離散;聚類離散化方法是根據(jù)數(shù)據(jù)分布采用層次聚類方式進(jìn)行離散。

目前關(guān)于有監(jiān)督離散化方法的研究重點(diǎn)針對(duì)離散化方法特點(diǎn)進(jìn)行[12],對(duì)無(wú)監(jiān)督離散化方法的研究主要圍繞數(shù)據(jù)特點(diǎn)展開[13]。然而現(xiàn)有無(wú)監(jiān)督離散化方法對(duì)應(yīng)急數(shù)據(jù)特點(diǎn)考慮不足,其采用的時(shí)間序列離散化[14]方式不適用于多量級(jí)應(yīng)急數(shù)據(jù)離散。此外,在無(wú)監(jiān)督離散化方法中,當(dāng)應(yīng)急數(shù)據(jù)量小且數(shù)據(jù)間差異較大時(shí),如果僅以離散系數(shù)為指標(biāo)進(jìn)行離散,則會(huì)出現(xiàn)大量的離散類數(shù)據(jù),導(dǎo)致離散結(jié)果失去指導(dǎo)意義。當(dāng)集中分布的數(shù)據(jù)存在多個(gè)量級(jí)差異時(shí),現(xiàn)有無(wú)監(jiān)督離散化方法難以找到全部有效的量級(jí)變化點(diǎn)。

針對(duì)應(yīng)急數(shù)據(jù)多量級(jí)差異的特點(diǎn),本文提出一種無(wú)監(jiān)督的多量級(jí)應(yīng)急數(shù)據(jù)離散化方法。在難以獲得應(yīng)急數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)時(shí),不考慮應(yīng)急數(shù)據(jù)的復(fù)雜性與數(shù)據(jù)之間的關(guān)聯(lián)性,采用擬合函數(shù)結(jié)合二階導(dǎo)數(shù)計(jì)算得到數(shù)據(jù)截?cái)帱c(diǎn),移出較大數(shù)據(jù)更新待離散數(shù)據(jù)集,并重復(fù)此操作直到完成全部數(shù)據(jù)的離散。

1 多量級(jí)應(yīng)急數(shù)據(jù)離散化

應(yīng)急數(shù)據(jù)處理較困難的主要原因在于未針對(duì)數(shù)據(jù)特點(diǎn)分別對(duì)其進(jìn)行處理,缺少對(duì)隱藏?cái)?shù)據(jù)特點(diǎn)的深度剖析。將連續(xù)數(shù)據(jù)轉(zhuǎn)換為非連續(xù)數(shù)據(jù)是一種從數(shù)據(jù)中獲取信息的方法,稱為數(shù)據(jù)離散化。連續(xù)數(shù)據(jù)可通過離散化被處理為多個(gè)離散類數(shù)據(jù),離散后集中數(shù)據(jù)類型的個(gè)數(shù)即為數(shù)據(jù)離散類個(gè)數(shù)。離散化作為一種有效的數(shù)據(jù)預(yù)處理方法,其結(jié)果對(duì)數(shù)據(jù)分析結(jié)果有本質(zhì)影響[15],在數(shù)據(jù)處理中需根據(jù)數(shù)據(jù)特征進(jìn)行離散化[16]。在離散化時(shí)可采用靜態(tài)、分類或者動(dòng)態(tài)組合等不同策略,合理的策略有助于有效挖掘數(shù)據(jù)特點(diǎn)[17]。

1.1 多量級(jí)應(yīng)急數(shù)據(jù)

應(yīng)急數(shù)據(jù)是一種特點(diǎn)明顯的數(shù)據(jù),其噪聲多且在相同數(shù)據(jù)集內(nèi)數(shù)據(jù)之間差異大,對(duì)聚類邊界與離散點(diǎn)的分析較困難[18-19]。

在應(yīng)急數(shù)據(jù)離散化過程中,具有多量級(jí)差異的數(shù)據(jù)最難離散。將數(shù)據(jù)由大到小排序后,可看到數(shù)據(jù)之間差異變化存在多個(gè)數(shù)據(jù)量級(jí)跳躍,多量級(jí)數(shù)據(jù)離散化即找到這些量級(jí)跳躍的點(diǎn)。數(shù)據(jù)集中數(shù)據(jù)之間存在多個(gè)量級(jí),其中較小數(shù)據(jù)的量級(jí)差異被隱藏,如圖1 所示(虛線框?yàn)榇x散的應(yīng)急數(shù)據(jù)集)。當(dāng)數(shù)據(jù)1 存在時(shí),數(shù)據(jù)2 易被歸為其他離散類,若去掉數(shù)據(jù)1 后再離散,則會(huì)發(fā)現(xiàn)數(shù)據(jù)2 與其他數(shù)據(jù)并非同一個(gè)離散類。

圖1 較小隱藏?cái)?shù)據(jù)的量級(jí)差異顯現(xiàn)過程Fig.1 Process of showing the magnitude difference of hidden smaller data

量級(jí)差異在傳統(tǒng)數(shù)學(xué)中主要指以“10”為冪的數(shù)據(jù)之間的差異,然而在實(shí)際研究中量級(jí)差異并不局限于此,為更好地還原事件特征,需根據(jù)實(shí)際情況重新定義量級(jí)來(lái)保留更多數(shù)據(jù)特性[20]。應(yīng)急事件中各因素的細(xì)微變化均會(huì)造成應(yīng)急數(shù)據(jù)之間的巨大差異,其中存在多個(gè)量級(jí)變化點(diǎn),利用傳統(tǒng)方法難以找出這些變化點(diǎn)。為此,本文提出一種找出隱藏變化點(diǎn)的數(shù)據(jù)離散化方法,下文先對(duì)離散化數(shù)據(jù)截?cái)帱c(diǎn)的確定進(jìn)行介紹。

1.2 多量級(jí)離散化方法

為找出數(shù)據(jù)集中各個(gè)量級(jí)的變化點(diǎn),先對(duì)數(shù)據(jù)按照大小進(jìn)行排序,再判斷數(shù)據(jù)開始突增的位置,并將該位置作為截?cái)帱c(diǎn)的截?cái)鄶?shù)據(jù)集,使截?cái)鄶?shù)據(jù)歸為一個(gè)離散類,并將剩余數(shù)據(jù)作為新數(shù)據(jù)集,然后重復(fù)上述操作直到達(dá)到所需離散量或者數(shù)據(jù)每個(gè)離散類的離散系數(shù)符合要求為止,如圖2 所示。

圖2 多量級(jí)數(shù)據(jù)的離散化過程Fig.2 Discretization process of multi-magnitudes data

在多量級(jí)數(shù)據(jù)離散化過程中,每找出一個(gè)截?cái)帱c(diǎn)就確定并去除一個(gè)離散類,然后在剩余數(shù)據(jù)中繼續(xù)尋找截?cái)帱c(diǎn),如此反復(fù)最終完成動(dòng)態(tài)的離散,同時(shí)根據(jù)需要對(duì)離散系數(shù)大于閾值要求的離散類數(shù)據(jù)重新計(jì)算截?cái)帱c(diǎn)并再次進(jìn)行截?cái)唷?/p>

1)確定擬合函數(shù)的多項(xiàng)式

使用多項(xiàng)式對(duì)數(shù)據(jù)進(jìn)行擬合,計(jì)算公式如下:

其中,x、y分別為被擬合函數(shù)的自變量和因變量,α、β、γ、η、σ為待定系數(shù)。

2)確定數(shù)據(jù)截?cái)帱c(diǎn)

若將數(shù)據(jù)中突增的數(shù)據(jù)截?cái)嗖⒄业揭粋€(gè)截?cái)帱c(diǎn),則可顯示出當(dāng)前較小數(shù)據(jù)之間的量級(jí)差異。該截?cái)帱c(diǎn)為數(shù)據(jù)突增的起始點(diǎn),截?cái)帱c(diǎn)的斜率等于擬合函數(shù)最大值與最小值連接線所在直線的斜率,對(duì)多項(xiàng)式y(tǒng)求導(dǎo)如下:

截?cái)帱c(diǎn)的判定式如下:

其中,k為截?cái)帱c(diǎn)的導(dǎo)數(shù)。

對(duì)多項(xiàng)式導(dǎo)數(shù)進(jìn)行回歸計(jì)算得到截?cái)帱c(diǎn)的位置,計(jì)算公式如下:

其中,突增點(diǎn)x_j是數(shù)據(jù)離散化所需的一個(gè)截?cái)帱c(diǎn)。

3)根據(jù)步驟1 和步驟2 得到截?cái)帱c(diǎn)后,從截?cái)帱c(diǎn)進(jìn)行數(shù)據(jù)截?cái)啵⑤^大的數(shù)據(jù)歸為一個(gè)離散類,其他數(shù)據(jù)重新執(zhí)行步驟1 和步驟2 計(jì)算下一個(gè)截?cái)帱c(diǎn),在數(shù)據(jù)呈現(xiàn)均勻分布后,統(tǒng)計(jì)所有離散類作為最終離散化結(jié)果。

2 實(shí)驗(yàn)與結(jié)果分析

本文進(jìn)行多量級(jí)應(yīng)急數(shù)據(jù)離散實(shí)驗(yàn),數(shù)據(jù)源自國(guó)家地震科學(xué)數(shù)據(jù)共享中心、國(guó)家數(shù)據(jù)網(wǎng)、中國(guó)地震臺(tái)網(wǎng)、中國(guó)應(yīng)急信息網(wǎng)以及大量的相關(guān)新聞報(bào)道和論文數(shù)據(jù),通過篩查得到99 個(gè)應(yīng)急數(shù)據(jù)用于本文研究。表1 為我國(guó)不同地區(qū)地震傷亡人數(shù)相關(guān)影響因素統(tǒng)計(jì)情況。

表1 傷亡人數(shù)相關(guān)影響因素統(tǒng)計(jì)情況Table 1 Statistical situation of influencing factors related to number of casualties

2.1 結(jié)果分析

2.1.1 多量級(jí)數(shù)據(jù)離散化

本文對(duì)地震案例中傷亡人數(shù)與災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)進(jìn)行離散化,所有案例的傷亡人數(shù)統(tǒng)計(jì)結(jié)果如圖3 所示。其中,橫坐標(biāo)為地震案例序號(hào)(以震發(fā)地省會(huì)名稱拼音排序,所有案例均從第0 個(gè)開始計(jì)數(shù))。可以看出,序號(hào)為6 的案例傷亡人數(shù)最多,其他大部分案例傷亡人數(shù)較少。在數(shù)據(jù)處理過程中,因?yàn)榇嬖谳^大數(shù)據(jù),所以較小數(shù)據(jù)之間的差異被隱藏。

圖3 傷亡人數(shù)Fig.3 Number of casualties

圖4 為將地震案例中傷亡人數(shù)由小到大排序的結(jié)果。為體現(xiàn)圖1 中的數(shù)據(jù)量級(jí)差異,從圖4 中隨機(jī)找一個(gè)截?cái)帱c(diǎn)68 對(duì)較大數(shù)據(jù)進(jìn)行截?cái)啵S鄶?shù)據(jù)的分布如圖5 所示。由圖5 可以看出,去掉部分較大數(shù)據(jù)后,剩余數(shù)據(jù)仍呈現(xiàn)指數(shù)函數(shù)的分布特點(diǎn),說(shuō)明數(shù)據(jù)中存在不止一個(gè)數(shù)據(jù)量級(jí)差異。對(duì)圖4 中按傷亡人數(shù)排序的數(shù)據(jù)進(jìn)行函數(shù)擬合,得到的擬合結(jié)果如圖6 所示。其中,離散分布的點(diǎn)表示數(shù)據(jù)值,曲線為數(shù)據(jù)點(diǎn)的擬合函數(shù)曲線。

圖4 按傷亡人數(shù)排序后的結(jié)果Fig.4 Results sorted by number of casualties

圖5 傷亡人數(shù)排序后隨機(jī)截?cái)嘟Y(jié)果Fig.5 Random truncation results after ranking of number of casualties

圖6 傷亡人數(shù)擬合結(jié)果Fig.6 Fitting result of number of casualties

由圖6 可以看出,該函數(shù)曲線在趨近末端時(shí)突然升高,這是數(shù)據(jù)的量級(jí)突然改變所致。表2 為圖6 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=4 067.95,截?cái)帱c(diǎn)x_j=87。從截?cái)帱c(diǎn)87 對(duì)數(shù)據(jù)進(jìn)行截?cái)嗤瓿傻? 次離散,得到的第1 個(gè)離散類為排序后的數(shù)據(jù)88~數(shù)據(jù)99,剩余數(shù)據(jù)為數(shù)據(jù)0~數(shù)據(jù)87。

表2 圖6 中擬合函數(shù)的參數(shù)設(shè)置Table 2 Parameter setting of fitting function in Fig.6

對(duì)第1 次數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個(gè)截?cái)帱c(diǎn),得到擬合函數(shù)曲線如圖7所示。可以看出,剩余數(shù)據(jù)分布差異仍較大,這是隱藏的數(shù)據(jù)量級(jí)差異所致。表3 為圖7 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=228.98,下一個(gè)截?cái)帱c(diǎn)為64。

圖7 第1 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果Fig.7 Fitting result of residual data after the first truncation

表3 圖7 中擬合函數(shù)的參數(shù)設(shè)置Table 3 Parameter setting of fitting function in Fig.7

從截?cái)帱c(diǎn)64 對(duì)數(shù)據(jù)進(jìn)行截?cái)啵玫降? 個(gè)離散類,對(duì)第2 次數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個(gè)截?cái)帱c(diǎn),得到擬合函數(shù)曲線如圖8 所示。表4 為圖8 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=12.86,下一個(gè)截?cái)帱c(diǎn)為39。

圖8 第2 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果Fig.8 Fitting result of residual data after the second truncation

表4 圖8 中擬合函數(shù)的參數(shù)設(shè)置Table 4 Parameter setting of fitting function in Fig.8

從截?cái)帱c(diǎn)39 對(duì)數(shù)據(jù)進(jìn)行截?cái)啵玫降? 個(gè)離散類,對(duì)第3 次數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個(gè)截?cái)帱c(diǎn),得到擬合函數(shù)曲線如圖9 所示。表5為圖9 中擬合函數(shù)的多項(xiàng)式參數(shù)設(shè)置情況,根據(jù)擬合函數(shù)曲線計(jì)算得到k=3.775,下一個(gè)截?cái)帱c(diǎn)為22。由圖9 可以看出,數(shù)據(jù)從截?cái)帱c(diǎn)39 截?cái)嗪螅浜瘮?shù)曲線數(shù)值分布較均勻,呈現(xiàn)出主要數(shù)據(jù)的量級(jí)差異,進(jìn)而獲得第4 個(gè)離散類,截?cái)帱c(diǎn)為87、64 和39。在不斷進(jìn)行數(shù)據(jù)截?cái)嗟倪^程中,每次截掉的數(shù)據(jù)都被離散為一個(gè)離散點(diǎn),對(duì)離散點(diǎn)賦值后即完成離散。

圖9 第3 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果Fig.9 Fitting result of residual data after the third truncation

表5 圖9 中擬合函數(shù)的參數(shù)設(shè)置Table 5 Parameter setting of fitting function in Fig.9

本文將數(shù)據(jù)離散量作為判定離散完成的指標(biāo),設(shè)置傷亡人數(shù)和災(zāi)區(qū)受災(zāi)人數(shù)的離散量為4,其他數(shù)據(jù)離散量為3。在將離散系數(shù)閾值作為判定條件下,當(dāng)離散系數(shù)較低時(shí)多量級(jí)應(yīng)急數(shù)據(jù)產(chǎn)生離散量過多(見2.2 節(jié)),實(shí)驗(yàn)結(jié)果不具有實(shí)際指導(dǎo)意義。

2.1.2 突增點(diǎn)的判斷

本文離散方法在計(jì)算斜率時(shí)將導(dǎo)函數(shù)的凸函數(shù)部分作為突增點(diǎn),并以地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)的截?cái)帱c(diǎn)判斷過程為例進(jìn)行分析,結(jié)果如圖10 所示(實(shí)線為數(shù)據(jù)的擬合函數(shù)曲線)。圖10(a)和圖10(b)分別為地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)原始數(shù)據(jù)擬合結(jié)果以及第1 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果。由圖10(b)可以看出,截?cái)帱c(diǎn)在數(shù)據(jù)60~數(shù)據(jù)80 范圍內(nèi)。圖10(c)為第2 次截?cái)嗪笫S鄶?shù)據(jù)的擬合結(jié)果,可以看出截?cái)嗪髷?shù)據(jù)圖像與圖10(b)的計(jì)算結(jié)果差異較大,說(shuō)明截?cái)帱c(diǎn)判斷錯(cuò)誤。在計(jì)算中將凸函數(shù)作為突增點(diǎn)是截?cái)帱c(diǎn)判斷錯(cuò)誤的原因,若在程序判斷中加入“當(dāng)二階導(dǎo)函數(shù)大于零時(shí):將一階導(dǎo)函數(shù)設(shè)置為10 000”,則在判斷式(4)計(jì)算結(jié)果的最小值時(shí)就無(wú)需考慮因凸函數(shù)產(chǎn)生的斜率。對(duì)數(shù)據(jù)截?cái)嗪蟮氖S鄶?shù)據(jù)進(jìn)行函數(shù)擬合,并計(jì)算下一個(gè)截?cái)帱c(diǎn),擬合結(jié)果如圖11 所示,可見截?cái)帱c(diǎn)回到數(shù)據(jù)60~數(shù)據(jù)80 范圍內(nèi),函數(shù)曲線上升較平緩,未出現(xiàn)突增現(xiàn)象,截?cái)帱c(diǎn)判斷錯(cuò)誤的情況消失。

圖10 地震災(zāi)區(qū)鄉(xiāng)鎮(zhèn)數(shù)截?cái)帱c(diǎn)判斷過程Fig.10 Judgment process of the cut off points of number of towns in earthquake stricken areas

圖11 截?cái)帱c(diǎn)判斷錯(cuò)誤消失Fig.11 Disappearance of error in judgment of truncation point

2.1.3 離散化結(jié)果分析

震發(fā)地受災(zāi)人數(shù)的離散、災(zāi)區(qū)人口密度數(shù)據(jù)的離散、震發(fā)地人均GDP 數(shù)據(jù)的離散等其他類型應(yīng)急數(shù)據(jù)的多量級(jí)離散化結(jié)果如圖12~圖17 所示。其中,圖12、圖14 和圖16 為各類數(shù)據(jù)未離散時(shí)的數(shù)據(jù)排序,圖13、圖15 和圖17 為各類數(shù)據(jù)離散后各離散類的數(shù)據(jù)分布。可以看出,采用本文方法離散后的數(shù)據(jù)在各離散類數(shù)量區(qū)間中分布較均勻,無(wú)較大的量級(jí)差異。為量化這種均勻性,下文從離散系數(shù)分析本文方法的必要性與合理性。

圖12 受災(zāi)人口原始數(shù)據(jù)Fig.12 Raw data of affected population

圖13 受災(zāi)人口數(shù)據(jù)的不同離散類Fig.13 Different discrete categories of affected population data

圖14 受災(zāi)人口密度原始數(shù)據(jù)Fig.14 Raw data of affected population density

圖15 受災(zāi)人口密度數(shù)據(jù)的不同離散類Fig.15 Different discrete categories of affected population density data

圖16 災(zāi)區(qū)人均GDP 原始數(shù)據(jù)Fig.16 Raw data of per capita GDP in disaster area

圖17 災(zāi)區(qū)人均GDP 數(shù)據(jù)的不同離散類Fig.17 Different discrete categories of per capita GDP data in disaster area

2.2 離散系數(shù)分析

離散系數(shù)又稱變異系數(shù),常用于衡量數(shù)據(jù)的離散程度和變異程度,其表達(dá)式為σ/-a(σ為離散標(biāo)準(zhǔn)差,-a為離散平均值)。本文利用該系數(shù)衡量各個(gè)離散類的數(shù)據(jù)均勻分布程度,同一個(gè)數(shù)據(jù)集離散系數(shù)越低,數(shù)據(jù)分布越均勻,說(shuō)明離散效果越好。

2.2.1 確定離散類個(gè)數(shù)時(shí)不同方法的離散系數(shù)

本文設(shè)定傷亡人數(shù)與受災(zāi)人數(shù)的離散類個(gè)數(shù)均為4,其他數(shù)據(jù)的離散類個(gè)數(shù)為3,計(jì)算得到不同數(shù)據(jù)集經(jīng)本文方法、層次聚類離散化方法、等頻離散化方法、等距離散化方法以及2-Flou 數(shù)離散化方法離散后的離散類平均離散系數(shù),其中2-Flou 數(shù)離散化方法是基于模糊區(qū)間與等距離散化的柔性離散化方法[21],采用不同方法得到的5 種數(shù)據(jù)集平均離散系數(shù)如表6 所示。

表6 不同方法下5 種數(shù)據(jù)集的平均離散系數(shù)Table 6 Mean values of discrete coefficients of five database with different methods

由表6 可以看出,在5 種數(shù)據(jù)集中本文方法的離散系數(shù)較其他方法有一定程度的降低,僅在災(zāi)區(qū)人均GDP 數(shù)據(jù)集中離散系數(shù)高于層次聚類離散化方法與等距離散化方法。由于層次聚類與等距離散化方法所得離散系數(shù)平均值較高,因此每個(gè)離散類包含的數(shù)據(jù)較少。綜合不同數(shù)據(jù)集的平均離散系數(shù)給出各方法的平均離散系數(shù)如表7 所示,可以看出本文方法在規(guī)定離散類個(gè)數(shù)下平均離散系數(shù)低于其他方法,其各個(gè)離散類的數(shù)據(jù)分布較均勻,證明本文方法具有一定的必要性。

表7 不同方法的平均離散系數(shù)Table 7 Average discrete coefficients of different methods

2.2.2 設(shè)定離散系數(shù)閾值后的離散類特征

從統(tǒng)計(jì)學(xué)上看,若數(shù)據(jù)集內(nèi)離散系數(shù)低于0.15,則數(shù)據(jù)集中的數(shù)據(jù)分布較均勻,否則認(rèn)為數(shù)據(jù)分布異常,可據(jù)此設(shè)定較低離散系數(shù)閾值。使用本文方法對(duì)各個(gè)大于閾值的離散類繼續(xù)離散,直到小于規(guī)定閾值,并給出兩種閾值設(shè)定方法以及數(shù)據(jù)集離散后的離散類個(gè)數(shù)、平均離散系數(shù)等離散類特征。當(dāng)閾值為0.15 和0.30 時(shí),5 種數(shù)據(jù)集的離散類特征分布分別如表8 和表9 所示。可以看出,與較高離散系數(shù)閾值下的離散結(jié)果相比,平均離散系數(shù)有所降低,最大的離散類個(gè)數(shù)達(dá)到26,大部分?jǐn)?shù)據(jù)離散后的離散類個(gè)數(shù)超過10。如果99 個(gè)數(shù)據(jù)離散后存在超過10 個(gè)離散類時(shí),則在后續(xù)粗糙集等數(shù)據(jù)分析中將難以找到數(shù)據(jù)的主要特征,此類數(shù)據(jù)離散化并未降低數(shù)據(jù)間的復(fù)雜性。由于應(yīng)急數(shù)據(jù)的量級(jí)差異變化較大,離散系數(shù)高于0.15 并不表示數(shù)據(jù)之間關(guān)聯(lián)性差,因此應(yīng)急數(shù)據(jù)需通過確定離散類個(gè)數(shù)進(jìn)行離散化。由離散類數(shù)據(jù)、離散類個(gè)數(shù)與離散類離散系數(shù)分析結(jié)果可知,本文方法具有一定的合理性。

表8 閾值為0.15 時(shí)5 種數(shù)據(jù)集的離散類特征Table 8 Discrete class characteristics of five datasets at a threshold of 0.15

表9 閾值為0.30 時(shí)5 種數(shù)據(jù)集的離散類特征Table 9 Discrete class characteristics of different datasets at a threshold of 0.30

3 結(jié)束語(yǔ)

針對(duì)具有多量級(jí)差異性的應(yīng)急數(shù)據(jù),本文提出一種無(wú)監(jiān)督的數(shù)據(jù)離散化方法。將應(yīng)急數(shù)據(jù)由大到小排序,在函數(shù)擬合的基礎(chǔ)上計(jì)算量級(jí)差異變化點(diǎn)作為數(shù)據(jù)截?cái)帱c(diǎn),對(duì)數(shù)據(jù)進(jìn)行截?cái)嘁瞥鲚^大數(shù)據(jù)完成一次離散,并不斷重復(fù)此操作直到完成全部數(shù)據(jù)離散。實(shí)驗(yàn)結(jié)果表明,該方法的離散系數(shù)較等頻離散化、層次聚類離散化等傳統(tǒng)方法更低,對(duì)隱藏多量級(jí)差異的應(yīng)急數(shù)據(jù)具有良好的離散效果。后續(xù)將針對(duì)多種復(fù)合環(huán)境影響下的地震數(shù)據(jù)進(jìn)行研究,進(jìn)一步降低該方法的離散系數(shù)并提高魯棒性。

猜你喜歡
差異方法
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
找句子差異
學(xué)習(xí)方法
DL/T 868—2014與NB/T 47014—2011主要差異比較與分析
生物為什么會(huì)有差異?
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
M1型、M2型巨噬細(xì)胞及腫瘤相關(guān)巨噬細(xì)胞中miR-146a表達(dá)的差異
主站蜘蛛池模板: 日本道中文字幕久久一区| 亚洲综合一区国产精品| 国产高清精品在线91| 国产网站免费看| 欧美h在线观看| 激情无码视频在线看| 国产打屁股免费区网站| 日韩在线视频网站| 欧美精品在线看| 高清大学生毛片一级| 香蕉在线视频网站| 91香蕉视频下载网站| 亚洲国产精品不卡在线| 久草性视频| 3p叠罗汉国产精品久久| 亚洲人成网站在线播放2019| 国产免费怡红院视频| 国产欧美亚洲精品第3页在线| 女人av社区男人的天堂| a级毛片免费播放| 国产亚洲日韩av在线| 国产精品流白浆在线观看| 中文字幕啪啪| 又黄又湿又爽的视频| 999国产精品永久免费视频精品久久| 国产精品无码翘臀在线看纯欲| 特级aaaaaaaaa毛片免费视频| 成人午夜天| 国产成人精品无码一区二| 亚洲免费毛片| 蝌蚪国产精品视频第一页| 国产精品开放后亚洲| 欧美色视频网站| 国产美女无遮挡免费视频| 欧美区国产区| 成人午夜视频网站| 国产男女免费完整版视频| 日韩精品毛片人妻AV不卡| 色偷偷一区| 免费国产黄线在线观看| 久久国产香蕉| 久久久久无码国产精品不卡| 国产一级毛片网站| 精品国产污污免费网站| 亚洲国产黄色| Jizz国产色系免费| 欧美成人在线免费| 亚洲第一成年网| 亚洲av无码人妻| 欧美va亚洲va香蕉在线| 亚洲男人在线| 免费毛片网站在线观看| 九九精品在线观看| 日韩二区三区| 亚洲综合极品香蕉久久网| 另类综合视频| 国产极品美女在线观看| 青青青国产视频手机| 国产一级毛片高清完整视频版| 精品国产福利在线| 国产成人精品午夜视频'| 国产91丝袜在线播放动漫 | 亚洲一区二区三区在线视频| 狂欢视频在线观看不卡| 18禁高潮出水呻吟娇喘蜜芽| 内射人妻无码色AV天堂| 欧美第一页在线| 成人福利在线看| 国产午夜一级毛片| 久久久久久久久18禁秘| 日韩高清一区 | 久精品色妇丰满人妻| 91精品最新国内在线播放| 久精品色妇丰满人妻| 九九线精品视频在线观看| 亚洲美女久久| 中文字幕无码制服中字| 国产精品露脸视频| 国产福利微拍精品一区二区| 国产网站在线看| 人妻丰满熟妇av五码区| 精品久久综合1区2区3区激情|