魯江
(西安醫(yī)學(xué)院,陜西西安 710021)
對(duì)于使用頻率較高、使用時(shí)間長(zhǎng)的用戶,通過移動(dòng)網(wǎng)絡(luò)訪問虛擬社區(qū)進(jìn)行活動(dòng)是非常方便的。由于受到移動(dòng)終端功能限制,不能明確虛擬社區(qū)用戶使用狀況,也不能及時(shí)實(shí)時(shí)跟蹤網(wǎng)絡(luò)信息。為了能夠從海量數(shù)據(jù)中挖掘到有用的信息,需要對(duì)各種數(shù)據(jù)進(jìn)行充分挖掘,從而使每一種數(shù)據(jù)都能夠被有效利用。李國(guó)棟等人提出了基于關(guān)聯(lián)分析算法的冗余數(shù)據(jù)挖掘技術(shù),該技術(shù)將各冗余數(shù)據(jù)和基本數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,建立冗余數(shù)據(jù)相關(guān)性指數(shù)模型,將冗余數(shù)據(jù)檢驗(yàn)準(zhǔn)則引入到虛低維冗余數(shù)據(jù)挖掘中,以此快速獲取相關(guān)的數(shù)據(jù)挖掘結(jié)果[1];李珺等人提出了基于改進(jìn)的K-means 的挖掘方法,該方法利用K-means方法選擇初始聚類中心點(diǎn),通過迭代處理聚類數(shù)據(jù),以此獲取相關(guān)的數(shù)據(jù)挖掘結(jié)果[2]。盡管以上兩種方法都能很好地解決海量數(shù)據(jù)挖掘的問題,但由于大量的數(shù)據(jù)集存在大量的低維冗余數(shù)據(jù),因此,如何更好地進(jìn)行低維冗余數(shù)據(jù)成為當(dāng)前一個(gè)熱門話題。為此,設(shè)計(jì)了虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù)快速挖掘系統(tǒng),并通過實(shí)驗(yàn)驗(yàn)證了該系統(tǒng)的有效性。
為了實(shí)現(xiàn)對(duì)冗余數(shù)據(jù)快速挖掘系統(tǒng)開發(fā)與設(shè)計(jì),采用三層結(jié)構(gòu)方式設(shè)計(jì)系統(tǒng)架構(gòu),具體如圖1所示。

圖1 數(shù)據(jù)快速挖掘系統(tǒng)架構(gòu)
該系統(tǒng)是由應(yīng)用層、網(wǎng)絡(luò)層、感知層、處理層四個(gè)層次組成的。其中應(yīng)用層主要為n個(gè)用戶組成的層次,該層中在不考慮基礎(chǔ)數(shù)據(jù)來源和數(shù)據(jù)結(jié)構(gòu)的前提下,利用全局?jǐn)?shù)據(jù)挖掘的中間件來獲取所需要數(shù)據(jù)[3-5];網(wǎng)絡(luò)層通過以太網(wǎng)通信網(wǎng)絡(luò)模塊連接數(shù)據(jù)庫(kù)管理器和設(shè)備控制器。處理層的主要功能是與底層異質(zhì)數(shù)據(jù)進(jìn)行交互,子挖掘模塊通過挖掘底層信息資源來獲取全局信息挖掘結(jié)果[6]。知識(shí)處理和MySQL 模塊是數(shù)據(jù)集成與存儲(chǔ)管理的重要組成部分;感知層是數(shù)據(jù)挖掘的重要層次,利用激光器和RFID 技術(shù)實(shí)現(xiàn)數(shù)據(jù)采集。
所設(shè)計(jì)的系統(tǒng)采用16/32 位ARM72TDI 芯片作為數(shù)據(jù)采集模塊,具體如圖2 所示。

圖2 數(shù)據(jù)采集器結(jié)構(gòu)
數(shù)據(jù)采集器一般是用來儲(chǔ)存及存取計(jì)算機(jī)數(shù)據(jù)的,主要有兩個(gè)基本組件,一個(gè)是用來讀取收集數(shù)據(jù)的;另外一個(gè)是用來儲(chǔ)存和獲取數(shù)據(jù)的[7-9]。它集成了原始數(shù)據(jù)存取與分析功能,以實(shí)現(xiàn)快速查詢、快速儲(chǔ)存及數(shù)據(jù)快速傳送等目標(biāo)。在使用此數(shù)據(jù)采集器時(shí),要特別注意內(nèi)容如下:
首先,在訪問原始數(shù)據(jù)時(shí),必須以注冊(cè)名稱、密碼等方式進(jìn)行注冊(cè),以保證使用者身份的合法性[10];其次,填寫個(gè)人信息,并進(jìn)行身份驗(yàn)證;要避免終端用戶在獲得原始數(shù)據(jù)時(shí)受到的惡意騷擾、垃圾郵件、信息泄露等非法干擾;最后,根據(jù)采集到的數(shù)據(jù),選取適當(dāng)?shù)姆绞竭M(jìn)行數(shù)據(jù)讀取與傳送。
冗余數(shù)據(jù)挖掘系統(tǒng)的核心控制部分是中心處理器,利用嵌入式的設(shè)計(jì)思想,構(gòu)建了一種用于采集RF 識(shí)別信號(hào)的RFID,通過CPLD 生成DSP 中斷信號(hào),從而對(duì)冗余數(shù)據(jù)采集結(jié)果進(jìn)行集中處理[11]。中央處理器結(jié)構(gòu)如圖3 所示。

圖3 中央處理器結(jié)構(gòu)
中央處理器采用雙重供電方式,將其分成兩部分,一部分用于供電,一部分用于再配置,以確保系統(tǒng)穩(wěn)定工作。系統(tǒng)的電源信號(hào)是nPOR,包括一個(gè)重新設(shè)置芯片,用以控制整個(gè)電源[12]。由于中央處理器的電壓等級(jí)很高,所以其供電模式也很復(fù)雜,從外部輸入到內(nèi)部的電壓是不同的,所以電壓偏移是由輸入的電流來調(diào)節(jié)的。在電源模塊中設(shè)定DC,并在電源端子上提供正電壓[13]。
在屬性受限情況下,使用關(guān)聯(lián)規(guī)則處理虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù)。假設(shè)低維冗余聚類數(shù)據(jù)集為S,該集合的支持度計(jì)算公式如下:
式中,Gx表示ID 為x的數(shù)據(jù)塊;Ax表示存儲(chǔ)S的數(shù)據(jù)庫(kù)。當(dāng)計(jì)算結(jié)果大于閾值時(shí),說明低維冗余數(shù)據(jù)集之間不具有相關(guān)性,無法對(duì)其進(jìn)行挖掘[14];反之,當(dāng)計(jì)算結(jié)果小于閾值時(shí),說明低維冗余數(shù)據(jù)集之間具有相關(guān)性,可將挖掘問題轉(zhuǎn)換為頻繁項(xiàng)集挖掘問題。
在系統(tǒng)軟件設(shè)計(jì)過程中,需要對(duì)數(shù)據(jù)進(jìn)行相關(guān)處理,主要目的是整合大量的原始數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化為可查詢、可解析的數(shù)據(jù),從而實(shí)現(xiàn)高精準(zhǔn)快速的虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù)挖掘。
從數(shù)據(jù)維度上來說,由于大量的社交實(shí)體數(shù)據(jù)被分散在不同的網(wǎng)絡(luò)中,因此要從不同的網(wǎng)絡(luò)中抽取這些數(shù)據(jù),必須要以大量的網(wǎng)絡(luò)節(jié)點(diǎn)作為支撐[15]。從應(yīng)用角度來說,有必要對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)間連接(如微博上的熱門帖子)、節(jié)點(diǎn)和用戶之間的連接(如應(yīng)用商店、微信等)內(nèi)容進(jìn)行結(jié)構(gòu)化處理,以提升數(shù)據(jù)挖掘效率。
對(duì)于數(shù)據(jù)結(jié)構(gòu)化處理,需先假設(shè)虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù)流[16]為:
使用自適應(yīng)特征調(diào)度方法,構(gòu)建數(shù)據(jù)聚類相似性函數(shù),可表示為:
式中,li表示經(jīng)過i次數(shù)據(jù)處理的空間頻譜特征伸縮尺度;λn表示第n個(gè)寬頻帶分量。利用四階累積量切片進(jìn)行數(shù)據(jù)壓縮,四階累積量切片可以表示為:
式中,δ表示空間頻譜特征。通過該處理結(jié)果,為數(shù)據(jù)快速挖掘提供數(shù)據(jù)支持。
由于虛擬社區(qū)的虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù)量很大,因此數(shù)據(jù)之間具有許多無關(guān)屬性,從而影響數(shù)據(jù)挖掘精度與效率。在虛擬社區(qū)網(wǎng)絡(luò)中,每個(gè)用戶的關(guān)聯(lián)度都不相同,所以引入加權(quán)系數(shù),以求出各節(jié)點(diǎn)間的相似性,利用矢量角度的余弦求取相似性,其表達(dá)式為:
式中,a1i、b2i分別表示數(shù)據(jù)s1、s2中的元素。根據(jù)虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù)之間相似度,分析虛擬社區(qū)網(wǎng)絡(luò)用戶之間的多重關(guān)系。根據(jù)用戶多重關(guān)系分析結(jié)果,利用高斯濾波器進(jìn)行數(shù)據(jù)融合,由此得到的主要特征成分為:
式中,t(s)表示時(shí)間序列;ei2πqt表示指數(shù)函數(shù);q表示數(shù)據(jù)分布參數(shù)。在此基礎(chǔ)上,使用鄰域空間交叉融合法,提取數(shù)據(jù)本體結(jié)構(gòu)屬性,結(jié)果為:
式中,φ0表示數(shù)據(jù)鄰域空間;xn-i表示方差噪聲;δi表示數(shù)據(jù)基本屬性;ηn-i表示均值噪聲。在此基礎(chǔ)上,結(jié)合數(shù)據(jù)本體結(jié)構(gòu)特征,對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行了標(biāo)量輸出,以此實(shí)現(xiàn)虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù)快速挖掘。
在Windows 操作系統(tǒng)下,對(duì)所設(shè)計(jì)的虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù)快速挖掘系統(tǒng)合理性進(jìn)行測(cè)試,并將測(cè)試結(jié)果進(jìn)行對(duì)比,以分析系統(tǒng)優(yōu)越性能。
假設(shè)已知存在兩個(gè)數(shù)據(jù)庫(kù)D1、D2,分別存在著W1、W2兩個(gè)數(shù)據(jù)集,最小支持度為1/3,由此可知。在虛擬社群中,最少支持?jǐn)?shù)不低于2 的候選項(xiàng)目集合為本地最大項(xiàng)目集合,設(shè)置全局最大頻繁項(xiàng)集支持度合計(jì)數(shù)必須大于或等于4。在全局知識(shí)XML 文檔中將待挖掘低維冗余數(shù)據(jù)包裝成XML格式,并將數(shù)據(jù)進(jìn)行合并,得到如圖4 所示的結(jié)果。

圖4 實(shí)際結(jié)果
由圖4 可得到實(shí)際挖掘結(jié)果,將該挖掘結(jié)果作為標(biāo)準(zhǔn)進(jìn)行測(cè)試分析。
分別使用基于關(guān)聯(lián)分析算法的冗余數(shù)據(jù)挖掘技術(shù)、基于改進(jìn)的K-means 的挖掘方法和數(shù)據(jù)快速挖掘系統(tǒng)對(duì)比分析數(shù)據(jù)挖掘結(jié)果,結(jié)果如圖5 所示。

圖5 數(shù)據(jù)挖掘結(jié)果分析
由圖5 可知,使用基于關(guān)聯(lián)分析算法的冗余數(shù)據(jù)挖掘技術(shù)、基于改進(jìn)的K-means 的挖掘方法無法挖掘出低維冗余數(shù)據(jù),使用數(shù)據(jù)快速挖掘系統(tǒng)能夠挖掘出全部低維冗余數(shù)據(jù)信息。
為了進(jìn)一步驗(yàn)證所設(shè)計(jì)系統(tǒng)的挖掘效果,對(duì)比了數(shù)據(jù)挖掘耗時(shí),結(jié)果如表1 所示。

表1 挖掘耗時(shí)對(duì)比
由表1 可知,使用基于關(guān)聯(lián)分析算法的冗余數(shù)據(jù)挖掘技術(shù)的挖掘總耗時(shí)為82 s,基于改進(jìn)的Kmeans 的挖掘方法的挖掘總耗時(shí)為67 s,虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù)快速挖掘系統(tǒng)的總耗時(shí)為21.3 s。通過上述分析結(jié)果可知,使用數(shù)據(jù)快速挖掘系統(tǒng)能夠快速挖掘到虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù),效率更高。
為了提升數(shù)據(jù)挖掘質(zhì)量與速度,設(shè)計(jì)虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù)快速挖掘系統(tǒng),以期能夠解決當(dāng)前對(duì)于低維冗余數(shù)據(jù)挖掘效果不佳的問題。系統(tǒng)測(cè)試結(jié)果表明,該系統(tǒng)能夠挖掘出全部的虛擬社區(qū)網(wǎng)絡(luò)低維冗余數(shù)據(jù),且挖掘耗時(shí)較短,用戶能夠?qū)崟r(shí)地掌握使用者在虛擬社區(qū)中的使用狀況以及在虛擬社區(qū)中的各種變化,實(shí)際應(yīng)用效果好。