張科星



摘 要: 網絡大數據平臺中特征數據的有效分類,是提高網民查詢體驗、開發新型應用的有效途徑。為此,設計穩定性好、資源占用率低的網絡大數據平臺特征數據分類系統。系統的顯示端是網民的直接應用端,其主要進行網絡大數據的獲取、大數據獲取結果的顯示和特征分類結果的顯示。服務端利用SOA體系結構為網絡大數據平臺提供特征數據的分類服務,其將特征數據的分類標準納入到網絡大數據中,并傳遞給邏輯層處理端。邏輯層處理端根據特征數據分類標準,利用云計算和策略設計對網絡大數據集合進行特征提取,其特征提取算法于軟件中給出。特征數據分類端根據邏輯層處理端所提取出的大數據特征,利用特征向量機進行特征數據的自動分類工作。實驗結果表明,所設計的系統穩定性好、資源占用率低。
關鍵詞: 網絡大數據平臺; 特征數據分類系統; 分類服務; 云計算
中圖分類號: TN711?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)08?0025?04
Design and implementation of feature data classification system in
network big data platform
ZHANG Kexing
(Taiyuan University, Taiyuan 030012, China)
Abstract: Effective classification of the characteristics data of the network big data platform is to improve the Internet query experience of netizens, and an effective way to develop new applications. Therefore, a characteristic data classification system with good stability and low resource utilization was designed for the network large data platform. The system′s display terminal is the direct application client of netizens, which is used to acquire the network big data, and display the data acquisition result and feature classification result. The server utilizes SOA architecture to provide the classification service of the characteristics data for network big data platform. The classification standard of characteristic data is brought into network large data, and passed to the logic layer processing side, which extracts the characteristics of network big data set according to the characteristic data classification standard, cloud computing and strategy design. The feature extraction algorithm is given in the third paragraph of this paper. Feature data classification end classifies the characteristics data automatically by using the feature vector machine (SVM) according to the big data characteristics extracted by logic layer processing side. The experimental results show that the designed system has high stability, low resource utilization.
Keywords: network big data platform; characteristic data classification system; classification service; cloud computing
0 引 言
隨著科技的不斷進步,網絡大數據時代悄然來臨,為了各國網民提供了更為高效、便捷的服務。網絡大數據平臺中的特征數據的有效分類,是提高網民查詢體驗、開發新型應用的有效途徑[1?3]。以往設計出的網絡大數據平臺特征數據分類系統,未能合理分析大數據的固有特征趨勢,穩定性不高并造成了系統運行資源的浪費。故能否設計出一種穩定性好、資源占用率低的網絡大數據平臺特征數據分類系統,是特征分類領域關注的重點內容[4?6]。
曾設計出的網絡大數據平臺特征數據分類系統都或多或少地存在一些問題。如文獻[7]設計基于信息互動的網絡大數據平臺特征數據分類系統,此系統以信息互動這一學習方式,對網絡大數據平臺中的特征數據進行對比互動分析,并利用軟件設計出迭代算法,對特征數據進行“再教育”,進而將其準確分類。此系統的準確性高、資源占用率低,但穩定性欠佳。文獻[8]設計基于語義的網絡大數據平臺特征數據分類系統,此系統根據語義方式對網絡大數據進行相似搜索,并在網絡大數據平臺的資源庫中構建語義特征向量,通過計算特征向量的角度對特征數據進行分類。整個系統利用分布式設計,擁有較高的穩定性,但其資源占用率較高。文獻[9]設計基于地圖縮放模型的網絡大數據平臺特征數據分類系統,此系統將AVM算法引入網絡大數據平臺中,并構建地圖縮放模型,將特征數據準確提取并分類。但此系統只能用于數據量較少的網絡大數據平臺中,數據量過多時,系統的穩定性較低。
為了解決以上問題,設計穩定性好、資源占用率低的網絡大數據平臺特征數據分類系統。實驗結果證明,所設計的系統能夠較好地實現設計初衷,為特征分類領域指引了新的方向。
1 網絡大數據平臺中的特征數據分類系統設計
所設計的網絡大數據平臺特征數據分類系統是基于SOA體系結構和云計算設計的。SOA體系結構能夠根據網民需求,將網絡大數據進行分布式配置,其應用價值是無法估量的。將云計算凌駕于SOA體系結構基礎上進行系統設計,則大大增強了云計算的兼容性和穩定性,使穩定性好、資源占用率低的特征數據分類工作得以實現。
1.1 顯示端設計
顯示端是網民的直接應用端,其主要進行網絡大數據的獲取、大數據獲取結果的顯示和特征分類結果的顯示。對于不同的網絡大數據平臺,顯示端所進行的工作流程并不相同,這需要根據實際情況進行分析。
顯示端為網民提供了非常簡單易懂的交互頁面,便于網民的操作以及系統的自管理。網絡大數據平臺特征數據分類系統對網絡大數據的特征數據分類結果,是按照一定的分類標準進行統計并顯示的,顯示方法主要是文字、圖形和視頻。網絡大數據的獲取工作一部分是根據網民個性化定制的,但大部分的網絡大數據還是基于網絡大數據平臺特征數據分類系統的預設參數進行的。顯示端所獲取到大數據將傳輸到服務端。
1.2 服務端設計
服務端是網絡大數據平臺特征數據分類系統的基礎,其能夠接受軟件的直接調用,為特征數據的準確分類提供技術支持。服務端利用SOA體系結構為網絡大數據平臺提供特征數據的分類服務,并將特征數據的分類標準納入到網絡大數據中。圖1是SOA對外接口示意圖。由圖1可知,SOA的接口是中立的,并與網絡大數據平臺特征數據分類系統的硬件設施和編程軟件獨立開來,使進入服務端的網絡大數據均通過相同的流程進行交互,以縮減系統資源利用率、增強系統穩定性。基于SOA的服務端的大數據傳輸接口分為兩種,一種是同顯示端的輸入接口,另一種是同邏輯層處理端的輸出接口,如圖2所示。
圖2中,服務端上部是其與顯示端的輸入接口,下部是與邏輯層處理端的輸出接口。輸入接口的輸入數據主要作為服務端設定標準的借鑒參數,包括接口參數和后臺分類參數。服務端根據以上兩種參數設定自身的處理參數,包括軟件調用參數和后臺運行參數,這兩種參數主要進行大數據目標層后臺操作和網民返還的標準制定。同時,顯示端獲取到的網絡大數據將以集合形式無差別地傳輸到服務端處理并存儲。
輸出接口能夠將服務端所制定的特征數據分類標準傳輸到邏輯層處理端,包括網民的個性化分類標準和系統的后臺操作標準,網絡大數據仍將以集合的形式無差別傳輸。
1.3 邏輯層處理端設計
邏輯層處理端能夠實現服務端所制定的特征數據分類標準,并利用云計算對網絡大數據集合進行特征提取。邏輯層處理端根據特征數據分類標準,首先對網絡大數據集合開始定性分析,并對分析結果進行管理。
為了提高網絡大數據平臺特征數據分類系統的穩定性,邏輯層處理端的定性分析工作主要通過云計算和策略設計進行,云計算先將網絡大數據集合從傳輸接口中調出,再經由大數據坐標系構建、大數據更正和限制等計算操作,給出網絡大數據特征類型,為策略設計的特征提取工作打下堅實的基礎。圖3是策略設計原理圖。
由圖3可知,策略設計由網絡環境、策略和策略實施三步驟組成,這三個步驟雖然是相互封裝進行的,但也存在一定的關聯性。策略設計首先檢測網絡環境,再給出特征數據的提取策略。特征數據提取策略的實施是雙向進行的,通常給出A,B兩種通道同時開始實施工作。邏輯層處理端將網絡大數據的特征提取出來后,網絡大數據平臺特征數據分類系統將進入最終處理流程,這項工作是經由特征數據分類端完成的。
1.4 特征數據分類端設計
特征數據分類端能夠實現人工操作的完全解放,其根據邏輯層處理端所提取出的大數據特征,利用分類器進行特征數據的自動分類工作。圖4是特征數據分類端給出的特征數據最優分類原理圖。
由圖4可知,特征數據分類端所設計的特征數據最優分類原理,是基于特征向量機這一分類器實現的。特征向量機是一種將統計學應用于特征數據分類工作的設備,其運算精準,有很高的工作效率,且對網絡大數據類型的分類限制較少,有效簡化了網絡大數據平臺特征數據分類系統的工作流程,縮減了系統的資源占用率。
特征向量機根據邏輯層處理端提取出的網絡大數據特征,將網絡大數據分解成向量形式,其中的支持向量將被分配到兩端,一端用于接收與特征數據無關的向量,另一端則經由最優超平面進行分類。特征向量機的分類間隔由特征數據分類端根據網絡的實際情況進行設置。
2 特征數據分類系統軟件設計
所設計的網絡大數據平臺特征數據分類系統需要對網絡大數據的特征提取,才能進行特征數據的分類工作。由于網絡大數據類型過多,無法一一列出,故以其中的多媒體大數據為例,給出特征提取算法。多媒體大數據的時域特征雖在特征分類中很少應用,但對于特定的多媒體大數據來講卻是不可缺少的;頻域則應用較多。因此,系統對多媒體大數據的時域和頻域分別進行了特征提取。
2.1 時域特征提取算法
時域特征主要包括瞬時能量及其均方值、過零率以及高過零幀比。
瞬時能量的單位通常是幀,對網絡大數據中的多媒體大數據來講,一般是將每幀的參照點幅值的平方和作為時間同多媒體大數據增減的參照能量值,其表達式如下:
多媒體大數據中語音信號的不同音色往往交替出現,這將造成過零率波動趨勢的增大,高過零幀比較大;而視頻信號的音色波動卻不明顯,高過零幀比較小。根據以上原理能夠準確進行多媒體大數據的特征分類。
2.2 頻域特征提取算法
時域特征主要進行多媒體大數據中梅爾頻率倒譜系數和線性預測系數的特征提取,其對頻譜以及子帶能量等的特征提取均為輔助提取。
梅爾頻率倒譜系數是一種對梅爾尺度等距劃分頻帶的特征,其擁有較高的抵抗噪音能力,且與頻率具有線性關系。因此,常將梅爾頻率倒譜系數作為多媒體大數據頻率特征的替代特征。若想獲取梅爾頻率倒譜系數,軟件需對多媒體大數據進行語音加重、幀分類、添窗等處理,此時將獲取到幀的時域信號用表示。對幀的時域信號進行傅里葉變換后將獲取到離散頻譜,用表示,則離散頻譜的表達式為:
3 實驗驗證
實驗對本文所設計的網絡大數據平臺特征數據分類系統的穩定性和資源占用率進行了驗證。實驗選取兩種類型不同的網絡大數據平臺(分別編號為平臺1和平臺2),驗證本文系統的穩定性和資源占用率。實驗結果如表1~表3所示。
由表1和表2可知,召回率和F1值代表著本文系統對特征數據分類水平的預測值。本文系統在平臺1和平臺2中,均具有較高的分類準確率,且平臺的分類準確率、召回率和F1值結果相差不大,驗證了本文的穩定性較好。由表3可知,本文系統的CPU占用率實驗結果范圍為[48%,58%],內存占用率實驗結果范圍為[20%,33%]。而以往研究出的網絡大數據平臺特征數據分類系統的CPU占用率和內存占用率大致在70%和40%,驗證了本文系統資源占用率低。
4 結 論
本文設計穩定性好、資源占用率低的網絡大數據平臺特征數據分類系統。系統的顯示端是網民的直接應用端,其主要進行網絡大數據的獲取、大數據獲取結果的顯示和特征分類結果的顯示工作。服務端利用SOA體系結構為網絡大數據平臺提供特征數據的分類服務,其將特征數據的分類標準納入到網絡大數據中,并傳遞給邏輯層處理端。邏輯層處理端利用云計算對網絡大數據集合進行特征提取,其特征提取算法于軟件中給出。特征數據分類端根據邏輯層處理端所提取出的大數據特征,利用特征向量機進行特征數據的自動分類工作。實驗結果表明,所設計的系統穩定性好、資源占用率低。
參考文獻
[1] 尹曉華,胡楠,劉為,等.OpenFlow在電力大數據平臺中的應用[J].電力建設,2015,36(3):43?48.
[2] 李維乾,李莉,張曉濱,等.Hadoop平臺下突發水污染應急預案并行化處置[J].西安工程大學學報,2015,29(6):733?739.
[3] 樸雪,張立,俞嘯,等.面向醫療大數據平臺的異構網絡網關的設計[J].自動化儀表,2015,36(9):42?44.
[4] 王昌輝.云計算設備中的大數據特征高效分類挖掘方法研究[J].現代電子技術,2015,38(22):55?58.
[5] 林海.基于SO平臺的4G網絡大數據優化分析手段研究[J].新媒體研究,2015,1(9):18?19.
[6] 關培源,陳志剛,王云華,等.基于移動醫療大數據平臺下降低能量消耗機會網絡的研究與應用[J].計算機應用研究,2015,32(12):3790?3793.
[7] 吳純青,任沛閣,王小峰.基于語義的網絡大數據組織與搜索[J].計算機學報,2015,38(1):1?17.
[8] 張建,孫銘,段娟.基于大數據平臺的精準廣告系統研究與設計[J].電腦與信息技術,2015,23(4):47?50.
[9] 張兆楠,萬錄品.基于移動互聯網及大數據的學校心理健康自服務系統的研究[J].移動通信,2016,40(5):35?40.