方奇超,劉華金
基于云平臺的數據處理系統開發
方奇超,劉華金
浙江越秀外國語學院, 浙江 紹興 312000
數據處理系統主要是加工和整理各種數據信息,計算出相關的分析指標,在各行業中應用廣泛。本系統處理的是高校招生數據,以Citrix技術和云平臺為依托,彌補了傳統C/S結構的不足。整個數據處理流程包括數據預處理、數據轉換、生成新生數據、數據加工、數據統計等,全面實現招生數據的處理工作。在用戶友好度方面,本系統提供了自定義規則功能,包括分班規則自定義、學號流水號的順序自定義等,使用戶的操作更加方便。
數據處理系統; 云平臺; 數據轉換; 數據統計
數據處理系統(Data processing system)是指通過計算機處理數據信息而構建的系統[1]。該系統的功能主要是加工和整理數據信息,并經過計算得出相關分析指標,使信息形式更容易被人們所接受,最后在數據庫中儲存已經處理的信息。數據庫是系統的核心節點,計算與儲存工作都在數據庫中完成,常用的數據庫有Mysql、Oracle等。云平臺(Cloud platforms)則是一種開放型的共享平臺,允許已經寫好的程序在“云”里運行,或是提供相應的云服務,或兩者皆是[2]?;谠破脚_的數據處理系統,能夠有效提高系統運行效率,降低投入的成本。Sotiriadis等將“軟件即服務”、“附著服務”等云平臺核心理念引入到數據處理系統開發中,有效提高了數據處理系統的服務效率[3]。Shafiq SI等借助云平臺Hadoop的分布式文件系統和分布式并行計算框架,構建海量數字圖像數據處理系統,實現海量數字圖像信息數據的挖掘和處理[4]。本文以基于云平臺的招生數據處理系統為例,對高校招錄取數據的轉換與統計進行介紹,并實現該系統。
高校招生數據處理系統的主要功能是轉換錄取數據并進行相關的統計,軟件系統采用C/S結構,系統開發語言為pb10.0。傳統C/S結構在部署程序方面有著較高的成本,用戶使用系統要安裝客戶端軟件,當系統更新后,還需要重新安裝客戶端[5]。因此,此次設計使用新型客戶端服務器技術Citrix,并將服務器部署在云平臺上面,形成一種基于云服務器的網絡計算模式。Citrix本身有客戶端與服務器端,但客戶端軟件安裝于服務器中,因此用戶無需下載和安裝客戶端,而是通過網頁登錄即可訪問系統,由此達到了統一部署和版本控制的目標[6]。Citrix服務器可以根據用戶填寫的登錄信息,有效識別用戶身份并控制權限,大幅降低服務器與客戶端的流量,并提高了系統訪問效率及安全性。
基于云平臺的招生數據處理系統需要實現錄取數據的接收與轉換,同時生成新生數據,然后統計分析新生數據。由于招生業務階段性比較強,整個操作過程環環相扣,按照這一特性設計系統功能,使系統功能部署與招生業務順序相一致,用戶操作更加方便。系統功能模型如圖1所示。本系統的核心是處理錄取數據,考慮到招生業務存在多階段,每一階段的數據內容和構成有所不同,因此系統需要按照不同階段,歸納分析相關的業務數據。系統數據模型如圖2所示。

圖 1 系統功能模型圖

圖 2 系統數據模型圖
招生數據處理系統首先需要對高考錄取平臺的錄取數據進行接收,這一步驟為數據預處理。系統從高考錄取平臺下載dbf文件,并根據格式與數據的對應關系儲存到系統中,為后續數據處理奠定基礎。數據預處理的操作步驟如下:首先系統對招生錄取數據進行讀取,其中主存儲數據為t_tdd.dbf,選擇該文件之后,系統會自動在文件列表中顯示其余的dbf文件。其次系統對數據進行合成,根據上一步驟所獲得的數據情況,將所有數據按照dbf文件標準實施匯總操作,形成一個大數據表,然后生成新生通知書號。
由于錄取數據的編碼規則與校內系統有所不同,因此需要按照雙方對應關系進行一定的數據轉換,才能使錄取數據在校內系統正常使用。轉換操作主要分成兩個階段:第一階段形成專業對應關系,包括學院名稱和專業號、專業名稱相對應;第二階段進行專業轉換操作,可以根據專業名稱進行轉換,或者根據專業號進行轉換,本系統按照專業號進行轉換,由于錄取數據的專業名稱定義可能與校內定義有所不同,因此還要根據專業號更新相應的專業名。
按照錄取數據的后續用途不同以及迎新數據要求,本系統的新生數據包含如下:(1)新生的基本信息;(2)新生的錄取成績;(3)監護人信息;(4)新生的戶口信息;(5)新生的社會關系信息。系統接收到這些信息之后,在一個大數據表中進行匯總,然后根據數據主題的不同實施拆分操作,將各種數據信息編入到相應數據表中,以便后續的數據處理及導出。新生數據庫生成之后,可校驗各種數據,確保數據接收與轉換不會發生錯誤。
當新生數據庫生成之后,相關數據的關鍵字段依然是錄取通知書號,而校內系統主要以學號作為身份識別手段,因此還需要進行數據加工。學號生成序列通常是以班級作為依據的,因此首先要進行分班。新生的分班通常要遵循一定規則,例如成績好的學生要平均分配到各班,同一專業下的男女生分配也要均勻。為使用戶操作方便,本系統使用自定義分班規則,即用戶可以按照實際需求對分班規則進行自定義。但分班時可能會出現特殊情況,例如某個專業里只有兩位女生,則需要將她們分在一個班內,使女生之間有所照應,這種情況下用戶動態設置就難以實現,只能體現在程序代碼之中。同時本系統具備數據校驗功能,可以實時校驗分配情況,確保分班結果的正確性。分學號則是以分班為基礎,為每一位新生分配獨一無二的學號。本系統的學號信息共有10位數字,其中前4位數字是招生的年份,中間2位數字是招生的類型,最后4位數字是流水號。在本系統中,流水號生成的順序也可以自定義,從而使用戶可以按照實際情況對流水號生成方式進行及時調整。
統計招生信息是學校招生工作的一個重點。當編制新一年的招生計劃時,需要按照上一年招生結果實施調整,因此在招生數據處理系統中,數據統計模塊必不可少。本系統的統計功能可以覆蓋所有的招生數據,包括招生計劃執行情況統計、新生基本情況統計、按專業分類人數綜合統計、各錄取類別新生人數統計、各專業高考投檔分、平均分統計、報到率、生源地、民族等。此外,本系統還能統計多年份數據,只要對當前年份或歷史年份進行設置,即可實現相應的統計報表,這樣使用戶歸檔操作更加方便,同時還能為報考指南等相關宣傳手冊提供數據。
近年來,基于云平臺的數據處理系統越來越受到學界關注,并引起學界廣泛討論。張麗勇針對當前內河航運中船舶吃水存在的諸多問題,提出一種基于云平臺及超聲波技術的船舶吃水實時檢測系統,可以實時監測和處理異常數據,并對船舶吃水數據進行分割,從而獲得準確的船舶吃水數據[7]。范磊等提出以云數據、云計算為核心的農業大數據分析云平臺設計方案,其中云數據采用分布式數據處理方式,以更好地處理多源異構數據,云計算由提供模糊控制等算法的基礎運算層和提供生產銷售等分析模型的分析模型庫組成[8]。李潔珊等提出了一種基于Open Stack的輸電線路數據云平臺架構,共分數據采集層、數據中心層、應用層、接入層四個層次,充分利用Open Stack技術靈活性、松耦合、開源性的優勢,提供實施簡單、可大規模擴展的云計算管理平臺,實現了云主機、云硬盤、對象存儲及關系型數據庫等服務[9]。從總體情況看,基于云平臺的數據處理系統相關研究雖然取得了一定進展,但還需要進一步創新研究方向,才能使數據處理系統在各領域得到更好的應用。
在云計算和大數據技術的快速發展下,傳統的數據處理系統有更多的開拓和創新途徑。本系統基于云服務器實現網絡計算,采用先進的Citrix技術,有效彌補了傳統C/S結構的不足。整個招生數據處理流程包括數據預處理、數據轉換、生成新生數據、數據加工、數據統計等,都能在Citrix技術的支持下有效實現。在用戶友好度方面,本系統提供了自定義規則功能,包括分班規則自定義、學號流水號的順序自定義等,使用戶的操作更加方便。
[1] Combrinck M.Using representative synthetic data to analyze effects of filters when processing full waveform airborne TEM data[J].ASEG Extended Abstracts, 2018,47(1):1-15
[2] Anureet A, Bikrampal K, Kaur B. An Effective Technique to Decline Energy Expenditure in Cloud Platforms[J]. International Journal of Modern Education and Computer Science (IJMECS), 2018,10(2):54-62
[3] Sotiriadis S, Nik B, Euripides GM,Virtual machine cluster mobility in inter-cloud platforms[J].Future generations computer systems, 2017,74(6):179-189
[4] Shafiq SI, Szczerbicki E, Sanin C.Manufacturing data analysis in internet of things/internet of data (IoT/IoD) scenario[J].Syed imran shafiq edward szczerbicki cesar sanin, 2018,49(3):1-16
[5] 陳澤堃,李強,逯峻雨.一種弱C/S架構的計算遷移模型的設計與實現[J].計算機應用研究,2018(5):1421-1425
[6] Rachna G. Citrix powers mobility driven work spaces[J]. Voice & data: the business of communications, 2015,22(6):28-39
[7] 張麗勇.基于云平臺的船舶吃水實時檢測系統數據處理技術[J].艦船科學技術,2016(24):91-93
[8] 范磊,李鳳利,鄭國清,等.農業企業集團大數據分析云平臺設計及應用[J].河南農業科學,2018(5):155-160
[9] 李潔珊,趙志勤.基于Open Stack的輸電線路數據云平臺架構設計[J].機電工程,2018(1):79-82
Development of Data Processing System Based on Cloud Platform
FANG Qi-chao, LIU Hua-jin
312000,
Data processing system mainly processes and collates various data information, calculates relevant analysis indicators, and is widely used in various industries. This system deals with the enrollment data of colleges and universities. It relies on Citrix technology and cloud platform to make up for the shortcomings of traditional C/S structure. The whole data processing process includes data preprocessing, data conversion, generation of new data, data processing, data statistics and so on, which comprehensively realizes the processing of enrollment data. In terms of user friendliness, the system provides the function of customization rules, including the customization of shift rules and the sequence customization of school number, which makes the operation of users more convenient.
Data processing system; cloud platform; data conversion; data statistics
C931.9
A
1000-2324(2019)03-0438-03
10.3969/j.issn.1000-2324.2019.03.017
2018-04-12
2018-06-02
2016年浙江省教育廳大學生思想政治教育專項課題(Y201635073);紹興市哲學社會科學研究“十三五”規劃2019年度重點課題(135477)
方奇超(1977-),男,碩士,助理研究員,主要研究方向為思政教育與就業創業指導. E-mail:357614559@qq.com