




摘 要:高職學校內通常存在多個與學生相關的信息系統,每個系統都由不同部門管理,數據格式和標準不統一,導致學生信息分散在各個孤立的系統中,難以整合。因此,本文設計了一種基于大數據技術的高職學生信息管理系統。闡述了系統的總體架構,分為多數據源采集學生信息的數據采集層、采用分布式存儲的數據存儲層、對數據進行清洗和挖掘的數據處理與分析層、為不同用戶提供服務的應用服務層以及保障數據和系統安全的安全保障層。測試試驗表明,該系統能滿足高職學校日常辦公和高峰業務時期的學生信息管理需求,為高職教育管理提供高效、穩定的信息管理方案。
關鍵詞:大數據技術;高職學生;信息管理;系統設計
中圖分類號:TP 399" " 文獻標志碼:A
高職教育作為高等教育的重要組成部分,其學生規模持續擴大,學生信息管理面臨前所未有的挑戰[1]。高職學生信息管理的質量和效率直接關系學校教學質量、學生培養以及日常管理等一系列重要工作的開展。一方面,隨著信息化程度加深,高職學校內部的信息系統日益繁雜,在線教育平臺、實習就業平臺等外部數據源產生了大量與學生相關的數據,在接入學校信息管理體系時困難重重,包括數據格式轉換、安全合規等問題[2]。另一方面,數據質量問題層出不窮,人工錄入的信息存在錯誤,例如姓名、學號的混淆以及成績、獎懲記錄的不準確,現有數據完整性欠佳,往往只涵蓋部分維度,無法全面勾勒學生的真實狀態。因此,構建基于大數據技術的高職學生信息管理系統迫在眉睫,該系統整合學生在學業、生活、社交等多方面的數據,挖掘有價值的信息,為學校的教學管理、學生管理等決策提供有力支持,以期更好地服務教師、輔導員和學生,提高信息管理的效率和準確性。
1 高職學生信息管理系統總框架設計
基于大數據技術的高職學生信息管理系統可以整合高職學生的各類信息,包括學業、生活、社交等,形成全面的學生信息畫像,具體的框架設計如圖1所示。
在該系統中,數據采集層從內部的教務系統(課程、成績、選課信息)、學生工作管理系統(基本、獎懲、社團信息)、校園一卡通系統(消費、門禁數據)采集信息,也可從外部在線學習平臺(學習時長等)、社交平臺(授權情況下的社交關系等)采集信息。數據處理與分析層進行數據清洗與預處理(缺失值、異常值處理和數據標準化),并通過學業、行為、心理和社交分析挖掘價值。應用服務層包括學生信息查詢和展示,教師、輔導員、學生從各自端口查詢相關信息;同時為管理決策支持服務,教學和學生管理部門據此優化課程、制定政策。安全保障層注重數據安全(訪問控制、數據加密)和系統安全(防火墻與入侵檢測、備份與恢復),保證系統穩定運行。
2 系統各層級設計
2.1 學生信息采集層
學生信息采集層可以確定采集范圍和計劃,明確學生在學校教務系統、學生管理系統、校園一卡通系統等內部系統以及合法授權的外部在線學習平臺等產生的相關數據都在采集范圍內[3]。針對不同數據源制定詳細計劃,例如針對教務系統,根據其數據庫結構和數據更新周期確定采集頻率和方式。針對外部在線學習平臺,根據平臺提供的數據獲取協議確定采集方法。使用JDBC數據庫連接技術,通過編寫SQL查詢語句從教務系統數據庫中提取學生學號、姓名、課程名稱、課程學分、平時成績、考試成績、補考標記等數據。針對學生管理系統和一卡通系統等其他內部系統,也采用類似的數據庫連接和查詢技術獲取相應數據。針對一些以特定格式存儲的數據文件(例如學生基本信息的CSV文件),使用文件讀取和解析技術。如果CSV文件中每行數據格式為(student_id,student_name,gender,birth_date,...),就通過讀取每行并按逗號分割字符串來獲取數據。
如果平臺允許,可使用網絡爬蟲技術(需要遵循平臺的使用規則和robots.txt文件),根據平臺網頁結構編寫爬蟲程序來獲取數據。如果平臺提供API,就通過調用API獲取指定學生的學習數據,包括課程學習時長、學習頻率、作業提交時間和成績、討論區參與情況等。在數據采集過程中,同時進行完整性檢查,設采集的有效數據量為Nv,應采集的數據總量為Nt,數據完整性比率CR如公式(1)所示。
(1)
通過計算來衡量完整性,如果CR接近100%,說明采集順利;如果CR比率低,就需要檢查采集環節是否有遺漏。將采集的成績數據與學校官方成績登記冊進行對比驗證,將經過檢查的數據傳輸到臨時存儲區域,等待進一步處理,確保數據在傳輸過程中的穩定性和完整性,可使用SFTP數據傳輸協議進行傳輸。
2.2 數據處理分析層
數據處理分析層首先對采集的學生信息數據進行缺失值檢查,針對數值型數據(例如成績),如果某學生的某門課程成績缺失,可通過計算該課程其他學生成績的均值來填充;針對非數值型數據(例如家庭住址),如果缺失,可根據學生的班級、籍貫等相關信息進行合理推測或標記為缺失值待后續處理。接著進行異常值處理,針對成績數據,可通過箱線圖法確定異常值范圍,超出此范圍的值視為異常值,對其進行檢查,如果為數據錄入錯誤,就修正;如果為特殊情況(例如免考等),就進行標注。經過缺失值和異常值處理后,數據的質量得到提高,減少因數據問題導致的分析偏差,使后續分析結果更可靠。針對不同范圍的數值型數據(例如成績數據可能是0分~100分,而消費金額數據范圍差異大),使用標準化公式將數據轉換為均值為0,標準差為1的標準正態分布數據,具體如公式(2)所示。
(2)
式中:x為原始數據;μ為均值;σ為標準差。
當對標準化后的數據進行數據分析和模型建立時,不同變量具有相同的尺度,避免了某些變量因數值范圍大而對結果產生過大影響。數據挖掘過程中,為進行學業分析,可以使用K-Means算法,如公式(3)所示。
(3)
式中:E為誤差平方和;k為聚類數;ci為第i個聚類;μi為第i個聚類的中心。
通過不斷迭代最小化來確定聚類,將學生按學習成績和能力聚類成不同層次(優秀、良好、中等、較差)。另外,關聯規則挖掘可通過Apriori算法使用學生的課程成績、選課情況等數據進行分析。通過聚類分析可以了解學生整體的學業水平分布,為個性化教學提供依據,關聯規則挖掘能幫助優化課程設置和教學安排。時間序列分析可對一卡通的消費時間、門禁進出時間等數據進行分析,例如使用自回歸移動平均模型(ARMA)頻繁模式挖掘可通過FP-Growth算法等挖掘學生經常出沒的場所和活動路徑(通過計算項集的支持度,找出頻繁項集),及時發現學生的異常行為,例如作息時間的突然改變、異常的活動路徑等,為校園安全管理和學生關懷提供支持。
對數據分析和挖掘得到的結果進行整合,包括學業分析結果、行為分析結果、心理與社交分析結果等。將整合后的結果存儲到專門的數據庫或數據倉庫中,可使用關系型MySQL數據庫存儲結構化的分析結果,針對一些復雜的分析結果(例如社交網絡關系圖等),可使用NoSQL數據庫存儲,方便后續的應用服務層對分析結果進行查詢和使用,為學校管理決策提供有力支持。
2.3 應用服務層
在應用服務層,學生信息查詢與展示在不同用戶端有不同情況。教師端從成績數據庫、考勤數據庫、作業管理數據庫查詢學號、姓名、課程成績、出勤次數、作業完成情況,借助成績分布和出勤統計了解學習狀態,從而調整教學策略;輔導員端通過關聯學生基本信息表、獎懲情況表、心理測評表等,查詢基本信息、生活情況、獎懲情況、心理狀態,利用綜合評估報告發現學生問題;學生端從成績數據庫、課程表數據庫、一卡通消費數據庫查詢學號、姓名、已修課程成績、課程安排、消費記錄,以此獲取個性化建議和生活提示。
教師登錄認證后,根據權限查詢所教班級學生信息,包括成績、出勤和作業情況等。通過界面展示相關數據,例如成績分布、出勤率等,輔助教師調整教學策略。輔導員登錄認證后,獲取負責學生全面信息(基本、獎懲、心理等),以報表形式查看綜合評估結果,以此發現學生問題。學生登錄后可查看自身學業成績、課程安排和消費記錄等,系統還會根據這些信息提供個性化學習建議和生活提示。
管理決策支持板塊中,教學管理人員登錄系統后,獲取學業分析報告、課程關聯分析結果等,這些結果存儲在數據倉庫特定表中。使用學業分析中的成績分布、及格率、課程關聯關系數據以及教師教學評價數據,通過可視化工具直觀了解教學情況,根據不及格率、課程關聯分析結果決定教學調整策略,例如調整教學內容或更換教師。學生管理決策可以在學生管理部門人員登錄系統后,根據學生行為分析、心理分析結果制定決策,包括作息規律、門禁數據異常情況、心理測評和情感分析結果。使用行為分析中的一卡通消費數據、門禁數據,心理分析中的心理測評數據、社交平臺情感分析數據等。根據分析結果開展心理健康教育活動、合理安排宿舍管理和校園安全檢查等工作。
2.4 安全保障層
在安全保障層中,高職學生信息數據安全流程中要先進行訪問控制,為系統中的不同用戶(教師、輔導員、學生等)創建獨立的賬號體系。當用戶注冊或創建賬號時,收集必要信息(例如姓名、工號/學號、聯系方式等),并要求用戶設置密碼,當用戶登錄系統時進行身份認證。通過驗證用戶名(或工號/學號)和密碼的匹配性來確認用戶身份,將用戶輸入的密碼進行SHA-256哈希處理后與存儲在數據庫中的哈希值進行比對。根據用戶角色(存儲在用戶信息表中的角色字段,例如role字段值為teacher、counselor、student)進行授權管理。不同角色具有不同的權限,教師可以訪問所教班級學生信息,輔導員可訪問其管理范圍內學生更全面信息,學生只能訪問自己的個人信息。這種權限信息存儲在權限表中,通過關聯用戶表和權限表來確定每個用戶的具體權限。通過身份認證和授權管理,有效防止非法用戶訪問系統數據,保障數據的保密性和完整性,確保只有合法授權用戶能夠獲取和操作相應的數據。
針對存儲在數據庫和文件系統中的敏感數據(例如學生的身份證號碼、家庭住址、銀行卡信息等),采用AES對稱加密算法,在對稱加密中,使用一個密鑰對數據進行加密和解密。非對稱加密使用一對密鑰(公鑰和私鑰),公鑰用于加密數據,私鑰用于解密,向服務器發送敏感數據時,客戶端使用服務器的公鑰對數據進行加密,服務器收到后使用自己的私鑰解密。針對數據傳輸過程,采用HTTPS加密協議,通過SSL/TLS協議在客戶端和服務器之間建立安全通道,對傳輸的數據進行加密。數據加密確保即使數據在存儲或傳輸過程中被非法獲取,攻擊者也無法直接獲取明文信息,大大提高了數據的安全性,可以保護學生的隱私。
3 系統測試
3.1 試驗環境
本次試驗準備主要涵蓋測試環境搭建與測試工具。在測試環境搭建的硬件方面,服務器選用戴爾PowerEdge R740xd,其英特爾至強金牌6248R CPU主頻2.5GHz、40核,搭配512GB DDR4內存和10TB RAID 5陣列硬盤,用于部署高職學生信息管理系統和大數據組件??蛻舳藙t是5臺聯想ThinkPad E15筆記本,酷睿i7-1165G7 CPU(2.8GHz、4核8線程)、16GB內存和1TB SSD硬盤,模擬用戶操作。網絡設備為華為S5735-S48T4X-AI交換機,保障1000Mbit/s帶寬的網絡連接。服務器安裝CentOS 7.9操作系統,客戶端安裝Windows 10專業版。
3.2 試驗結果
在本次基于大數據技術的高職學生信息管理系統性能測試中,選擇50、150、300、450和600并發用戶數節點,性能測試結果見表1。
在響應速度方面,低并發(50用戶)時平均響應時間僅0.35s,為用戶帶來極佳操作體驗,日常輕負載下系統響應迅速。高并發(600用戶)下雖響應時間升至3.05s,但未出現無響應或嚴重卡頓,顯示系統應對高負載的設計能力,在高壓環境下仍能維持基本可用性,保障用戶正常使用。處理能力上,低并發(50)時TPS達120.50,體現處理少量請求的高效性。隨著并發用戶數增多TPS逐漸降低,但系統始終保持相對穩定處理能力,600并發時TPS為65.30,這表明系統能在不同負載下持續處理大量業務操作,具備良好適應性和業務處理能力,可滿足多樣化業務場景。傳輸速率方面,從50并發時的110.25Mbit/s到600并發時的80.50Mbit/s,雖然數值下降,但一直保持較高水平,說明系統在網絡傳輸方面優化到位,能保證不同負載下的數據高效傳輸,有效避免用戶受網絡傳輸問題干擾。
4 結語
本文設計的基于大數據技術的高職學生信息管理系統為高職學生信息管理提供了一種全面且高效的解決方案。通過各層級的精心設計和大數據技術的應用,系統在性能和功能上都展現出良好的特性。然而,隨著技術不斷發展和高職教育環境變化,系統仍有持續改進和優化的空間。未來可進一步探索更先進的數據挖掘算法和人工智能技術在系統中的應用,以更好地滿足高職教育管理日益增長的需求,為高職學生的成長和發展提供更優質的信息服務保障。
參考文獻
[1]王海峰,張德文,朱仁杰.基于大數據的高職學生網格化管理模式構建探究[J].吉林省教育學院學報,2024,40(7):167-171.
[2]葉夢霞.基于“互聯網+”背景探討高職學生管理信息化建設路徑[J].現代職業教育,2024(20):157-160.
[3]唐昊霞,李力,劉錦江.ChatGPT在高職院校MySQL數據庫教學中的應用研究[J].物聯網技術,2024,14(6):156-158.