夏吉安,母文濤,徐榮旺,楊善群,袁望皓,朱俊
(南京工業職業技術大學 計算機與軟件學院,江蘇南京 210023)
2015年8 月,國務院印發《促進大數據發展行動綱要》,提出要推動大數據發展和應用[1];2021年11月,工業和信息化部印發《“十四五”大數據產業發展規劃》,指出目前我國需要培育數據驅動的產融合作、協同創新等新模式。推動要素數據化,引導各類主體提升數據驅動的生產要素配置能力,促進勞動力、資金、技術等要素在行業間、產業間、區域間的合理配置,提升全要素生產率[2]。開展大學生創新創業項目的目的是改變現有高校的人才培養模式,強化學生創新創業技術能力培養,培育適應創新型國家建設需要的高水平創新人才[3-4]。通過以大學生創新創業訓練計劃項目為切入點,將大數據領域的相關技術與精準農業應用場景相結合,進行產學研融合研究和學科交叉的創新應用,可以培養學生的科研創新應用能力。
2022年3月,農業農村部印發《“十四五”全國農業農村信息化發展規劃》,提出建立貫通信息采集、分析決策、作業控制、智慧管理等各環節的智慧農業集成應用體系[5]?,F代農業的發展需要借助大數據、云計算等學科的優勢,結合智慧農業的發展需求進行創新應用,為精準農業的發展提供理論與技術的支持[6-8]。
目前,高校大數據相關專業實踐實訓教學偏重于教授大數據相關框架與工具的操作和使用,未將大數據技術與具體應用場景進行結合培養學生解決實際工程問題的能力[9]。由于大數據相關技術理論知識點分散并且關聯度不高,缺乏對于大數據技術應用技能的連續培養,學生難以全面掌握大數據領域的知識點與技術,進而影響學生使用大數據相關技術進行創新應用。利用大學生創新創業項目,將大數據相關技術與精準農業應用場景相結合,進行學科交叉的創新應用,可以培養學生大數據創新實踐能力[10-14]。
“大創”實驗實訓項目與江蘇省農業科學院農業信息研究所開展合作,大田作物反射光譜采集于江蘇省農業科學試驗田。實驗實訓方案設計包括對農業光譜大數據進行數據預處理與標注、數據挖掘、大數據框架應用、并行數據庫、并行機器學習算法等方面的研究。實驗總體設計方案如圖1所示。使用Hadoop和Spark框架搭建大數據平臺,同時指導學生學習基于Spark框架的并行數據挖掘算法,利用Hadoop提供的HDFS、HBase進行數據分布式存儲。最后使用Spark框架提供的MLlib機器學習庫進行自主學習和探索性研究,針對具體農業應用場景進行數據挖掘算法的分析與研究,實現交叉學科的創新型應用。

圖1 創新實踐總體設計

圖2 大田作物平均反射光譜
原始的作物反射光譜數據包含水稻在三個生長周期(分蘗期、拔節期、抽穗期)中使用三種不同水層(干旱)處理的水稻反射光譜(共180×3=540條光譜數據),如圖1所示。原始光譜數據中包含光譜噪聲,需要指導學生進行大數據預處理與數據標注。使用5點Savitzky-Golay多項式回歸方法對于反射光譜進行平滑濾波。
式(1)中,j為相鄰的5個數據點,Xj為平滑處理的數據點。
同時計算一階和二階導數光譜。
式(2)中,F'(x)為所求數據點的一階導數。
使用南京工業職業技術大學計算中心的云計算資源構建大數據計算平臺,同時分組指導學生進行大數據平臺相關硬件與軟件的安裝與配置,掌握大數據平臺與框架的工作原理。大數據平臺包括三臺Intel(R)Xeon 6230R服務器提供計算資源,16GB DDR4內存,80GB硬盤存儲容量,CentOS 6.9操作系統,如表1所示。

表1 大數據平臺配置
大數據平臺使用Hadoop 3.2.2和Spark 3.3.0作為大數據計算框架,其中通過Hadoop 3.2.2 提供的HDFS(Hadoop Distribute File System)為光譜數據文件提供分布式存儲,Master主機作為Namenode節點,存儲光譜數據文件,Node1和Node2主機作為DataNode節點,存儲光譜數據文件副本,Hadoop采用完全分布式運行模式。Spark框架工作在Standalone模式,其中Master主機作為Master節點,負責接收提交的任務以及進行任務與資源的分配調度,Node1和Node2主機作為Woker節點,負責具體作業和任務的執行。
大田作物的反射光譜數據包含大量的作物生長信息,包括葉綠素、花青素、水分含量等,對于采集的大量的光譜數據,需要使用合適的數據挖掘算法進行數據降維、特征轉換、特征提取,以及使用分類算法對于不同水分處理的反射光譜數據進行分析與處理。通過指導學生學習經典的機器學習與數據挖掘算法,如K-Means、支持向量機、神經網絡等算法,使學生掌握數據挖掘算法的建模與調參方法,加強學生對于基于大數據的數據挖掘算法的自主學習與創新應用的能力,如圖3所示。

圖3 大數據平臺光譜數據挖掘運行環境
使用Hadoop和Spark框架對反射光譜特征提取和分類識別之后,指導學生使用基于Spark的MLlib(Machine Learning Library)機器學習庫對于光譜數據進行進一步的并行數據挖掘。MLlib機器學習庫針對大數據平臺提供了大量的算法模型,使用其提供的特征轉換、特征提取、數據降維、回歸與分類、模型轉換等相關算法,建立光譜數據挖掘模型,如圖4所示。針對不同算法在具體應用場景的運行效率進行探索性分析,分析不同算法的適用性和效率,進一步加強學生對于大數據與數據挖掘相關技術的應用與探索分析能力。

圖4 基于MLlib的并行數據挖掘算法
一方面,通過將大數據相關技術與農業領域的實際問題相結合,使用大數據框架、數據挖掘算法對大田作物不同水分處理的光譜數據進行特征分析和分類分析,建立基于大數據平臺的作物光譜特征分析與分類識別系統,可以有效對大量作物光譜數據進行分布式存儲與并行數據挖掘,加快農業光譜數據的分析與處理速度。另一方面,通過將大數據技術應用在具體的農業信息學場景,可以提高學生對于大數據技術的學習興趣,培養學生的創新思維能力。此外,通過大學生創新創業項目,進一步將科研、教育、生產一體化,探索我國高校產學研合作發展的路徑與方法。
大數據技術專業實驗實訓教學需要將大數據相關技術與具體應用場景相結合,在培養大數據專業人才的同時,以大學生創新創業項目為驅動,將產學研合作的教學思想融入實踐實訓教學體系。在注重學生實際操作技能培養的同時,將創新應用和探索性研究融入實驗實訓教學,有利于培養學生自主學習和創新能力,同時也為應用型人才的培養探索新的發展路徑和培養方法。