文/鄺允新
大數據技術可以為產教融合型企業優化產學研項目評價提供數據基礎,提高產學研項目評價的科學性和可行性。鑒于此,本文分析了大數據背景下開展產學研項目的Flume技術、Hadoop技術和數據挖掘技術等關鍵技術,從采集、儲存、處理和分析項目評價信息等方面,深入探究了大數據背景下優化產學研項目評價的路徑,以期提高產學研項目評價的準確性,引導帶動企業積極參與產學研項目,促進校企深度合作,為產教融合型企業的高質量發展提供初步借鑒。
產教融合型企業積極開展產學研項目評價,可以有效激發企業的創造力,深化校企合作,實現校企雙贏。[1]大數據技術可以為企業的產學研項目評價提供有效的數據支撐和幫助,而充分利用大數據中的Flume技術、Hadoop技術和數據挖掘技術,一方面可以為企業清晰展現產學研項目實施績效評價等級,全面客觀地評價校企合作的方向、重點和不足,針對性地提供數據支持,優化產學研項目評價,促進產學研項目工作的優化和完善,為產教融合企業后續的發展奠定基礎;另一方面,可以幫助政府利用數據平臺,跟蹤企業參與產教融合的行為過程及內容深度和廣度,從而為優惠政策的落實兌現提供依據,在提高企業參與產教融合積極性的同時,也規范了產教融合的政策落實。因此,產教融合型企業需要積極參與產學研項目,持續優化產學研項目評價,著力提高項目評價的科學性,促進校企深度合作。
大數據背景下開展產學研項目的關鍵技術主要包括Flume技術、Hadoop技術和數據挖掘技術。
企業的項目數據往往存在于業務系統、外部文件中。企業需要收集不同場景下的數據時,就需要用到各種不同的數據采集技術,其中包括用于采集業務日志的Flume技術。
Flume是一個分布式海量日志采集系統,支持在日志系統中定制各類數據發送方,并寫到各種數據接收方的能力。[2]Agent(代理節點)是Flume 的中心,主要由三部分組成:Source,指采集或讀取日志的組件,不同的數據源使用不同的Source;Sink,指負責日志的寫出的組件;Channel,指緩沖區,讓Source和Sink可以在不同速率上運行。多個Agent也可以組合使用。利用Flume技術采集數據,可以為產學研項目評價提供真實可靠的數據基礎。
圖1為Flume技術架構及核心組件,其中Web Server指網頁服務器,Agent包括Source、Channel和Sink。

Hadoop是一個分布式系統基礎架構,它的數據存儲和加工過程都是分布式的,由多個機器共同完成。[3]這一系統架構通過并行處理,可以提高數據安全性和數據處理規模。Hadoop框架主要分為HDFS(分布式的文件系統)和MapReduce(編程模型)。
HDFS可以為大量的產學研項目評價數據提供存儲,有助于企業高效地管理保存龐大的信息數據。在Hadoop中,底層的數據文件都存儲在HDFS中,它是大數據的底層基礎。
MapReduce是一種分布式計算過程,可以將大量的數據處理任務拆分為分布式的計算任務,交給大量的機器處理,從而完成大規模的計算任務,處理后得到企業需要的結果。
數據挖掘是從大量數據集中提取有價值信息的過程,被用于發現數據中的趨勢和模式,并對未來做出預測。
聚類分析可以把各個對象分組在一起,并用于后續的分析工作。聚類不同于其他數據挖掘技術,它不依賴于對數據預先確定的假設;相反,聚類依賴于對象的自然分組。[4]聚類通常用來發現有相似特征的對象組,這些信息可以用于各種分析任務,例如預測未來的行為或在數據中尋找模式。
選擇建模是一種用于預測未來選擇的數據挖掘技術,它可以用過去的選擇預測未來的選擇,可以應用于各種不同的經營領域,包括市場營銷、產品設計和預測客戶行為等。選擇最優模型,可以正確評價產學研項目的行為和績效。
在大數據背景下,產教融合型企業可以充分利用Flume技術、Hadoop技術和數據挖掘技術,采集、儲存、處理和分析項目評價信息,通過詳細深入的分析數據,對產教融合型企業合作項目的行為和績效進行建模和分類,從而優化產學研項目評價,提高項目評價的準確性和可行性,引導帶動企業積極參與產學研項目,真正推動校企形成命運共同體。
Flume技術可以為采集項目評價信息提供完整的解決方案。
一要構建高效的評價數據采集平臺。企業應充分利用Flume技術的高容錯性和安全性,高效采集生產項目、就業質量、社會服務、學業成績、研究技術等數據,保證數據采集工作的順利開展。同時,數據采集平臺需具有較強的兼容性,能夠采集產學研各參與方的數據信息,確保各參與方能夠順利訪問采集平臺。
二要制定統一的評價數據采集制度。企業在數據采集、技術要求、專業人員配置等方面要按照相關規定規范操作,確保產學研項目評價的數據采集工作有制度可依,可以有序順利進行。同時,企業要建立日常工作總結制度,幫助采集人員及時總結數據采集工作中的經驗、教訓,有效避免工作混亂和失誤,保證數據采集的準確性和真實性。
一要利用Hadoop技術,實現對多平臺海量數據的統一管理、存儲及計算。Hadoop技術中的HDFS系統,可以儲存大量的產學研項目評價數據。企業利用HDFS系統極高的容錯率,能實現數據的快速傳輸。Hbase是基于HDFS構建的分布式列族數據庫,可以對產學研項目評價數據進行隨機性的實時讀取、寫入訪問。Hive是基于Hadoop的一個數據倉庫工具,可以通過類SQL(結構化查詢語言)語句快速實現簡單的MapReduce統計,實現項目評價數據庫的統計分析。企業利用MapReduce分布式計算系統,可以開展大量的數據計算,完成初步的數據處理。這種批量處理的方式,可以向大量的產學研項目評價數據提供高效的計算處理服務。
二要加強對數據儲存設施的維護和管理。儲存設施需要具備極大的儲存容量、極高的運行速率和穩定的系統功能,從而有效保證數據儲存的安全性。同時,企業要建立項目信息安全監測系統,對信息進行實時監測,及時修復系統出現的問題,確保存儲系統的安全穩定運行。

數據挖掘技術并不能直接進行產學研項目評價和管理,卻可以為優化產學研項目評價提供有效的數據支撐,可以對數據進行深入的分析、推理,從大量數據中挖掘出正確的、有價值的項目評價信息,幫助企業提高產學研項目評價的科學性和可行性。
一要對數據庫中儲存的大量信息進行數據建模,篩選并濾除數據中各種混雜與重復性的數據,優化數據模型。用聚類分析技術對數據進行分類,對一組對象進行分組,使得同一組中的對象與組中的其他對象在某種意義上更相似。利用聚類分析,可以識別相關數據的準確性,并可評估可能出現的結果。評估結果可以為企業清晰展現產學研項目的績效評價等級,全面客觀評價校企合作的方向、重點和不足,從而為其提供數據支持。
二要培育專業的數據分析人才。企業要加強對員工專業知識的培訓力度,定期邀請數據分析專家為員工講課培訓,提升企業員工的專業素質,幫助員工及時更新知識,把握時代脈搏,更全面、更深入地進行數據分析,為員工進一步提升數據分析水平夯實基礎,從而深度解析數據背后蘊含的價值,提升產學研項目評價的質量,促進科教融合企業的長遠有序發展。
產教融合型企業應將大數據理念及技術應用到產學研項目評價中,充分利用Flume技術、Hadoop技術和數據挖掘技術,采集、儲存、處理和分析項目評價信息,進而提高項目評價的準確性和科學性,引導帶動企業積極參與產學研項目,促進產教融合型企業和高校的可持續發展,為產教融合型企業優化產學研項目評價提供初步參考。