劉 謙 周勁廷 羅 晶
(湖南環境生物職業技術學院,湖南 衡陽 421005)
隨著互聯信息技術的快速發展,大數據呈正相關趨勢發展[1]。同樣,各行各業為掌握市場信息,通常以建立信息資源庫來了解市場實時動態,進而推動行業發展。
目前,為加強對學生創新創業的了解,部分高校進行了大學生創新創業平臺設計,一方面,通過單獨的系統進行信息整合,避免信息冗雜,進而建立高校與學生的信息交互平臺;另一方面,進行數據可視化分析,通過大數據信息整理,可了解行業發展趨勢、創業項目概況、學校項目支持、項目發展進度等內容,進而促進學生創新創業發展。另外,授人以魚不如授人以漁,在市場的競爭中,老師們不可能給他們創造真正的“項目創意”,也不可能給他們創造一個好的創業環境,在課堂上無法培養出學生的實戰能力。所以,在網絡快速發展的今天,提高高校信息化水平和大學生創新創業平臺服務能力已成為當下高校工作的重點。各大高校需要建立創新創業平臺,并進行大數據分析,這對培養學校創新創業方面的人才具有非常實際的意義。所以該文設計和構建了大學生創新創業平臺,并進行大數據處理,為大學生學習提供資源和數據支持,進一步提高學生的創新創業能力。
當前,部分高校的各類工作大都是以手工方式進行,信息分散在校園各個單位和個人手里,各個部門相互聯系較少,信息交互性差,使有關校園領導和主管干部難以形成一個完整的認識,無法準確地了解學生創新創業活動的現狀,也就無法制定出有針對性的相關政策,這對創新創業工作的有效開展是非常不利的。另一方面,企業的創新性工作不斷深化,資料日益增多,但也日益零散,因此對大學生創新創業數據進行整合,了解數據動態、學生創業項目、項目領域等內容是十分必要的。“大學生創新創業平臺設計中大數據處理”可保證學生能對大數據處理信息進行整合劃分,以便學生做好規劃,實施項目。
為保證數據的有效性,該系統設計主要圍繞數據相關算法、數據爬取、數據清洗等方面進行研究,其中在對大學生創新創業平臺設計中大數據模塊進行應用分析時發現,爬取數據并不能直接利用,需要對數據進行聚類分析,才能了解大學生在各行業的創業情況和側重行業,進而為大學生創業提供幫助。
1.1.1 模糊集
模糊集合是用來表達模糊性概念的集合。在大學生創新創業平臺設計中創業項目與行業有關,通過模糊集并利用項目相關度對內容進行劃分,有助于數據進行聚類分析。
先給定U為區域,那么從U到單位區間[0,1] 的映射μA:U→[0,1]是U上的一個模糊集(或模糊子集)[2]。映射μA(x)是函數,叫作模糊集A的隸屬函數:對每個x∈U,μA(x)叫作元素x對模糊集A的隸屬度。μA(x)的值越接近于1,表示x隸屬于A的程度越大;μA(x)的值越接近于0,表示隸屬于A的程度越小。
1.1.2 聚類分析
聚類分析是將一個數據對象的集合歸并,以相似的物體構成的多個類別進行歸類的方法。在數據分析之前,需要先查看大學生創業網數據,包括行業數據中是否有異常值、無效樣本等,這樣能保證數據有效聚類。如果有異常值則需要進行處理,然后再進行分析。如圖1所示,根據不同的數據的間距來進行聚類,并將相鄰的數據物件分成一簇。
根據圖1所示,進行大學生創新創業大數據分析時主要采用聚類算法,在聚類算法中“+”為聚類中心,進行聚類中心的選定時,可對大學生創新創業數據和群集的關聯程度進行運算,獲得最佳的聚類中心。數據根據關聯性可劃分為一個類別,將聚類中心的輸出數據用作該算法的聚類中心,保證各類別信息數據準確。
將大學生創新創業平臺設計數據分為4種類型,利用隸屬函數實現這4種類型(數值型、布爾型、空值和類屬型)的數據的初始化處理[3]。
1.2.1 布爾屬性的的隸屬函數
布爾屬性值相對來說較為簡單,在該次分析中以布爾形式存在。N是“是”或者“否”的個數,則隸屬函數如公式(1)所示。
在該次分析中以布爾形式存在。N是“是”或者“否”的個數,則隸屬函數如公式(1)所示。

式中:n為U中數據的總個數;U為數據域。
1.2.2 數值屬性的隸屬函數
I是總類數,Ci是第i個類,N(Ci)是類Ci包括的屬性值的個數,則隸屬函數如公式(2)所示。

1.2.3 類屬屬性值的隸屬函數
類屬屬性值的隸屬函數,是從有限分類集中取得某一類值。劃分相同屬性值為同一類,并需要考慮各類屬性值個數在總的分類集中所占的比例。
J是屬性的分類數,Cj是第j個類,N(Cj)是類Cj包括的屬性值的個數,則類屬屬性值的隸屬函數如公式(3)所示。

1.2.4 空值屬性值的隸屬函數
空值屬性值對應于其所屬的屬性值特性,如果某個屬性的空值個數和總的元素個數之比例超過限定閩值Z0,可以在聚類分析時不考慮此屬性;對比例低于Z0的屬性,可設定3個等級(高、中、低),對應空值的個數所占總數的比例,分為高、中、低隸屬度,其隸屬函數如公式(4)所示。

式中:Cij是第i個元素、第j個屬性的屬性值;r0為空值所占比例;h0為高比例閩值;l0為低比例閾值。
初始化數據的聚類可采用模糊矩陣聚類方法。設論域為U,元素個數為|U|,進行聚類的步驟如下:
根據歐幾里得距離公式,R的階數為|U|,計算R矩陣的元素rij;經過計算后得到R矩陣,見表1,大學生創新創業平臺設計大數據處理模塊模糊相似關系矩陣如公式(5)所示,通過表1可以劃分創業數據信息。

表1 聚類分析分類表

式中:M為屬性個數;Sik為第i行、第k列的屬性值。
表1是利用大學生創業網數據信息進行聚類分析的,主要采用2021年數據進行數據爬取以及數據聚類分析,并根據行業、地區、項目等指標進行數據可視化分析,進而建立系統數據圖表,有利于大學生創新創業平臺信息推送,并給相關學生給予數據指導。
該系統爬取主要針對網站信息(全國大學生創業服務網ncss.cn)進行爬取,因此選用較為簡單的BS4框架進行數據爬取[4]。相比XPath和正則表達式,BS4語法更簡單易懂。其主要步驟如下:1) 進行數據爬取時,需要導入Requests庫和BeautifulSoup庫函數。2)使用Requests抓取全國大學生創業服務網,把要爬取的整個頁面抓取下來。3)使用BeautifulSoup中的find()和find_all()抓取需要的標簽內容。
因為網頁數據可能會涉及翻頁,所以需要設計循環控制爬取的目標網頁范圍。爬到數據并不能夠直接使用,需要進行預處理。另外,數據為jason格式,因此使用jason.loads將其轉化為數組,需要進行去除空數據和錯誤數據。處理完畢后保存到本地備用。
大學生創新創業平臺其系統總體的E-R圖,如圖2所示。
如圖2所示,平臺是基于學生構建的,所以需要為學生提供有效數據。建立大學生創新創業平臺時,可通過Wiki的技術結構模型來實現學習資源的開發,既可以實現自身的功能,并根據學員具體的學習需要與學校的教學內容、社會工作信息等進行對接,借助平臺的語義關聯進行各方數據信息的精準連接,也可以將其納入校園整體教育教學平臺當中作為一個子模塊。該系統的主要實體包括課程、設施、團隊、指導老師、項目、報告、項目成績、計算公式、評審成績、評審指標等,在分析各實體之間的關系后形成了該系統的邏輯模型。

圖2 系統架構圖
2.2.1 數據獲取
該系統經由Python軟件爬蟲,主要通過Requests庫爬取大學生創業網https://cy.ncss.cn/search/projects,進行數據分析,以建立大學生創新創業平臺數據信息庫,為大學生創業提供優質服務。
2.2.2 數據爬取
該系統進行數據爬取,在https://cy.ncss.cn/search/projects需要登錄才能顯示頁面。
數據來源:發送請求時,請求要帶上Cookie,然后使用Session去get(獲得)“https://cy.ncss.cn/search/projects”數據。
數據爬取:數據本系統采用Scrapy進行爬蟲,利用純Python代碼實現的一種高層次的、快速的屏幕抓取和網頁抓取框架,用于從指定Web頁面中抓取數據,提取結構性數據。在爬蟲技術中,大學生創新創業平臺設計的大數據模塊中的Scrapy用于對URL進行抓取,然后調用BeautifulSoup庫對抓取的網頁進行解析,獲取相關數據。通過網站獲取數據,對所在領域、學科成果轉化、融資階段以及所在區域等數據能夠有效進行數據爬取,經由聚類分析進行數據清洗,利用F12打開開發者工具,可獲得數據。代碼如下:

2.2.3 大學生創新創業平臺設計中大數據模塊數據爬取結果分析
進行大學生創新創業平臺數據爬取時,主要采用模糊算法和聚類算法[5]。為了有更精確的精度控制,可以使用NumPy擴展庫。使用round()內置方法,round()如果只有一個數作為參數,不指定位數時,返回的是一個整數,而且是最靠近的整數(這點類似四舍五入)。但是當出現“.5”時,兩邊的距離都一樣,round()取靠近的偶數,例如round(2.5)=2。當指定取舍的小數點位數時,一般情況也是使用四舍五入的規則,但是碰到0.5這樣的情況,如果要取舍的位數前的小數是奇數,則直接舍棄,遇到偶數時則向上取舍。
該大學生創新創業平臺爬蟲系統的爬取對象選取大學生創業網,因為網站都開放了點擊數量查詢,系統爬取可通過更改URL的pageIndex參數即可獲取每頁的數據,其編寫步驟如下:1)寫請求頭Header和URL。2)獲取頁面。3)提取數據,翻頁,寫入Excel中,并形成excel數據統計表。代碼如下:


該數據結果可采用vue.js實現,在該業務類中完成在前端界面中的展示,當前臺用戶注冊后,會通過與后臺處理自然語言的算法來處理前臺傳回的數據。可進行操作數據庫,然后把結果返回給前端網頁數據以圖和文字的形式提現到前端界面。
該文對大學生創新創業平臺設計中大數據模塊進行了論述,分析了該系統大數據模塊的基本算法,并進行數據采集,通過獲取URL、響應內容、數據提取、數據清洗、數據持久化等,根據爬蟲實際情況進行項目名、省份以及領域等多元素的分類和數據統計,并加以處理,在PyCharm中運行Python API類,使項目等信息可在注冊過的用戶中展示,游客登錄時展示的則是空白信息,同時采用vue.js實現對前端頁面的可視化。