楊國龍
(湛江幼兒師范專科學校,廣東 湛江 524084)
本研究為了拓展和深化專科類高校人才培養評估手段以及專科類高教人才培養方式的理論探討空間。將信息挖掘、文本信息分析等技術從網絡輿論管理等領域應用到高校人才培養質量評估,而且該技術應用于大專院校人才培養質量評估具有一定的創新性。其次,采用新的研究思路及工具方法對專科類院校的人才培養質量進行評估,通過編寫程序抓取互聯網海量的文本信息,再根據神經網絡模型來判斷文本中的情感傾向和主體觀點,對專科類高校人才培養質量進行精準評估,得以在科學決策的基礎上綜合評判大專院校人才培養方案,進而保障大專院校人才培養質量及持續改進[1]。最后,本文旨在于對大專院校人才培養質量評估方法進行研究,進一步完善和改進高職院校人才培養質量評估體系,對大專院校人才培養體系結構進行宏觀調整及監督,有助于保證專科類高校人才培養體系處于較高水平,借助信息挖掘和信息分析技術,通過社會輿論等反饋對人才培養質量評估體系進行優化,可為高職類的院校制定人才培養方案提供決策支持。
隨著我國經濟的快速發展,各行各業人才市場的需求也不斷加大。國家實施高職擴招戰略可進一步促進職業教育模式改革。因此,構建與高職擴招相適應的人才培養質量保障機制作為職業教育改革的重要內容,通過探索多元化人才培養體系的關鍵因素具有一定促進意義。
當前的教育數據分析離不開大數據技術,通過對教育數據挖掘,可及時獲得教育領域相關信息,進一步挖掘教育數據的深層價值,為人才培養質量方案制定提供數據參考。除此之外,利用大數據可以完成大量教育數據的收集、處理和分析,為制定教學指導措施提供決策支持。在此基礎上,因大數據、深度學習等技術的不斷發展,產生了另外一種數據挖掘技術,即是文本分析技術,該技術也可應用于語義理解、機器翻譯、問答系統和信息檢索等多個領域[2],因此,數據挖掘技術的國內外發展現狀與趨勢如圖1所示。

圖1 國內外發展現狀與趨勢
在20 世紀50 年代,國外學者H.P.Luhn提出詞頻的概念,進而開始研究了文本分類技術。隨后,IBM公司將詞頻引入到文本分類技術,促進文本分類領域發展。除此之外,學者Maron等人利用關鍵詞實現了文本的自動分類。
隨著數據特點的越來越復雜,當時文本分析領域的研究方向主要是機器學習的文本分類方法。學者Kim等人研究了深度學習模型并應用到文本分類中,而且在句子建模中采用了卷積神經網絡,實驗結果表明,在多個數據集上處理效果較好。學者Mikolov 等人對神經網絡語言模型進行研究,提出利用RNN進行語言建模進而增強語言模型的表征能力。學者Komninos等人研究了詞嵌入在深層網絡中影響,并得出了采用上下文的詞嵌入方法在實現分類上效果明顯。而國內學者曾誰飛等人結合了雙向長短期記憶網絡與雙詞嵌入可以較好完成文本特征提取[3]。
在2003 年,自從國外學者Nasukawa提出了情感分析含義,相關專業的研究者在此基礎上進行深入研究。比如,根據情感詞典的研究方法,學者Kim 等人利用情感詞典來制定情感得分的計算方法,為了提高準確性,通過對文本中情感詞的情感得分進行求和計算得出整個文本情感極性。在分析文本情感傾向性分類時,因部分文本的特征準確性不足,針對該問題,國內學者魏廣順等人為了提高情感分類準確性,從而設計出一種文本特征加權方法,該方法利用TF-IDF算法實現特征加權,最后,設計分類器對傾向性進行分類判斷。學者張志華對卷積神經網絡模型等內容進行了研究,分別提出了三種不同的情感詞向量學習模型,利用預測情感強度值,建立一種基于有監督的排序模型,得出的實驗效果較好[4]。
本研究對社會評價的大專院校人才培養質量評估方法及內容分三步進行分析,首先對高職類院校人才培養質量評價的數據進行收集及預處理,然后,根據獲取的相關數據,利用改進情感詞典的文本情感強度計算方法及神經網絡文本分類來建立分析模型,最后,基于建立的分析模型對大專院校進行人才培養質量進行評估,如圖2所示。

圖2 人才培養質量評估分析步驟
為了提高人才培養質量評估準確性對相關數據進行收集,由于互聯網數據不斷更新及結構不同,采用不同數據收集方法,利用網絡爬蟲的策略,完成實驗數據集獲取,將采集的原始數據通過篩選及標注等處理后,基于篩選的數據結合高職院校人才培養質量評價指標體系,比如評價指標包括課程建設、教學能力與人才培養模式改革等內容,進而完成人才培養質量評價數據集構建,為大專類院校人才培養質量分析及改進提供數據支撐[5]。
基于獲取人才培養質量相關數據,分析數據集計算情感強度,在網絡評價中,參考口語化及網絡用語等詞匯,組成了社交網絡詞典。然后將社交網絡詞典等加入到基本情感詞典,借鑒基于改進情感詞典的文本情感強度計算的方法,建立了分析模型[6]。在分類模型中,利用循環神經網絡的循環結構,結合注意力模型與循環神經網絡的循環結構,形成文本分類模型,并對人才培養評價數據中更重要的關鍵詞分配相對較高權重,在指標分類準確度上,保證該建立模型的效果。
基于建立的人才培養質量分析模型進行評價,利用該模型具體分析大專類院校人才培養質量存在問題,采用的文本分析是借鑒TF-IDF算法實現特征加權,利用分類器進行分類判斷。此外,可通過社會網絡數據為人才培養質量監督提供反饋,得以在科學決策的基礎上綜合評判大專高校人才培養方案及其效果的優劣程度,為改善大專高校人才培養質量提供研究方向[7]。
本文利用文本分析對大專院校人才培養質量評估方法進行介紹,分別對文獻調研、文本分析法和質化計量進行分析,利用人才培養質量評估為后續制定大專院校的人才培養計劃提供參考方向,如圖3所示。

圖3 人才培養質量評估方法介紹
通過文獻調研可廣泛收集國內外有關高職院校的人才培養數據和人才培養質量評估的相關文獻,結合高職類院校人才培養的最新研究動態,采用科學知識圖譜等工具,對國內外高職院校人才培養及其質量評估的研究方向、引文關系及發展趨勢與熱點進行分析,為全面把握該領域內的發展態勢及進展,從理論和方法上全面系統地研究人才培養質量的相關問題,利用網絡工具軟件對高職院校的人才培養質量進行評估分析[8]。
根據大專院校人才培養質量分析數據,對相關文本數據進行有效整理,將獲取的無結構原始文本轉化為結構化且計算機可識別及處理的信息,將文本進行科學抽象。在此過程中,采用文本分析法是利用分詞算法和詞頻統計方法而得到的特征項來表示文本向量中的指定維度,用以描述和代替文本,最后使用可視化的工具將其展示,得到的相關數據用于高職院校人才培養質量評估更方便。
質化計量是基于扎根理論,立足媒體平臺和社交平臺,通過編寫程序抓取挖掘的大專院校人才培養相關的文本信息,利用得到的相關數據信息,可采用面板回歸、工具變量法、PSM-DID和RDD等多種計量實證方法進行分析,研判質化計量人才培養質量的綜合評價因素,以及大專高校人才培養體系的建設重點和發展方向,給予制定高職院校的人才培養計劃提供參考[9]。
本文介紹了通過采用Python語言完成了在百度知道、新浪微博和百度貼吧等平臺上實現精確的關鍵詞檢索和文本挖掘算法編寫工作,以及對廣東省高水平高職院校的評價指標進行分析和網絡神經情感判斷進行高強度訓練,進而完成AI訓練工作,人才培養質量評估技術分析如圖4所示。

圖4 人才培養質量評估技術分析
在數據獲取過程中,為了獲取方式的高效性,從而保障文本數據源的完整及客觀性。在抓取媒體平臺和社交平臺關于高校人才培養質量反饋的文本信息過程中,確保獲取數據信息較全面而且無偏差,依托關鍵詞進行全平臺抓取,以保證數據源的完整及可靠,另外為了應對該平臺中數據信息抓取的反制措施,可通過使用模擬瀏覽器的方式繞過障礙。因社會上對高校的人才培養質量評價所能產生的文本不僅存在于傳統媒體和自媒體,更多是在社交網絡平臺,鑒于平臺上的反爬蟲措施和抓取難度,本文利用文本抓取工具的選取與運用,采用Python語言編寫高效率的程序,模擬瀏覽器登錄的方式抓取指定文本信息[10]。依托現有的情感詞典,再組織社交詞典和領域詞典改進文本的算法,另外可采用神經網絡模型處理文本中的高頻詞和情感關鍵詞兩者間關聯問題,結合注意力模型對關鍵詞給予分配更高的權重。最后,根據文本分析的結果,借鑒網絡提供參考數據從而完善大專院校人才培養質量評價體系[11]。
本文根據“漏斗法”邏輯結構,對人才培養質量評估得到的社會文本進行預處理、結合多種詞典和模型數據進行分析,將數據實現可視化展示,深入挖掘大專院校人才培養體系與網絡文本信息反饋之間的規律及意義。利用網絡信息挖掘技術和大數據分析技術,可以精準分析人才培養質量存在問題,也可通過個案調查、訪談和相關資料進行分析及驗證,實現高職類高校人才培養質量評估[12],研究路徑如圖5所示。

圖5 人才培養質量評估過程
通過互聯網產生的海量大數據,在媒體平臺和社交平臺上獲取有關于高等學校人才培養質量的信息,有效解決傳統人才培養質量評估研究中數據難以獲取,數據不夠客觀的問題,為高校人才培養建設工作提供精準社會信息及數據反饋,以便于科學決策與方案改進。
研究理論是為實踐服務,對于高校人才培養體系的建構,是為了學生在社會實踐質量服務,也反饋在社會網絡文本上;同時,人才培養體系的運作情況可以用來驗證質量評估體系的客觀科學性。由此,本文對高校人才培養質量體系研究可供大專院校的人才培養制定參考借鑒。
本研究對大專類高校人才培養質量評估研究中采用新的研究思路及方法,介紹了編寫程序抓取互聯網海量的文本信息的方法,介紹神經網絡模型來判斷文本中的情感傾向和主體觀點,對專科類高校人才培養質量進行精準評估,得以在科學決策的基礎上綜合評判大專院校人才培養活動及其效果的優劣程度,從而保障大專院校人才培養質量的持續改進。也可借助信息挖掘和信息分析技術,循環使用評估體系、利用社會輿論反饋提高人才培養質量。