王漢元 姜英



摘? 要:為了對高校科研項目前景進行有效預測,進一步提升科研成果轉化率,本文提出了基于神經網絡結合科研項目共享的網絡平臺,構建可靠的科研項目前景預測系統。通過將各類大量科研項目的特征參數化,利用BP(反向傳播)神經網絡的非線性映射能力、自適應能力和對離散數據的泛化能力生成模型后,用于從多維度對一個新項目生成可靠的前景預測。實驗表明,BP神經網絡算法在大量學習經過預處理的樣本后所產生的預測結果是具有較高準確性的,且能夠隨著新的樣本輸入不斷更新和適應,因此該方法具有較強的可行性。
關鍵詞:高校科研項目;前景預測;神經網絡
中圖分類號:TP183? ? ?文獻標識碼:A
Abstract: This paper proposes to build a reliable prospect forecast system for scientific research projects in order to effectively predict prospects of scientific research projects in universities and further improve conversion rate of scientific research results. The system is based on neural networks and a network platform shared by scientific research projects. A model is generated by parameterizing characteristics of a large number of various scientific research projects, using the non-linear mapping ability, adaptive ability and generalization ability of BP (Back Propagation) neural network. Then, the model is used for reliable forecast of a new project from multiple dimensions. Experiments show that the prediction results, produced by the BP neural network algorithm after learning a large number of pre-processed samples, have high accuracy, and can be updated and adapted with new sample input. Therefore, this method is highly feasible.
Keywords: university scientific research projects; prospect prediction; neural network
1? ?引言(Introduction)
在我國,科研成果轉化率低已是老生常談的話題,2018年4月18日國務院常務會議確定了“加大對科技成果轉化的政策激勵”的政策方針并提出了若干辦法。但由于科研評價機制不合理、選題立項重復度高、科研資金管理存在漏洞[1]等問題,導致科研成果轉化率低的現象至今依然存在。提高科研成果轉化率,企業的參與是至關重要的,然而企業為了規避風險很注重項目的成熟度,偏向于投資前景已清晰的項目。這樣便導致很多優秀的項目由于找不到投資者止步在“原始創新成果”階段,失去了產業化、商品化的機會。而各個高校的科研項目展示頁面更注重展示本校科研項目的創新性和技術高度,而忽略了展示方案的實現成本及產業化的難度[2],這讓企業難以理解其價值。
本文中所研究的采用SSM+MongoDB技術搭建的基于BP神經網絡(反向傳播神經網絡)算法的高校科研項目前景預測系統,可實現對科研項目進行可靠的前景預測,幫助正在進行中的科研項目更直觀地展示自身價值,降低企業投資風險,提高科研成果的轉化率[3]。
2? ?技術簡介(Technical brief)
基于BP神經網絡算法的高校科研項目前景預測系統的技術選型使用SSM框架,數據庫采用MySQL+MongoDB的形式,核心功能的實現使用了BP神經網絡算法。
2.1? ?BP神經網絡
BP神經網絡是19世紀80年代由David Runelhart等科學家提出的概念,是一種對感知機網絡的改進算法,解決了簡單感知器不能解決的異或(Exclusive OR, XOR)和非線性學習等問題。BP神經網絡在訓練過程中通過反復調整系統中各種參數的值形成自己的學習能力,并將這種能力應用于更多樣本的分類,因此被廣泛應用于分類和識別領域。從收集到的資料可以得知:神經網絡算法是一種對績效評價比較理想的方法,而且很多開發者在不同領域中應用這種方法,如企業績效評價、動態供應鏈績效評價、高校院系績效評價等。其學習流程可簡單概括為:
(1)輸入經過預處理的樣本數據。
(2)乘以權重,增加偏置并激活,逐層傳遞。
(3)得到預測值并對比真實值得到損失值。
(4)利用損失值對偏置和權重求偏導。
(5)利用梯度下降的方法更新參數。
(6)循環以上流程直到損失值達到標準。
(7)訓練完成。
BP神經網絡的優勢在于:(1)非線性映射能力:BP神經網絡實質上實現了一個從輸入到輸出的映射功能,數學理論證明三層的神經網絡就能夠以任意精度逼近任何非線性連續函數。這使得其特別適于求解內部機制復雜的問題。(2)容錯能力:BP神經網絡在其局部的或者部分的神經元受到破壞后,對全局的訓練結果不會造成很大的影響,也就是說即使系統在受到局部損傷時還是可以正常工作的,即BP神經網絡具有一定的容錯能力。但是BP神經網絡仍有一些缺陷,比如:容易陷入局部極小值;神經網絡收斂速度緩慢;神經網絡結構選擇沒有統一的解決方案,只能憑經驗判斷;神經網絡預測能力和訓練能力的矛盾,可能導致“過擬合”的情況。這些缺陷有的已經有了解決方案,而有些缺陷的解決方案還有待探索。
2.2? ?SSM框架
SSM框架是一種常用且經典的以MVC模式搭建網站的框架組合,其中包含三個框架:Spring、SpringMVC、MyBatis。Spring負責管理集成的框架、呈現切面、管理事務處理和Bean的生命周期;SpringMVC負責轉發請求、傳遞頁面中動態數據和業務處理;MyBatis負責和MySQL數據庫的交互,將表轉換成類,將字段轉換成類的屬性以方便程序員對數據庫的CRUD[4]。
2.3? ?MongoDB數據庫
MongoDB是一個非關系型數據庫,在數據的存儲結構上卻與關系型數據庫和非關系型數據庫都有相似之處。即使之前對NoSQL的概念知之甚少的開發者也能快速上手。其優勢在于清晰、便于理解的表結構,松散的存儲方式可以方便地存儲一些關系復雜的數據,而其作為非關系型數據庫也具有大數據量處理、高性能讀寫的先天特性[5]。
3 BP神經網絡在核心功能模塊中的應用(Application of BP neural network in core function module)
使用BP神經網絡進行前景預測的原因在于,通過研究發現,在特定類別的科研項目中,最終成功轉化的科研項目在某些特征上具有共性,而不甚成功的科研項目同樣在某些特征上具有另一些共性[6]。這種數據關系與BP神經網絡的工作模式非常符合,因此選用BP神經網絡來完成前景預測功能。
由于神經網絡的輸入數據需要經過預處理,而計算機難以實現對科研項目的特征進行評估,因此在設計時增加了評論功能,通過這個功能的設計幫助富有經驗的用戶以規范的格式對項目進行全面且理性的評價。在經過一段時間,取得評論達到一定數量后,對評論取均值即得到一個項目信息較為準確客觀的特征數據(取得了樣本的特征值);而在項目結束后,會有合作的企業或者專業的測評人員按照評分標準給項目進行最終評分(取得了樣本的真實值)。這樣便收集到了訓練神經網絡所需樣本的所有數據,經過預處理后的部分樣本數據如表1所示。
訓練神經網絡時輸入數據必須格式統一,因此經過研究設定了描述一個科研項目的五項特征:“選題”“經費”“人員”“可行性”“市場需求”。從這些角度評價可以全面地概括一個科研項目的各項特征,這五項特征的值對應BP神經網絡輸入層的五個神經元。
由于采用上述特征值收集方式使得特征值相差并不大,因此BP神經網絡的傳播方式采用Log-Sigmoid激活函數,如公式(1)所示:
Math.exp為Java內用于返回自然數底數e的參數次方。而為了避免出現由于神經網絡層數過深,在反向傳播時出現梯度消失的情況,隱含層(Hidden-layer)采用三層神經元。隱含層的神經元個數由輸入層和輸出層神經元個數決定,具體公式如公式(2)所示:
Math.sqrt()為Java內獲取參數正平方根的方法,hdNum為隱含層神經元個數,inNum為輸入層神經元個數,outNum為輸出層神經元個數,ADJUST為節點調節常數,這樣的設計保證了在特征數量增加時程序的可擴展性。
在確定了神經網絡的形狀之后是規定隱含層神經元的計算規則,如公式(3)所示:
其中,為l層神經元的輸出值,為激活函數,為層神經元的權重,為層神經元的輸出值,為層的偏置值。在得到最終輸出值后與真實值比較取得損失值的損失函數,如公式(4)所示:
其中,為預測值,為真實值,為樣本個數。隨后使用梯度下降的方式更新網絡中各節點的權值與偏置,并再次訓練,重復直至損失值達到預設的標準[7]。
4? ?系統設計(System design)
整個網站平臺在SSM的框架下搭建,在此介紹用于實現科研項目前景預測的主要功能模塊的設計。
4.1? ?功能模塊結構
系統所涉及的主要功能模塊包含科研項目信息模塊、評論模塊和評分模塊。科研項目模塊主要包含的功能為創建和修改科研項目信息、查看項目詳情和項目前景預測。評論模塊和評分模塊包含的功能為記錄用戶對科研項目各項特征的描述,這些數據將為科研項目信息模塊使用BP神經網絡進行前景預測提供重要的數據支撐。
4.2? ?核心模塊的工作流程
首先,高校科研人員用戶會使用平臺上傳科研項目信息,科研項目信息模塊會對這些信息進行整理,之后存入數據庫,然后其他用戶在瀏覽科研項目信息后留下評論,這些評論由若干標簽構成。這些標簽被預先設置好放在編寫評論界面的下方備選,標簽的內容為科研項目在若干特征上的表現,如描述項目“經費”特征的標簽有“經費不足”“經費合適”“過分充裕”;描述項目“選題”特征的標簽有“意義重大”“價值一般”“毫無意義”。此外還有描述其他多個特征的若干標簽。標簽界面設計如圖1所示。
這些標簽被賦予不同的分值以衡量項目在若干特征上的表現。采用這種標簽的評論方式可以借助評論者的知識對項目給出相對客觀、全面且標準化的描述。項目與企業進行合作后,企業用戶會根據評分標準給出一個科研項目的最終評價。一個項目在收集若干評論數據后,這些評論將取均值作為該項目的特征值,而最終評價則作為項目的真實值。在獲得足夠的樣本后,這些數據被用于訓練BP神經網絡和測試其準確度。BP神經網絡訓練完成后就可以通過一個科研項目的評論數據預測其前景。
4.3? ?系統測試結果
在測試中使用的訓練集包含160條樣本,測試集包含40條樣本,訓練完成后的BP神經網絡預測準確率最高可達到95.0%,該次訓練結果如圖2所示。
4.4? ?數據存儲
由于MySQL作為關系型數據庫能夠保證數據的ACID特性,因此用于存儲用戶的賬戶相關信息;而MongoDB則用于存儲科研項目的相關信息,如科研項目的介紹、附件、其他用戶的評論等需要頻繁進行CURD操作的數據。
5? ?結論(Conclusion)
由于系統所需數據需要平臺正式上線并在具有相當影響力后才能取得,真實數據難以收集,且本文中對科研項目前景預測的設計僅為給相關工作者提供參考思路,因此在測試設計有效性時使用了模擬數據。這樣的結果說明BP神經網絡在理想的條件下并不能百分之百的實現對實驗樣本的準確分類,但是實驗結果中該算法展現較高的準確率已然表明,在高校科研信息共享平臺的開發中,BP神經網絡應用于前景預測是具有較高可行性的。
參考文獻(References)
[1] 趙紅梅.基于新形勢下的高新技術企業科研經費管理探究[J].財經界(學術版),2018(4):84-86.
[2] 于曉棠.簡述高校科研成果轉化存在的問題及對策[J].科技資訊,2020,18(12):217-218.
[3] 高敏.基于BP神經網絡的績效評價應用研究[D].蘭州:西北師范大學,2016.
[4] 王燕貞,沈毅波.基于SSM框架的高校學生綜合測評系統設計與實現[J].通化師范學院學報,2020,41(04):58-63.
[5] 黃承明.基于MongoDB文檔模型的教學資源數據的建模研究[J].軟件工程,2020,23(05):46-49.
[6] 李言榮.科研評價要減少“人”的因素[N].中國科學報,2020-06-03(001).
[7] D. J. C. MacKay. A practical Bayesian framework for back-propagation networks[J]. Advances in Neural Information Processing Systems, 1992, 4(3):448-472.
作者簡介:
王漢元(1998-),男,本科生.研究領域:軟件工程,Java.
姜? ?英(1978-),女,碩士,副教授.研究領域:軟件工程.