馮璐



摘? 要: 為了克服檔案信息管理成本預測過程存在的問題,以提高檔案信息管理成本預測精度為目標,設計基于大數據分析技術的檔案信息管理成本預測模型。首先分析檔案信息管理成本預測的研究現狀,找到引起檔案信息管理成本預測誤差大的原因;然后采集檔案信息管理成本的歷史數據,并引入大數據分析技術,即極限學習機對檔案信息管理成本進行建模預測;最后進行檔案信息管理成本預測仿真對比實驗。測試結果表明,大數據分析技術可以準確刻畫檔案信息管理成本的變化規律,獲得了高精度的檔案信息管理成本預測結果,并且檔案信息管理成本預測偏差要小于當前其他檔案信息管理成本預測模型,具有更高的實際應用價值。
關鍵詞: 檔案信息管理; 成本預測; 大數據分析; 建模預測; 仿真實驗; 系統測試
中圖分類號: TN911?34; TP391? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)14?0094?03
Archival information management cost prediction based on big data analysis technology
FENG Lu
(MOE Key Laboratory of Engineering Bionics, Jilin University, Changchun 130000, China)
Abstract: A model of archival information management cost prediction based on large data analysis technology is designed to overcome the problems existing in the process of cost prediction of archival information management and improve the accuracy of the cost prediction of archival information management. The research status of the cost prediction of the archival information management is analyzed to find out the reasons why the error of the cost prediction of archival information management is great. The historical data of the cost of archival information management is collected and the big data analysis technology (extreme learning machine) is introduced to perform the modeling forecasting for the cost of archival information management. The simulation comparative experiment of the cost prediction of archival information management was carried out. The testing results show that the big data analysis technology can accurately describe the changes rule of the cost of archival information management, the proposed cost prediction model can obtain high?precision cost prediction results of archival information management, and the deviation of the archival information management cost prediction of the model is smaller than that of the other current archival information management models. It has higher practical application value.
Keywords: archival information management; cost prediction; large data analysis; modeling forecasting; simulation experiment; system testing
檔案信息對一個單位或者個人來說,至關重要,近年來,人們對檔案信息管理要求日益提高[1?3]。傳統的檔案信息管理方式為手工方式,工作量大,容易出錯,無法適應檔案信息向大規模方向發展要求[4]。隨著信息技術、計算機技術、自動化技術的不斷發展和融合,出現了許多檔案信息自動管理系統[5?6]。
針對當前檔案信息管理成本預測模型存在一些弊端,為了減少檔案信息管理成本,獲得高精度的檔案信息管理成本預測結果,提出基于大數據分析技術的檔案信息管理成本預測模型,并通過具體的應用實例分析本文提出的檔案信息管理成本預測模型的有效性和優越性。
1? 檔案信息管理成本預測的研究現狀
檔案信息管理成本預測研究可以劃分為兩個階段:第一個階段為線性建模階段;第二階段為非線性建模階段[7?9]。線性建模階段的主要方法為:一元線性回歸方法、多元線性回歸方法。它們根據檔案信息管理成本特點,分析影響因素與檔案信息管理成本之間的關系,對于簡單檔案信息管理成本預測問題,預測精度高、時間短,最為嚴重的缺陷是沒有考慮檔案信息管理成本的隨機性變化特點,預測結果可靠性低[10?11]。非線性建模階段主要方法包括:貝葉斯網絡、人工神經網絡,尤其是人工神經網絡對檔案信息管理成本的隨機性變化特點擬合效果好,成為當前檔案信息管理成本預測的主要建模工具。在實際應用中,人工神經網絡存在收斂速度慢、計算機空間復雜度高等不足,使得檔案信息管理成本擬合精度高,但是預測錯誤率卻很高,即預測結果的“過擬合”現象[12]。近年來,隨著大數據分析技術的涌現,為檔案信息管理成本預測提供了各種可能,其中極限學習機就是一種經典的大數據分析技術。為此,本文將其引入到檔案信息管理成本預測建模過程中,對極限學習機存在的問題進行解決[13?15]。
2? 模型設計
2.1 極限學習機算法
人工神經網絡是一種模擬人大腦傳遞信息的機器學習理論,通常為3層結構,能夠對問題的數據之間關聯進行挖掘。在實際應用中,其存在許多缺陷,如:運算速度較慢、容易陷入局部最優、難以獲得最佳的預測結果。在前人研究成果的基礎上,有學者提出極限學習機算法。極限學習機通過隨機設置各層之間的連接權值和閾值,在訓練過程中不需要對連接權值和閾值進行修改,僅只需要設置隱含層節點數,就可以對問題進行求解,克服了傳統人工神經網絡存在的局限性。與傳統人工神經網絡相比,極限學習機的優點如表1所示。
設數據為:[{(xi,ti)}Ni=1],[xi=[xi1,xi2,…,xin]T],[ti=[ti1,ti2,…,tim]T],極限學習機算法的隱含層節點數為L,極限學習機算法可以表示為:
[tj=i=1lβig(wi?xj+bi),? j=1,2,…,n] (1)
式中:[βi]表示輸出權值;g()表示激活函數;[wi]和[bi]分別表示連接權重和閾值。
展開式(1)得到:
[tj=t1jt2j?tmj=i=1lβi1g(wi?xj+bi)i=1lβi2g(wi?xj+bi)? ? ? ? ? ? ??i=1lβimg(wi?xj+bi)]? ? ? ? (2)
式中:[wi=[wi1,wi2,…,win]T];[xj=[xj1,xj2,…,xjn]T]。
將式(2)采用矩陣形式進行描述,可變為:
[Hβ=T′]? ? ? ? ? ? ? ? ? ? ? (3)
輸出權值的計算公式為:
[β=H-1T′]? ? ? ? ? ? ? ? ? ? ? (4)
當滿足式(4)時,需要極限學習機算法的擬合誤差為零,在實際應用中,是可能保證擬合誤差為零的。因此,為了使極限學習機算法的結果擬合效果更好,使[Hβ-T′]的誤差最小,根據廣義逆的理論,可以得到:
[β*=H+T′]? ? ? ? ? ? ? ? ? ? ? (5)
式中,H+表示H的廣義逆,其可以通過奇異值分解法得到。
wi和bi的值對極限學習機的性能影響很大,通常情況下,采用隨機方式進行設置,導致極限學習機的預測精度比較低。本文采用粒子群算法確定wi和bi的值。
2.2 粒子群算法
粒子群算法是一種模擬鳥群覓食的智能優化算法。每只鳥在覓食的過程中,會搜索其周圍區域,根據周圍區域搜索結果,確定下一步的飛行速度和方向,粒子當前發現的最優值和全局最優值分別為:Pbest和Gbest。在迭代過程中,粒子根據這兩個值更新其速度和位置,具體為
[vk+1i,d=vki,d+c1?rand()(Pbestki,d-xki,d)+? ? ? ? ? ? c2?rand()(Gbestki,d-xki,d)]? ? ?(6)
[xk+1i,d=xki,d+vki,d] (7)
為了獲得更好的全局尋優能力,引入慣性權重w,式(6)變為:
[vk+1i,d=w?vki,d+c1?rand()(Pbestki,d-xki,d)+? ? ? ? ? ? c2?rand()(Gbestki,d-xki,d)]? ? ?(8)
2.3 基于大數據分析技術的檔案信息管理成本預測步驟
1) 采集檔案信息管理成本的歷史樣本數據,并剔除數據不全的樣本。
2) 確定極限學習機的各層節點,從而產生極限學習機的拓撲結構。
3) 初始化粒子群算法的參數,而且將極限學習機的wi和bi作為粒子位置,并且確定wi和bi的取值范圍。
4) 采用檔案信息管理成本預測精度作為粒子群的適應度函數,根據適應度函數值得到Pbest和Gbest。
5) 根據式(8)更新粒子的位置和速度,并且增加迭代次數。
6) 如果當前迭代已經滿足最大迭代次數,根據粒子群的最優位置得到最優的wi和bi。
7) 極限學習機根據最優wi和bi建立檔案信息管理成本預測模型。檔案信息管理成本預測流程見圖1。
3? 大數據分析技術的檔案信息管理成本預測實例分析
3.1? 樣本數據及預處理
為了分析大數據分析技術的檔案信息管理成本預測效果,選擇多個檔案信息管理成本作為研究,將它們組合成一個樣本集合,具體如圖2所示。選擇BP神經網絡、多元線性回歸的檔案信息管理成本預測模型進行對比實驗。
3.2 檔案信息管理成本預測精度比較
采用3種模型對圖3前100個檔案信息管理成本的樣本數據進行建模,后面100個數據進行測試,均進行5次仿真實驗,統計每一次檔案信息管理成本預測精度,結果如圖3所示。對圖3的檔案信息管理成本預測精度進行比較可以發現,本文模型的檔案信息管理成本預測精度要明顯高于BP神經網絡、多元線性回歸,減少了檔案信息管理成本預測誤差。這主要是因為引入了大數據分析技術(極限學習機)得到更優的檔案信息管理成本預測模型,可以反映檔案信息管理成本變化特點。
3.3 檔案信息管理成本的建模效率比較
統計3種模型的檔案信息管理預測的建模時間,包括訓練時間和測試時間,結果如表2所示。從表2可以發現,3種模型的檔案信息管理測試時間相差不大,訓練時間相差大。其中多元線性回歸的訓練時間最少,其次為本文模型,最多的為BP神經網絡;而多元線性回歸預測誤差完全不能滿足實際應用要求。因此,本文模型的檔案信息管理成本預測綜合性能更優。
表2? 檔案信息管理成本預測的建模時間對比? s? ? ? ? ?[模型 訓練時間 測試時間 本文 7.48 1.710 BP神經網絡 18.224 1.850 多元線性回歸 6.608 1.458 ]
4? 結? 語
為了提高檔案信息管理成本預測精度,本文設計基于大數據分析技術的檔案信息管理成本預測模型,測試結果表明,所設計模型獲得了高精度的檔案信息管理成本預測結果,且檔案信息管理成本預測效果要優于其他模型,是一種速度快、精度高的檔案信息管理成本預測模型。
參考文獻
[1] 張倩.區塊鏈技術對高校檔案信息管理方式創新的可行性探究[J].檔案與建設,2017,40(12):21?24.
[2] 劉利.論檔案信息管理平臺在著作權集體管理組織中的應用[J].浙江檔案,2013,24(8):26?29.
[3] 丁任妹.關于構建高校檔案信息管理系統的思考[J].西南民族大學學報(人文社科版),2003,22(8):360?361.
[4] 喻念念.高校人事檔案信息管理系統模塊的設計與實現[J].山西檔案,2015,9(6):64?66.
[5] 崔海莉,張惠達.云計算環境下檔案信息管理系統風險分析[J].檔案學研究,2013,15(1):56?60.
[6] 周勝利.美國陸軍檔案信息管理系統建設的原則與特點[J].檔案與建設,2012(10):22?25.
[7] 李殷青,王志星.基于WEB的高校學生檔案信息管理系統的設計開發[J].蘭臺世界,2008,22(10):15?16.
[8] 許慧,張立銘.基于Web的圖書館檔案管理系統設計與實現[J].現代電子技術,2016,39(16):48?51.
[9] 張麗娜,夏慶利.高校人力資源管理的現實困境與對策:基于大數據思維下高校人事檔案信息化建設的探討[J].學術論壇,2016,39(4):157?161.
[10] 楊加,李笑難,張揚,等.基于大數據分析的校園電子郵件異常行為檢測技術研究[J].通信學報,2018,39(1):116?123.
[11] 王萬良,張兆娟,高楠,等.基于人工智能技術的大數據分析方法研究進展[J].計算機集成制造系統,2019,25(3):529?547.
[12] 陳貴平,王子牛.基于大數據分析的用戶信息多重加密存儲技術[J].計算機科學,2018,45(7):150?153.
[13] 余英,朱正國,黃超,等.基于大數據分析的配電網絡故障趨勢判斷[J].電源技術,2018,42(1):132?134.
[14] 郭平,王可,羅阿理,等.大數據分析中的計算智能研究現狀與展望[J].軟件學報,2015,26(11):3010?3025.
[15] 張林林,胡熊偉,李鵬,等.基于極限學習機的電力系統暫態穩定評估方法[J].上海交通大學學報,2019,53(6):749?756.