石昀 鄧世權
(凱里學院 貴州省凱里市 556011)
人工智能由McCatgthy 等人于1956年首次提出,經歷上世紀50-60年代的人工智能發展初期、上世紀70-90年代的人工智能發展中期(瓶頸期),直至21 世紀,隨著新技術的出現,計算機軟硬件性能的不斷提升,各種現實世界中的問題得到不斷的解決,人工智能取得了長足的發展。各種人工智能相關技術被廣泛應用于醫療、衛生、教育、工業、金融等各個領域[1],[2],[3]。通過人工智能結合大數據與云計算等技術,各領域的業務數據被得以有效利用,在運用人工智能算法為各行各業提供堅實有力的數據分析作為業務分析的有效支撐的同時,人工智能還深刻的影響著人們的生活。如淘寶、京東、蘇寧易購中的購物推薦功能,如智慧社區、智慧城市、滴滴出行、共享單車等無不體現著人工智能技術已經深入到了各行各業,其在各行各業的應用領域也在不斷的加深[4],[5]。人工智能算法對于不同業務領域中的數據,在進行業務數據分析從而進行發展決策分析時,往往會因為算法預測精準程度、算法執行效率、算法執行時間等指標上的不同。同時,對于不同的算法模型,通過調整、優化參數以及選擇不同的核函數等情況時,往往會對算法的優劣起著不同的效果。因此對于特定領域的業務數據選擇相對更有優勢的算法模型會對行業發展提供數據支撐起著重要作用。文獻[6]通過使用KNN(K Nearest Neighbour)算法[7],結合回歸算法對非參數預測模型回歸算法進行改進并應用于KNN 算法中,經過真實交通流量數據進行狀態預測分析,從而對短時交通流量起到了較好的預測效果。文獻[8]通過利用全局和局部最優解的方法來對蟻群算法[9]進行改進使得蟻群算法在執行效率以及算法穩定性上得到了較好的改進。文獻[10]中針對海量數據集提出大規模數據及關聯規則挖掘算法(disk table resident fptree growth),并在此基礎上通過基于平衡樹的索引來降低數據挖掘過程中的內存消耗,提高了數據挖掘的效率。文獻[11]中提出一種基于AHP(層次分析法)[12]的頻譜資源分配效果評價算法,并通過代碼仿真驗證層次分析法對頻譜資源分配評價效果較好。上述文獻均從不同的角度說明了針對不同業務領域的數據,在利用人工智能相關算法進行數據分析決策時采用不同的人工智能算法對業務數據進行分析所產生的效果是不同的,且不同的人工智能算法在對業務進行數據分析時,由于所面對的行業領域不同的原因,算法執行效率、算法執行時間、誤差率等指標所反映出來的算法優劣性也是不同的。
本文通過選取幾種常用的人工智能數據預測模型算法,通過UCI 公開數據集網站(https://archive.ics.uci.edu/ml/about.html)中提供中部分行業領域公開數據集中的部分數據作為訓練樣本集及測試樣本集,對支持向量機算法(Support Vector Machine)[13]、相關向量機算法(Relevance Vector Machine)[14],人工神經網絡算法(BP)[15]、深度神經網絡算法(Deep Neural Networks)[16]、長期短記憶網絡算法(Long Short Time Memory)[17]以及Ba-BP[18]等算法模型在不同的業務數據領域中,各自的算法執行時間、誤差率等指標進行分析比較,驗證不同的算法模型各自分別適用于對不同的業務數據領域中的數據進行模型的預測以及分析。
通過使用UCI 公開數據集網站中的建筑物能源效率數據集(Energy efficiency Data Set)、森林火災數據集(Forest Fires Data Set)分別作為支持向量機算法、相關向量機算法、人工神經網絡算法、深度神經網絡算法以及BA-BP 算法模型中。首先,考慮到實驗中所用到的各數據集中的屬性取值范圍均不相同,因此需要對上述建筑物能源效率數據集、森林火災數據集中各項數據進行歸一化處理,通過歸一化處理,使得數據集中各項數據取值范圍映射到相同的取值范圍內。使得采用min-max[19]方法對森林火災數據集進行歸一化處理。min-max 方法歸一化公式為:

其中,xnormal為歸一化后各數據集中的數據項的值。x 為實際值,xmax為各數據集中的最大值,xmin為各數據集中的最小值。
建筑物能源效率數據集如表1 所示,其中:建筑物能源效率數據集共有768 條數據,每條數據共有13 個屬性,X1 為相對緊實度,取值范圍為[0.62,0.98]。X2 為表面積,取值范圍為[514.5,808.5]。X3 為壁面積,取值范圍為[245,416.5]。X4 為屋頂面積,取值范圍為[110.25,220.5]。X5 為總高度,取值范圍為[3.5,7]。X6為朝向,取值范圍為[2,5]。X7 為房屋玻璃面積,取值范圍為[0,0.4]。X8 為玻璃面積分布,取值范圍為[0,5]。Y1 為加熱負荷,取值范圍為[6.01,43.1]。Y2 為制冷負荷,取值范圍為[10.9,48.03]。

表2:森林火災數據表

表1:建筑物能源效率數據表

表3:建筑物能源效率歸一化數據表

表4:森林火災數據集歸一化數據表
森林火災數據集如表2 所示,其中:森林火災數據集一共有517 條數據,每條數據有9 個屬性。FFMC 為FWI 系統中的FFMC指數,取值范圍為[18.7,96.2]。DMC 為FWI 系統中的DMC 指數,取值范圍為[1.1,291.3]。DC 為FWI 系統中的DC 指數,取值范圍為[7.9,860.6]。ISI 為FWI 系統中的ISI 指數,取值范圍為[0,56.1]。temp 為溫度,取值范圍為[2.2,33.3]。RH 為相對濕度,取值范圍為[15,100]。wind 為風速,取值范圍為[0.4,9.4]。rain 為降雨量,取值范圍為[0,6.4]。area 為火災中森林的燒毀面積,取值范圍為[0,1090.84]。
利用公式(1)進行歸一化后,對于建筑物能源效率數據集選取前728 條數據作為數據預測模型的樣本集,后40 條作為預測模型的測試集。歸一化后的建筑物能源效率數據集如表3 所示。
利用公式(1)進行歸一化后,對于森林火災數據集選取前500數據條作為數據預測模型的樣本集,后17 條作為預測模型的測試集,min-max 歸一化后的森林火災數據集中各項數據如表4 所示。
數據歸一化后,將樣本集代入預測模型中進行訓練,計算出訓練執行時間以及平均相對誤差[20]。平均相對誤差計算公式為:
上述實驗中,各預測模型算法性能上呈現出較大差異,RNN與DNN 預測模型對于小樣本數據而言,算法執行時間以及相對誤差率均不及相關向量機預測模型、人工神經網絡預測模型以及支持向量機預測模型。同時,對于相關向量機模型、人工神經網絡模型、支持向量機模型來說,這3 種模型中,在預測模型的算法執行時間上,相關向量機預測模型在算法執行時間上優于人工神經網絡模型以及支持向量機預測模型。而在相對誤差率上,支持向量機預測模型的相對誤差率接近相關向量機預測模型。