韓天鵬,白玲玲
(1.阜陽師范學院計算機與信息工程學院,安徽阜陽236037;2.中共阜陽市委黨校教務處,安徽阜陽236034)
基于數據挖掘的食品零售價格分類研究
韓天鵬1,白玲玲2
(1.阜陽師范學院計算機與信息工程學院,安徽阜陽236037;2.中共阜陽市委黨校教務處,安徽阜陽236034)
應用數據挖掘技術可以使食品零售價格分析更加準確.本文首先分析了食品零售價格的實際情況;其次對數據挖掘的基本理論進行了深入的研究;然后設計了基于FP-tree算法程序對數據進分類挖掘;最后以基于FP-tree樹挖掘算法設置的時間序列所計算的趨勢距離為依據,得出食品零售價格波動和分類規則.結果表明,食物可分為六種類別,說明數據挖掘技術是分析食品零售價格分類的有效手段之一.
數據挖掘;分類;食品零售價格
隨著經濟的增長,人們對經濟發展的關注度不斷提高.商品價格隨著人們生活水平的提高而不斷提高,但人民生活水平隨著商品價格的不斷上漲卻不斷下降.食品是人們生活的主要商品,而食品內在特點是通過供給和市場的需求價格波動體現的,食品常見的內在特征是從價格波動中發現的.應建立一種先進的技術,以食品零售價格為研究對象,對消費價格指數的相關信息進行分析[1].以及用適當的方法對食物進行分類,以提高食品零售價格分類的有效性.
數據挖掘技術可以從不完備、噪聲、模糊、隨機的應用數據中提取潛在的、有價值的信息和知識,通過深入分析數據來解決復雜的問題.在數據挖掘過程中,可自動搜索存儲在計算機內電子表格中的數據,然后進一步通過關聯規則、分類回歸、聚類分析、數據結構等方法將數據處理,最后可以發掘出隱藏在信息中有價值的數據.數據挖掘技術是食品零售價格分類的一種較好的方法[2].筆者旨在為數據挖掘技術進行食品零售價格分類的研究提供參考.
消費物價指數是一個有效的物價變動指數,它能反映生產和勞務價格與人民生活的統計結果,是觀察通貨膨脹加劇的重要指標.若食品價格進一步增加,CPI也會相應增加,這表明,通脹壓力正在增加.城市居民食品零售價格是消費品價格指數的重要組成部分,糧食生產和流通成本的增加會導致農產品價格的提高,尤其是特殊天氣情況,生產成本將大大增加,國際糧食價格會影響到國內供應和需求,食品價格將進一步增加[3].在有些年份,若CPI有較大的上升幅度,那么通貨膨脹將增加.城市居民食品零售價格是消費品價格指數的重要組成部分,對食品零售價格變動趨勢的研究是研究CPI變化的一種有效工具,分類研究不同類型食品價格是研究食品零售指數更好的方法,最后也可以得到好的變化趨勢.
城市居民的食物可分為5類,第一類是新鮮豬肉、新鮮牛肉和新鮮羊肉.第二類食品包括花生油、雞肉和魚.第三類食物包括豆類、芹菜、白糖、紅糖.第四類食品包括菜籽油、大豆油、大豆混合油、雞蛋、草魚、鯉魚、油菜、黃瓜、茄子、西紅柿、青椒、韭菜、蘋果、西瓜、醬油、醋、草原鮮奶.第五類食物包括卷心菜、蘿卜、土豆、胡蘿卜、卷心菜、香蕉、豆腐、食用鹽[5].
食品零售價格的變化會影響到中國市場經濟的穩定,也會影響到歐盟等其他國家的穩定.為了有效的控制食品零售價格的增加,可對農業采取相應的補貼措施.例如,增加農民的補貼,大力推廣新技術和新農業生產的應用,這樣就會能夠迅速提高農場農民種糧的熱情,糧食生產供應就可以得到保證.另外嚴格控制化肥和農用化學品價格,降低農業生產成本.農民還應該掌握整個市場的信息,并能縮短分銷鏈,降低分配成本.有效地開展市場價格和成本調查監測,供給和需求的監測分析.加強監測糧食、食用植物油、肉類、蛋類、蔬菜、牛奶及其食品價格變化,及早定位、標志問題.以上方法可以保證糧食供應,保持糧食市場秩序,及食品零售價格長期平穩[5].
利用記錄食品零售價格歷史變化,對食品價格數據進行分類,找出食品零售價格特征與數據之間的關系,最后對食品零售價格進行分類.基于數據挖掘的食品零售價格分類程序包括:數據準備與分類、對象確認、數據清理、數據標準化、數據離散化、數據的簡約化,最終得到食品零售價格的分類.
(1)數據清理.這一步是刪除采集到的異常數據,主要包括加入空缺值,刪除傳感器錯誤產生的無效數據,或者在數據傳輸過程中隨時收集的數據.
(2)數據標準化.這一步是比較基于統一標準的傳感器采集的數據.當食品零售價格變化異常,異常數據無法證實,同時最大、最小和實時采集數據的平均值對食品零售價格分類效果又不明顯時,為了提高食品零售價格的分類效果,可以用下面的數據標準化方法:

其中,Zi,k指的是收集到的數據的異常因素,當-1<Zi,k<1時收集到的數據處于正常狀態,fk表示屬性k的平均值,Sk表示屬性 k 的平均絕對偏差,xmax,k和 xmin,k表示屬性 k 的最大值和最小值[6].
(3)數據離散化.這一步可以和不同區間元素決策價值類似將符合不同條件的元素進行間隔,不同區間的元素可以分為幾個有限的間隔.數據離散化處理的過程中應該考慮收集數據的特點,在收集的數據變化不大,而對食品零售價格分類影響較大,小的離散區間可以選擇,從而可以得到正確的食品零售價格分類.否則,大離散區間可選擇.
(4)模糊粗糙集的數據挖掘方法.模糊粗糙集是粗糙集理論的擴展,已知的話語域U,模糊集合F(U)定義為弱模糊劃分,定義如下[7]:

(b)Ai是U上的正則模糊集;
A,Bi∈F(U)兩個模糊集合是已知的,兩個模糊集合之間的關系可以用包含度表示,包含度的表達式如下:

模糊集合X到ε的上近似集和下近似集定義如下:

其中,A一σ(X)表示上近似集,A一τ(X)表示下近似集.
決策系統的條件屬性和決策屬性屬于模糊集合,隸屬度可以根據屬性集合中不同屬性值反映模糊集合的隸屬度,從而為簡約規則提供依據.
知識推理是決策系統的重要組成部分,決策能夠有效地表達知識.決策表的對象和決策規則映射一一對應,決策可以定義如下[8]:
信息系統的S=(U,A)是已知的,C是條件,D是決策屬性,屬于兩個子集合A,C∩D=A,C∩D=Φ,S是決策表.
在決策過程中,基于決策表約簡的條件屬性較少,決策表一致性具有以下約簡過程:首先,在決策表中刪除列;其次,冗余行被刪除;最后,在決策規則中刪除冗余屬性數.
3.1 算法思路
由于歷史原因,許多存儲零售食品價格數據的數據庫數據格式都不盡相同,其傳統的關系測量算法的正確性和效果也不能保證.造成這種情況的主要原因是處理器在處理大量的數據時處理效率低下,數據不是一次性處理的.解決上述問題可通過云計算資源交互概念,利用FP-Tree樹算法,建立對海量數據的有效挖掘算法,根據結果收斂的特點構造快速有效的關系度量算法.關系表達式如下:

上述表達式是對稱的組合.根據樣本容量和綜合信息內容的客觀事實,重要信息添加到公式(7),全面考慮關聯系數的尺度,因此連接功能的設計表示如下:

其中 ni是第 i個數據樣本,N*=n1+n2+...+nk-1;N=N*+nk,-1≤u,v≤1,0<a<1,1≤ck≤1;a 是設置參數.
將小樣本集合si轉換成待處理的海量數據,根據數據的特殊性確定關系系數的有效計算方法,并用以下公式對x到y的關系效應水平ri進行了評價:

其中,xj和 yj表示 si和y一中的觀測值,ni是 si的樣本容量.
si+1其他海量數據采集的獨立樣本,然后計算出效應水平

將采樣后兩個小樣本集合并確認,公式如下:

樣本容量計算如下所示:

通過建立連接函數將兩個小樣本之間的關聯程度聯系起來,下式定義了復合樣本合并的關聯度.

對ρ⌒d評估后,si+2最后評估x中y和的關聯程度r一i+2和ni+1的樣本容量,sd和si+2合并集合樣品集sd+1被證實,樣本容量可以定義為:

關聯程度變量,集合中元素和值的確定是根據連接作用,其定義如下:

算法的結束條件如下:

其中ε<0.
3.2 算法描述

if((freq==0)then nextISetP=p;
if(ChildCountFlag==false)then
{ChildCount=Get Child-Count of p;
if(ChildCount>1)then
{ChildCountFlag=true;
nextISetP=p;} }
freq=Get頻率 from p;}
until(p==root);//直到根節點
p=nextISetP;
Add N to V;}
until(ChildCount>1)or(p=root)}
Return V.
以上描述了本地數據集在整個空間數據中構建分布式FP-tree的算法Cl_FP-Growth[10].為從 FP-tree 中讀取項集,Cl_FP-Growth 被調用兩次,一次用于兩個周期性數據庫中的FPT1,第二次用于FPT2.若FP-tree樹的高度為H,算法的時間復雜度為O(KH+N).構建FP-tree僅需掃描兩遍空間數據集D[11].算法Cl_FP-Growth有著較高的運行效率.

表1 食品零售價格增長率幅度的分類

表2 花生油趨勢表示
近年來,食品零售波動呈現出一定的規律性,但在某些年內食品零售價格會發生突變,這種現象表明食品零售價格受市場力量的影響,對隨機因素會產生沖擊[6].根據食品零售價格季度數據,食品零售價格增長率見表1.
在數據挖掘基本理論的基礎上,利用MATLAB軟件編制相應的程序,以花生油為例,周期時間為2015年5月至2016年5月為例,趨勢表示見表2[13].
基于程序進行時序模式的相互比較,得到趨勢距離矩陣,使用趨勢距離去衡量這兩個序列模式之間的相似程度,其距離越接近于0,表示待匹配的兩個序列趨勢越接近[14];反之趨勢距離越大表示待匹配序列趨勢可能會有較大差異,最終無法歸為同一類.
根據趨勢距離去度量各種食品的相似性,開始時將每一樣商品都作為一類,根據趨勢距離的大小將距離最近的逐步合并,直到所有樣品合并為一類為止.根據該算法對食品零售價格最終分類,結果見表3.
食物可分為6種,即油、高蛋白肉類、單季蔬菜、多季蔬菜、非季節性蔬菜和輔料類(見表3).食品零售價格分類具有重要的經濟意義,從表3可以看出分類結果與實際情況一致.食品的內在性和不可估量性可以有效地反映出來,如供求變化情況、價格彈性等,分類結果具有較強的指導意義.

表3 基于數據挖掘的食品零售價格分類結果
食品零售價格是居民關心的重要經濟指標,在各種因素的影響下會發生波動.食品零售價格與人民生活密切相關,其波動很大程度上影響人民的生活,因此應有效控制物價波動,使人民在穩定的經濟環境中消費.在本文中將數據挖掘技術應用于食品零售價格分類中,數值模擬結果表明,它是分析食品零售價格的有效手段.
[1]Tres A,Van D V,Perez-Marin M D,et al.Authentication of organic feed by near-infrared spectroscopy combined with chemo metrics:A feasibility study[J].Journal of Agricultural and Food Chemistry,2016,60(33):8129-8133.
[2]Li T,Zhang Z G,Liu G L.Sensitivity analysis model of food prices on SVR[J].Journal of Convergence Information Technology,2012,7(21):205-211.
[3]Seck G S,Guerassimoff G,Mai¨zi N.Heat recovery with heat pumps in non-energy intensive industry:A detailed bottom-up model analysis in the French food&drink industry[J].Applied Energy,2013,111:489-504.
[4]Suchomel J,Gejdo?M,Ambru?ová L,et al.Analysis of price changes of selected round wood assortments in some Central Europe countries[J].Journal of Forest Science,2012,58(11):483-491.
[5]Kato T,Pham D T X,Hoang H,et al.Food residue recycling by swine breeders in a developing economy:A case study in Da Nang[J].Waste Management,2012,32(12):2431-2438.
[6]Lone T A,Khan R A.Data mining:Competitive tool to digital library[J].DESIDOC Journal of Library&Information Technology,2014,34(5):401-406.
[7]Nishimura K,Maehata Y,Sunayama W.Improved Inspection of Facilities for High-Voltage Class Using Data Mining[J].Electrical Engineering in Japan,2015,191(2):47-54.
[8]Wang X F,Wang Y,Bi H B,et al.Heat-Supply Network State Prediction Based on Optimum Combination Model of Data Mining Journal of Applied Sciences,2014,13(13):2443-2449.
[9]Kyunglag K,Daehyun K,Yeochang Y,et al.A real time process management system using RFID data mining[J].Computers in Industry,2014,65(4):721-32.
[10]張明衛,朱志良,劉瑩,等.一種大數據環境分布式輔導關聯分類算法[J].軟件學報,2015,26(11):2795-2810.
[11]袁景凌,鐘珞,楊光,等.綠色數據中心不完備能耗大數據填補及分類算法研究[J].計算機學報,2015,38(12):2499-2516.
[12]Yang X Q,Zou C F,Yue L,et al.Research on food complains document classification based-on topic[J].Journal of Software,2012,7(8):1687-1693.
[13]呂艷霞,王翠榮,王聰,等.大數據環境下的不確定數據流在線分類算法[J].東北大學學報(自然科學版),2016,37(9):1245-1249.
[14]馬彪,周瑜,賀建軍.面向大規模類不平衡數據的變分高斯過程分類算法[J].大連理工大學學報,2016,56(3):279-284.
Research on Food Retail Price Classification Based on Data Mining
HAN Tian-peng1,BAI Ling-ling2
(1.School of Computer and Information Engineering,Fuyang Teachers College,Fuyang 236037;2.Information Management Center,Fuyang Party Institute of CCP,Fuyang 236034,Anhui,China)
The application of data mining technology can make food retail price analysis more accurate.In the paper,firstly,the real situation of Chinese food retail price is analyzed.Secondly,the basic theory of data mining is studied and then designed based on FP-tree algorithm program for data classification mining,from which finally,the calculated time series trend distance results in food retail price fluctuation and classification rules.The result shows that the food can be divided into six categories and the data mining technology is an effective means for analyzing the food retail price classification.
data mining;classification;food retail price
TP274+.2
A
1007-5348(2017)09-0031-06
2017-08-22
國家自然科學基金項目(61673117);阜陽師范學院自然科學研究項目(2016FSKJ03).
韓天鵬(1982-),男,安徽阜陽人,阜陽師范學院計算機與信息工程學院講師,碩士;研究方向:數據挖掘、大數據應用、云計算.
(責任編輯:歐 愷)