基于權重的SVM預測模型的設計與實現

2019-03-15 01:29:58李開陽

電子制作 2019年4期

李開陽

（河南大學附屬中學，河南開封，475000）

0 前言

隨著人們生活水平的不斷提高和消費意識的不斷改進，菜品的需求等級越來越高。為了便利人們并滿足其需求，本文利用數據倉庫和數據挖掘技術分析存放在數據庫中大量的菜譜信息并以此預測世界各地的菜品及其分屬的菜系。論文的研究在于通過對分屬不同菜系的菜品進行以支持向量機（SVM）為主，以Python為輔的有效方法，并基于TFIDF加權技術進行數據分析。從多方面構建數據挖掘模型，直觀有效地反映出數據挖掘的分析結果?；谝延械臄祿治瞿Ｐ?，并根據最終的詳細分析數據，把菜品的成分與其分屬的菜系進行有機結合。

這些被挖掘并整理過后的數據和模型，不僅可以為餐廳或餐飲APP等餐飲機構提供有效信息，還可以增進人們對餐飲文化的了解，豐富人們的知識。

1 國內外研究現狀

1.1 國內研究現狀

近年來，大數據一度成為網絡熱詞，人工智能也不斷發展，二者的重要技術—數據挖掘，受到了更多人的關注。數據挖掘，就是從大量的，隨機的數據庫中，提取隱含在其中人們事先不知道，但又有潛在有用信息的過程。數據挖掘，它是一種多學科相互綜合、相互滲透的技術，它以傳統的數據庫技術為基礎，運用多種手段分析數據，對海量數據進行知識發現，并進行恰當的可視化表示，是一種高效的預測決策系統解決方案。基于數據挖掘技術的預測決策系統，利用挖掘技術，通過構建預測決策模型，對生產和計劃的完成情況及相關環境數據進行多角度、多層次的分析，幫助決策者及時掌握計劃的運行情況和發展趨勢。

1.2 國外研究現狀

1.2.1 TF-IDF（特征向量分類)

IDF的主要思想是：如果包含詞條t的文檔越少，也就是n越小，IDF越大，則說明詞條t具有很好的類別區分能力。如果某一類文檔C中包含詞條t的文檔數為m，而其它類包含t的文檔總數為k，顯然所有包含t的文檔數n=m+k，當m大的時候，n也大，按照IDF公式得到的IDF的值會小，就說明該詞條t類別區分能力不強。

1.2.2 SVM（支持向量機)

原始SVM算法由Vladimir N. Vapnik和Alexey Ya發明。當時這方面的研究尚不十分完善，且數學上比較艱澀，大多數人難以理解和接受。近年來，許多關于SVM方法的研究，包括算法本身的改進和算法的實際應用，都陸續被提了出來。隨著支持向量機的不斷發展，人們對支持向量機的研究也越來越細化，其要研究方向大致可分為：求解支持向量機問題，支持向量機多類分類問題，參數的選擇和優化問題等。

2 數據來源與處理和模型假設

本研究選取了kaggle數據挖掘競賽網下載的世界各地的不同菜系所包含的主要成分，并賦予每個菜系不同的編號。

研究中所有的菜系成分和可能影響因素皆來自Kaggle網站。這些數據均以微軟Excel表格形式存儲。

面對66萬的訓練數據和15萬測試數據，數據較為龐雜，但內容較為全面。不同菜系已經用”id”編號。于是，我們對數據經行了細致的檢查，并未發現數據有缺失或遺漏現象，且系統較為完備。我們參考了關于SVM的一些論文，建立了SVM模型。

3 TF-IDF

3.1 概念

TF-IDF 的概念被公認為信息檢索中最重要的發明。在搜索、文獻分類和其他相關領域有廣泛的應用。

詞頻又叫TF-IDF，可以給重要的詞加上一個權重。我們經常需要一個詞來概括并代表一篇文章的寫作意圖，而TF-IDF就可以對此進行統計，用以找出對于一份文件較為重要的詞匯。TF-IDF的主要思想是：如果某個詞或短語在一篇文章中出現的頻率TF高，并且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力適合用來分類。它能夠反映這篇文章的特性，某個詞對文章的重要性越高，它的TF-IDF值就越大。所以需要用TF-IDF來進行信息檢索。

3.2 算法介紹

現在有一個給定的文件，如果用詞數來度量該文件中一個詞的重要程度，這顯然是不合理的，因為在一個較長的文件里相同的一個詞語很有可能比在短文件中出現的次數高，但這個詞本身可能對該文件并不重要。用這個給定的詞語在文件中出現的頻率，也就是詞頻，來進行對詞數的歸一化，就可以防止它偏向長的文件。如圖1所示。

圖 1 TF—IDF 流程圖

在向量空間模型中，它經常會和余弦相似度一同使用，用來判斷兩份文件之間是否相似。每種成分對該菜系的貢獻值由向量中每一個維度的大小來決定。根據余弦定理，可以求出特征向量之間的夾角（夾角在0度到90度之間）如圖2所示。

圖2 特征向量的計算

兩向量夾角的余弦等于1時，也就是夾角為0，說明這兩種菜系的成分完全相同；當夾角的余弦接近1時，這兩種菜系的成分基本相同，也有可能完全一致，目標菜系與該菜系基本相似，從而可以歸成一類；夾角的余弦越小，說明他們之間的成分差距越大。

3.3 優點與缺點

優點：一是解決了分類器不好處理離散數據的問題；二是在一定程度上也起到了擴充特征的作用。

缺點：在文本特征表示上有些缺點就非常突出了。首先，它是一個詞袋模型，不考慮詞與詞之間的順序；其次，它假設詞與詞相互獨立（在大多數情況下，詞與詞是相互影響的）；再次，它的獨立性不強；最后，它得到的特征是離散稀疏的。

4 利用支持向量機模型來推測菜系

4.1 支持向量機(SVM)

支持向量機簡稱SVM，是20世紀末期發明的一種分類算法。其原理類似于種西瓜，切西瓜，即對低維的數據升維，將數據映射到高維特征空間，之后對生成的多維物體在特征空間內用超平面切割從而再獲得分類后的低維數據，達到分類的效果。

4.2 升維與降維

圖3 SVM流程圖

升維是針對在低維不容易分類的元素，將其轉化成高維，再進行分類。升維的效果有兩種，一是針對低維的數據可以直接用升維后的本質差別將其分離。如圖4所示。二是可以拉大低維數據間的差距使之容易分類例如10與9低維差距并不大，可是假如升維成(10,100)和(9，81)差距值增大且差值所占比例也增大了，這也更容易分出類別。

圖4 低維數據映射分類

4.3 超平面

支持向量機的重點是高維分類，而高維分類的核心就是超平面。經過升維后，計算機通過計算點間的距離，確定兩類間相鄰最近的兩點，在兩點間算出超平面使之與兩點間距離相等，作其中垂線并進行適當升維，產生超平面。于是，數據就被輕松地分為了兩類。然而，有時由于存在異常數據，SVM的精準度會大打折扣，容易導致其過擬合。我們引入了松弛變量，將超平面模糊化，使其變為一個允許計算機出錯的范圍。為了提高精度，我們又引入了懲罰參數，賦予每個結果一定權重，降低超平面附近結果以及異常數據的權重，從而提高精度。這個過程就叫做正則化。

圖5 超平面模糊化

圖6 正則化

4.4 優點與缺點

優點：支持向量機對于大部分數據具有極高的應用價值，針對界限規則的數據它可以巧妙地運用維度的改變，快速建立起較為規范的模型，運用規范的超平面，快速分類。

缺點：大多只用于二分類，多類會造成結果的不精確，因此較之于決策樹不具有普適性。且超平面的建立較為機械，無法進行自動規避，受異常數據干擾較大，魯棒性不強。

5 循環語句

循環語句出現較早，是一種類似于決策樹的推測方法。在漫長的篩選中，像離心機一樣，元素間差異會不斷被擴大，進而篩選出最相似的元素，排除噪聲元素，并輸出結果，達到精確導入，精確分類，精確輸出的效果。

6 世界各地菜系推測與最常見的十種成分預測

我們建立了三種模型，用測數據進行了實驗，表1是部分結果。

通過基于python語言的循環語句，我們整理出了世界各地菜系中最常見的十種成分。經過可視化處理后整理如圖8所示。

由圖8可看出，十種成分由多到少分別是鹽、洋蔥、橄欖油、大蒜、糖、蒜瓣、黃油、黑胡椒粉、面粉。這與世界范圍內不同菜品的受歡迎程度是有很大關系的。

表1 部分預測結果

圖8 十種常見成分

7 結論與展望

本文使用了Kaggle網站的數據，利用多個維度的數據對菜品的菜系進行預測。

通過這一系列操作，我們發現在世界各地的諸多菜品之中，最常見的成分有十種，按常見程度從高到低排列為鹽，洋蔥，橄欖油，水，大蒜，糖，蒜瓣兒，黃油，黑胡椒，面粉。根據成分的含量多少，國別，地區，將世界各地的菜品大致分成了十幾種菜系。

圖9 預測流程圖

一般的 TF-IDF 算法常?？赡芷帘芜@些出現次數較少的文字。因此我們探索了一些改進措施，例如 Mingmin Xu 等提出了一種基于 TF-IDF 的改進算法，命名為信道分配信息，該方法通過原始數據的統計特征來識別核心詞。羅欣等則基于 TF 改進原始算法，該算法以詞頻差異為基礎，用信息量來重新計算TF 值。

上述兩種改進措施雖然能夠找到文本一些出現頻率較低的重要詞匯，并獲取該文本的特征向量，但它同時也增長了計算時間，使其變得復雜。再次查閱相關資料，我們還可以根據數據自身的特點，然后將行業專有詞典運用到原始的TF-IDF特性選擇的過程中，從而在獲取出現頻率較低的關鍵詞的同時避免了較大的時間復雜度，通過該算法獲取的特征空間結構穩定，能夠使其準確性提高。

模型預計改進方案：

經過查閱資料，分析并對比，發現了一個較為有效的新模型—關聯規則分析模型。Apriori 算法是一種挖掘關聯規則的頻繁項集算法，其核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集。其主要操作流程如圖10所示。

本文的研究工作有以下亮點：

（1）基于TF-IDF加權技術構建相對穩定的支持向量機算法模型以達到比較準確的預測菜品所分屬的菜系的目的。

（2）使用構架好的數據模型分析了諸多菜品中最常出現的十種元素。但本文的研究尚存在一些不足，以后的研究中可以加入以下幾種方法：

①可以同時選取支持向量機算法模型、隨機森林算法模型以及邏輯斯蒂多元回歸預測法進行多次預測，分別得出結論后投票決定最佳分類；

②在本文中，由于篇幅原因尚未對比三種模型的預測結果。在未來的工作中，可以把三種模型的預測結果整合并對比和分析其優劣。留給人們更多的操作空間。

圖10 Apriori模型流程圖