張寶明 魏程益



摘 要:現(xiàn)有特征選擇算法往往只能處理簡單的拓撲結(jié)構(gòu)圖形,對復(fù)雜的拓撲結(jié)構(gòu)圖形無能為力,為此選擇Structure2vec算法對網(wǎng)絡(luò)欺詐風(fēng)險進行研究。在梳理相關(guān)文獻基礎(chǔ)上,對Structure2vec的數(shù)學(xué)原理進行分析,給出其對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)模型;選擇網(wǎng)絡(luò)用戶的信用歷史、身份特質(zhì)、行為偏好、履約能力和社會關(guān)系等5種類型特征數(shù)據(jù),構(gòu)建Stucture2vec關(guān)系圖;利用Structure2vec算法編寫Python程序,對樣本數(shù)據(jù)進行訓(xùn)練,獲得模型;利用測試數(shù)據(jù)對模型進行測試,獲得特征向量和對應(yīng)的風(fēng)險評估值。結(jié)果表明,利用Structure2vec算法對網(wǎng)絡(luò)欺詐風(fēng)險進行特征選擇和評估,效果優(yōu)于一般卷積神經(jīng)網(wǎng)絡(luò)。
關(guān)鍵詞:Structure2vec算法;特征選擇;特征向量;欺詐風(fēng)險;神經(jīng)網(wǎng)絡(luò);損失函數(shù)
DOI:10. 11907/rjdk. 181935
中圖分類號:TP301文獻標識碼:A文章編號:1672-7800(2019)002-0028-06
Abstract: The existing algorithms of feature selection can only handle simple topological structures and are incapable of designing complex topological structures. Therefore, the Structure2vec algorithm is chosen to study the risk of network fraud. On the basis of combing the related literature, the mathematical principle of Structure2vec is analyzed, and the corresponding convolution neural network model is given. Then, the five types of characteristic data are selected to construct the relation diagram of Stucture2V, including the user's credit history, identity, behavior preference, performance and social relations. Next, the Structure2vec algorithm is used to write Python program, train the sample data and obtain the model. Finally, the model is tested with the test data to obtain the eigenvector and the corresponding risk assessment value. The results show that the Structure2vec algorithm is better than general convolution neural network for feature selection and evaluation of network fraud risk.
Key Words: structure2vec algorithm; feature selection; feature embedding; fraudulent risk; neural network; loss function
0 引言
近年來,網(wǎng)絡(luò)金融迅猛發(fā)展,大數(shù)據(jù)金融、第三方支付、P2P、眾籌、供應(yīng)鏈金融等新業(yè)態(tài)、新方式不斷涌現(xiàn)。然而,由于網(wǎng)絡(luò)金融的網(wǎng)絡(luò)性、虛擬性,產(chǎn)品的跟風(fēng)性、缺陷性,加上人群的多樣性、貪婪性以及信任管理的淡薄性、困難性,欺詐風(fēng)險不斷出現(xiàn),返利套現(xiàn)、薅羊毛、貸款失蹤、P2P跑路與ICO詐騙等亂象頻繁發(fā)生。為此,利用機器學(xué)習(xí)、人工智能、大數(shù)據(jù)等方法,評估、跟蹤、預(yù)警網(wǎng)絡(luò)欺詐風(fēng)險,并將其控制在一定范圍內(nèi),顯得尤為重要。基于此,以Structure2vec算法為例,分析了網(wǎng)絡(luò)欺詐風(fēng)險的特征選擇與評估方法。
過去幾年,隨著Word2vec的盛行[1,2],相關(guān)專家學(xué)者已將機器學(xué)習(xí)與人工智能的焦點集中到特征選擇上。特征選擇對提高算法性能和預(yù)處理關(guān)鍵數(shù)據(jù)發(fā)揮了很大作用,已成為當前深度學(xué)習(xí)和模式識別的重要利器與核心主題之一,在聲音處理、圖像與視覺識別、風(fēng)險控制等領(lǐng)域得到廣泛應(yīng)用。
國內(nèi)文獻[3-5]將特征選擇稱為特征子集選擇(Feature Subset Selection,F(xiàn)SS )或?qū)傩赃x擇,目的是通過一系列特征選擇算法,對原始特征數(shù)據(jù)進行映射,去除一些不相關(guān)特征,保留一些有效特征,并在另外一個空間上生成新的表達——特征向量,從而有效降低數(shù)據(jù)維度。因此,特征向量是特征選擇的結(jié)果,是一種數(shù)據(jù)表示方式。與原始特征數(shù)據(jù)相比,其在保存更多有用信息的同時,形式更簡單,更易訪問,泛化(generalization,是指對以前未觀測到的數(shù)據(jù)表現(xiàn)良好)能力更強,更能將相似特征映射到一起,當然不可避免也會受到一些懲罰和限制。
國外文獻[6]將特征選擇在數(shù)學(xué)上定義為一個映射,該映射滿足單射性和結(jié)構(gòu)保存性,前者意味著每個值域中的Y在定義域中只能有唯一的X與其對應(yīng),后者說明在X所屬空間上若有[x1 過濾方法是指從原始特征中直接選擇特征子集,用于后續(xù)機器學(xué)習(xí)算法[11-15]。由于過濾方法在選擇特征子集時,并沒有考慮后續(xù)機器學(xué)習(xí)算法模型,因而可能會導(dǎo)致選擇出的特征子集不適合后續(xù)學(xué)習(xí)算法,從而影響學(xué)習(xí)性能(準確率)。包裝方法使用一個預(yù)測模型對所有可能的特征子集進行評分,從而尋找到一個能使后續(xù)學(xué)習(xí)算法達到較高性能的子集。具體而言,即在特征子集的保持集上進行測試,計算出錯次數(shù)并給出相應(yīng)得分,最終獲得最優(yōu)特征子集。由于包裝方法需要為每個子集訓(xùn)練一個新模型,因此計算量非常大[16,17]。而嵌入方法是通過學(xué)習(xí)自身以自動選擇特征,其方法多種多樣,主要包括正則化方法(如Lasso算法)、Ridge算法(嶺回歸數(shù)值計算)、支持向量機、決策樹和深度學(xué)習(xí)等。Lasso算法是一種壓縮估計,保留了子集收縮的優(yōu)點,通過構(gòu)造一個懲罰函數(shù)得到一個較為精煉的模型,同時壓縮一些系數(shù),將其設(shè)定為0,是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計算法,其改進算法包括Bolasso、Elastic Net、FeaLect等[18,19]。此外,利用深度學(xué)習(xí),可以對包括文字和聲音在內(nèi)的序列數(shù)據(jù)進行特征化(典型方法如Word2vec),對包括圖像在內(nèi)的二維數(shù)據(jù)進行特征化(典型方法如CNN),對結(jié)構(gòu)化數(shù)據(jù)進行特征化(典型方法如Structure2vec)。所有這些嵌入方法,其算法復(fù)雜度均介于過濾方法與包裝方法之間。 Structure2Vec提供了一種能夠同時整合節(jié)點特征、邊特征、異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)以及網(wǎng)絡(luò)動態(tài)演化特征的深度學(xué)習(xí)和推理的嵌入技術(shù),它不僅可以對網(wǎng)絡(luò)中的節(jié)點和邊進行推理,還可以對節(jié)點、邊甚至子圖進行嵌入(Embedding,又稱向量化)。在Embedding算法中,普遍使用核的算法,將輸入數(shù)據(jù)映射到一個高階向量空間,從而能更好地解決分類或回歸問題。 國外文獻[20]將核方法(Kernel Methods,KMs)表述為一類模式識別算法,其目的是找出并學(xué)習(xí)一組數(shù)據(jù)中的相互關(guān)系。核方法的主要思想是基于如下假設(shè):在低維空間中不能線性分割的點集,轉(zhuǎn)化為高維空間中的點集時,很有可能變?yōu)榫€性可分的。相對于使用通用非線性學(xué)習(xí)器直接對原始數(shù)據(jù)進行分析,核方法具有明顯優(yōu)勢:首先,通用非線性學(xué)習(xí)器很難反映具體應(yīng)用問題的特性,而核方法由于面向具體應(yīng)用問題進行設(shè)計,反而便于集成相關(guān)問題的先驗知識;其次,核方法的線性學(xué)習(xí)器相對于通用非線性學(xué)習(xí)器,有更好的過擬合控制,從而可以更好地保證泛化性能;第三,更重要的是,核方法還是實現(xiàn)高效計算的途徑,它能利用核函數(shù)將非線性映射隱含在線性學(xué)習(xí)器中進行同步計算,從而使得計算復(fù)雜度與高維特征空間的維數(shù)無關(guān)。常見的核函數(shù)有費舍爾內(nèi)核、圖形內(nèi)核、核平滑、多項式核函數(shù)、徑向基函數(shù)核(Radial basis function kernel,RBF)、字符串核等。相關(guān)算法包括支持向量機(Support Vector Machine,SVM)、徑向基函數(shù)(Radial Basis Function,RBF)、線性判別分析(Linear Discriminate Analysis,LDA)以及高斯過程等, 這些算法通過對凸優(yōu)化問題[21]或者特征值問題進行求解獲得結(jié)果[22]。 總之,Structure2Vec是一種新的特征選擇算法,其中使用了核方法。與前人研究相比,本文系統(tǒng)地闡明了其算法原理,改正并重寫了其算法程序,并將其應(yīng)用于網(wǎng)絡(luò)欺詐風(fēng)險評估,通過與一般卷積神經(jīng)網(wǎng)絡(luò)效果對比,進一步驗證了算法的有效性。 1 Structure2vec算法原理 鑒于文獻[23]對Structure2vec算法的數(shù)學(xué)原理分析含糊不清,在使用Structure2vec算法進行網(wǎng)絡(luò)欺詐風(fēng)險評估之前,筆者先對其數(shù)學(xué)原理進行闡述。 1.1 相關(guān)數(shù)學(xué)基礎(chǔ) 1.2 Structure2vec算法描述 其中,[Pr(x)為r×d維概率矩陣]。式(3)又稱為希爾伯特空間上的核分布嵌入(Hilbert Space kernel Embedding of Distribution),與其它核函數(shù)相比,其優(yōu)點是不僅表達能力更加豐富,而且[Pr(x)]與[μi]一一對應(yīng)。 具體而言,在Structure2vec算法中,將所有圖形結(jié)構(gòu)化的數(shù)據(jù)X(如圖1左邊部分)看成是具有若干個節(jié)點V={[V1],[V2],…,[Vm]}、邊E={[E1],[E2],…,[En]}以及隱含節(jié)點H={[H1],[H2],…,[Hn]}所構(gòu)成的圖形結(jié)構(gòu)化數(shù)據(jù),稱為Structure2vec模式圖G(如圖1右邊部分),其中各節(jié)點、邊以及隱含節(jié)點具有特征值[xi]、[ei]和[hi]。 問題在于,在計算[μi]的過程中,需要耗費太多時間計算[Pr(Hi|{Xi}]概率矩陣,節(jié)點越多,耗費時間也就越多,現(xiàn)實中難以實現(xiàn)。為此,需用使用平均場推理和循環(huán)置信傳播(Loopy Belief Propagation,BP)等方法簡化運算,以求取其近似值。 當使用平均場推理方法時,可將[Pr(Hi|{Xi}]近似地看作是若干個獨立概率密度函數(shù)[qi(Hi)]的乘積,即[Pr(Hi|Xi≈i∈Vqi(Hi)]。其中,[qi(Hi)=f(Hi,Xi,{qj}j∈N(i))],[qi(Hi)]> 0且[H qi(Hi)dHi=1],N(i)為與節(jié)點[Vi]有邊連接節(jié)點的集合。由此可得到[μi=T(Xi,{μj}j∈N(i))],此處T為非線性函數(shù),實際運用中可使用 式(5)代替。式(5)中,[σ]為激活函數(shù),[W1]和[W2]為系數(shù)矩陣,[N(i)]表示與節(jié)點i相鄰的所有節(jié)點。 同理,若考慮鄰邊E={[E1],[E2],…,[En]}對隱含節(jié)點[Hi]的影響,可以將式(5)直接改為式(6),其中[NE(i)]表示連接到節(jié)點i的所有邊。