999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM 的遷移學習方法在互聯網金融網頁分類中的應用*

2023-09-12 09:01:10謝林燕劉紀偉
通信技術 2023年7期
關鍵詞:分類金融

謝林燕,劉紀偉,張 玉,張 峰

(國家計算機網絡應急技術處理協調中心河北分中心,河北 石家莊 050021)

0 引言

互聯網技術迅速發展,互聯網金融作為一種新生的金融形式逐漸發展起來。互聯網金融網頁的業態識別是互聯網金融監測預警與風險防范的核心基礎。然而在實際中頻繁出現新興金融業態,相關網頁數量較少,其中只有少量的網頁經過人工標注。面對當前新興互聯網金融業態網頁訓練樣本過少的情況,如何實現對互聯網金融網頁的高效業態判定成為關注熱點。

網頁分類主要立足于文本分類,機器學習是網頁分類的一種常見方法,集中體現在網頁的特征選取、數據的特征表達上。文獻[1]提出了一種基于樸素貝葉斯協調分類器綜合網頁結構信息及內容文本的分類方法,通過組合分類器的方法,使分類性能得到了一定程度的提高。文獻[2]主要采用卷積神經網絡(Convolutional Neural Networks,CNN)進行文本分類,提出用于句子分類的單卷積層的卷積神經網絡(Text CNN),利用多個大小不同的卷積核來并行地提取不同的 n-gram 信息,然后對其進行最大池化(Max Pooling)操作提取重要的特征,從而完成分類。文獻[3]提出了循環卷積神經網絡(Recurrent Convolutional Neural Network,RCNN)模型,有效解決了固定窗口的卷積操作使得每一個詞向量的上下文受限的問題,實驗證明該模型在文本分類中普遍優于單獨的循環神經網絡(Recurrent Neural Network,RNN)或CNN 模型。文獻[4]設計了基于深度學習的高效網頁分類算法框架,利用深度神經網絡,搭建了一種多通道輸入、復合特征抽取結構的分類模型,有效地提高了網頁分類的準確率。

深度學習的優勢主要依賴于其大數據的提取能力,在樣本量足夠的情況下,深度學習往往可以取得較好的效果。然而對于互聯網金融網頁來說,數據量不足會導致模型出現過擬合的問題。因此,針對小數據集的小樣本學習技術是解決互聯網金融網頁分類問題的關鍵。文獻[5]通過對傳統支持向量機(Support Vector Machine,SVM)算法模型進行調整,引入新的參數控制模型超平面的位置,以緩解正負樣本不平衡對分類準確率的影響。文獻[6]提出基于主動學習的半監督支持向量機學習算法,以少量的有標記數據來訓練初始學習器,通過主動學習策略來選擇最佳訓練樣本,并通過刪除非支持向量來降低學習代價,獲得較好的學習效果。文獻[7]提出了一種基于遷移學習與權重支持向量機的圖像自動標注方法,解決了所選數據集規模較小,無法訓練出最優的卷積神經網絡的問題。文獻[8]基于遷移學習算法對SVM 模型進行優化(Transferlearning-Support Vector Machine,TLSVM),通過使用目標域少量已標記數據和大量相關領域的舊數據來為目標域構建一個高質量的分類模型。

關于小樣本學習,目前常用的有基于數據增強和基于遷移學習的方法。基于數據增強的方法,主要是利用輔助數據集或者輔助信息增強目標數據集中樣本的特征,或者擴充目標數據集,使模型能夠更好地提取特征[9]。基于遷移學習的方法,主要是運用已存有的知識對不同但相關的領域問題進行求解的一種新的機器學習方法。它放寬了傳統機器學習中的兩個基本假設,目的是遷移已有的知識來解決目標領域中僅有少量有標簽樣本數據甚至沒有的學習問題[10]。

通過上述分析,為了準確、快速地對互聯網金融網頁業態進行識別,本文在遷移學習和數據增強方法的基礎上,通過調整超平面位置改進SVM算法,實現對小數據集的訓練與檢測。實驗結果表明,本文提出的基于超平面位置調優SVM 的遷移學習算法對于互聯網金融網頁業態識別具有較好的分類效果,能夠有效檢測出已知業態的金融網頁,從而加強對各類金融網頁的關注,強化風險防范,促進互聯網金融發展。

1 TL-SVM

SVM 是Corinna Cortes 和Vapnik 等 人[11]于1995 年提出的,主要用來解決小樣本、非線性及高維模式的識別。該方法是以統計學習理論(Statistical Learning Theory,SLT)[12]的VC 維理論和結構風險最小原理為基礎建立起來的,其本身的優化目標并非經驗風險最小,而是結構化風險最小,根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳的折衷方案,以期獲得最好的推廣泛化能力[13]。

文獻[8]提出的TL-SVM 算法的核心理論是:若兩領域相關,則其各自分類器的ω值應相近,因此在SVM 目標式中增加遷移項μ||ωt-ωs||2。

式中:C為懲罰因子,代表算法對于分類錯誤樣本的容忍程度;代表第i個樣本的分類損失。

該算法在目標領域訓練分類模型時引入了源領域知識ωs,在目標函數構建的過程中利用源領域和目標領域知識最接近的遷移學習項,實現有效遷移學習。然而,當源領域和目標領域相關性較小時,則會出現負遷移現象,即遷移過程完成后實現的分類效果差于僅利用目標領域已標記數據的監督分類效果。

2 基于超平面位置調優SVM 的遷移學習算法

2.1 數據增強

數據增強[14](Data Augmentation,DA)改善了深度學習中數據不足的場景,在不實質性地增加數據的情況下,讓有限的數據產生等價于更多數據的價值。其原理是,通過對原始數據融入先驗知識,加工出更多數據的表示,有助于模型判別數據中的統計噪聲,減少模型過擬合。其主要的方向是增加訓練數據的多樣性,從而提高模型泛化能力。小樣本學習的主要問題是樣本量過少,從而導致樣本多樣性不足以刻畫完整樣本分布,可以通過樣本增強來提升樣本多樣性。基于數據增強的方法是利用輔助數據集或者輔助信息對目標數據集進行數據擴充或特征增強,使模型能更好擬合。數據擴充可以是無標簽或者合成帶標簽數據;特征增強是在原樣本的特征空間中添加便于分類的特征,增加特征多樣性,從而降低樣本間的不均衡性,提高模型的泛化能力,使模型的魯棒性更高。

在樣本少、分布不均衡的情況下,可以通過數據增強[15]擴充訓練數據的量,降低樣本間的不均衡性,提高模型的泛化能力,使模型的魯棒性更高。數據增強技術包括回譯(Back Translation)、隨機詞替換、非核心詞替換、基于上下文信息的數據增強和基于語言生成模型的數據增強5 種經典方案。其中,基于隨機詞替換的數據增強方法類似于圖像增強技術中的隨機裁剪、圖像縮放,通常是隨機地選擇文本中一定比例的詞,對其進行同義詞替換、刪除等簡單操作。本文采用基于隨機詞替換的簡單數據增強(Easy Data Augmentation,EDA)[15]文本增強方法實現數據增強,主要包含以下4 種操作:

(1)同義詞替換(Synonym Replacement,SR):從句子中隨機選擇非停用詞,用隨機選擇的同義詞替換這些單詞。

(2)隨機插入(Random Insertion,RI):隨機找出句子中某個不屬于停用詞集的詞,并求出其隨機的同義詞,將該同義詞插入句子的一個隨機位置,重復n次。

(3)隨機交換(Random Swap,RS):隨機選擇句子中兩個單詞并交換它們的位置,重復n次。

(4)隨機刪除(Random Deletion,RD):以概率p隨機刪除句子中某個單詞。

2.2 基于超平面位置優化SVM 的遷移學習算法

由于標記樣本數量不足,因此在模型訓練過程中可提供的有效信息不均衡,同時,基于SVM 算法的分類,在樣本數量少、無法準確預估負類樣本存在空間的情況下,引入參數主動調整分類超平面的位置,使其靠近正類樣本,為負類樣本預留較大的存在空間,以此提高分類的準確率。基于超平面位置優化SVM 的遷移學習算法實現了領域間參數的遷移,原理如圖1 所示,其優化目標函數的表達式為:

圖1 基于超平面位置優化SVM 的遷移學習算法檢測流程

式中:調整超平面的程度通過參數λ進行控制,若λ較大,則源領域和目標領域的分類超平面非常接近;若λ較小,則源領域和目標領域的分類超平面相對獨立。

對于優化目標函數,列出如下說明:

(1)式(2)中前兩項分別表示目標領域數據的結構風險項和經驗風險項。

(2)||ωt-ωs||2表示目標領域與源領域的差異程度,數值越大表示分類器之間的差異越大,反之表示二者相似,μ為協調系數。

式中:α=(α1,α2,…,αn)T和β=(β1,β2,…,βn)T為拉格朗日系數。

依據KKT[16](Karush-Kuhn-Tucker)條件,對ωt,和bt求偏導數,推導如下:

將式(4)、式(5)代入式(3),化簡后可得對偶問題形式如下:

2.3 基于超平面位置調優SVM 的遷移學習算法流程

(2)利用二次規劃原理求得目標域拉格朗日系數αt=(α1,α2,…,αn)T;

(3)根據式(4)求得決策超平面法向量ωt;

(5)構建劃分超平面ωtxt+bt=0,輸出分類決策函數

綜上,基于超平面位置優化SVM 的遷移學習算法檢測流程如圖1 所示。

3 實驗與分析

為評價驗證基于超平面位置調優SVM 的遷移學習算法在互聯網金融網頁業態分類中的效果,實驗采用從互聯網收集到的金融網頁為評測數據集,該數據集包含451 個互聯網金融網頁,涉及4 個金融業態下的8 個金融子業態,表1 為金融業態與相關網頁的數量。每兩個金融業態分別作為正樣本和負樣本,基于子業態進行檢測,學習任務的具體情況如表2 所示。在目標領域選取源領域訓練集數量的20%作為目標領域的訓練集,構成遷移學習任務。實驗主要從非遷移、遷移和基于超平面位置調優SVM 的遷移3 個角度來進行,從而展現所提分類算法的優勢。

表1 金融業態與相關網頁數量

表2 學習任務具體情況

3.1 評價指標

本文采用正確率(Precision)、召回率(Recall)和綜合指標F1-指數(F1)來評測互聯網金融網頁檢測的性能。其中,正確率P表示返回結果中正確的比例,召回率R表示所有正確結果中返回的比例。在檢測結果中,如表3 所示,假設檢測到的互聯網金融網頁中,相關網頁的數量為a,不相關網頁的數量為b;在未檢測到的互聯網金融網頁中,相關網頁的數量為c,不相關網頁的數量為d。

表3 評價指標

其中,測試數據中與金融業態相關的互聯網金融網頁數目為a+c,不相關的互聯網金融網頁數目為b+d。檢測結果中,判定與金融業態相關的互聯網金融網頁數目為a+b,不相關的互聯網金融網頁數目為c+d。關于實驗中的數據集,源領域和目標領域的樣本均為已標記信息,但目標領域樣本的標記信息僅用于評價各算法的分類性能。正確率P、召回率R和綜合指標F1 的計算方法如下:

3.2 實驗設計與結果分析

本文將各類業態互聯網金融網頁按照test_size=0.5,劃分為訓練集和測試集。同時,按照目標域訓練樣本總數20%的比例,選取目標域中的數據集作為目標域訓練集,剩余為目標領域測試集,實現遷移學習。

本文實驗中所有算法的最優參數均通過網格搜索的方式來確定。其中懲罰因子Ct,μ的選取參照文獻[8]的設定策略,即因目標域參與訓練的樣本數量少,應盡量保證分類的正確性,因此Ct在(0.01,0.05,0.1,0.5,1,5,10,20,50)中選最 優;μ在(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1)中選最優。

通過超平面位置調整參數λ,實現對超平面的最優位置的選定,從而實現對互聯網金融網頁業態識別的準確度。實驗采用本文提出的基于超平面位置優化SVM 的遷移學習算法,通過調整λ的值,確定超平面位置對互聯網金融網頁業態分類的影響情況。由于本文主要針對小數據集的小樣本學習,考慮到提高數據分類的正確率便于后續分類模型的優化,若λ較大,則源領域和目標領域的分類超平面非常接近,出現誤報的概率增大;若λ較小,則源領域和目標領域的分類超平面相對獨立,可有效保證分類的正確率。為保證超平面位置向正類樣本靠近,為負類樣本留出更大的存在可能性空間,λ的取值范圍為(0,1)。

本文實驗采用源領域與目標領域已標記樣本合集作為SVM 的訓練集進行訓練,標記為SVM-ST,利用此方法與遷移學習方法做比較,同時,將本文提出的方法與文獻[8]中提出的TL-SVM 方法做比較,用以說明本文所提方法的優越性。3 種方法在6 個學習任務中的分類性能比較如表4 所示。

表4 3 種方法性能比較

根據實驗結果,得出以下結論:

(1)通過對比3 個實驗的結果發現,遷移學習方法的引入對分類效果有明顯提升,對比SVMST 分類方法,正確率提升較為明顯,TL-SVM 算法較SVM-ST 算法的分類正確率提升了3.2%,F1 測試值提升了0.4%;基于超平面位置調優SVM 遷移算法較SVM-ST 算法的分類正確率提升了4.0%,F1 測試值提升了0.9%,說明遷移學習方法在相似領域的數據分類中,優勢更明顯。

(2)通過對比TL-SVM 算法和SVM-ST 算法的實驗結果,發現對于源領域與目標領域關聯性較低的數據集(網絡借貸vs 網絡銀行),TL-SVM 的分類正確率反而降低了,說明TL-SVM 在處理數據負遷移方面有所欠缺。

(3)通過對比TL-SVM 和基于超平面位置調優SVM 遷移算法的實驗結果,發現通過調整超平面位置,使其向正類樣本靠近,保證了分類的正確率。基于超平面位置調優SVM 遷移算法較TL-SVM算法的分類正確率提升了0.8%,F1 測試值提升了0.5%,說明通過數據增強和分類超平面位置調整,在樣本數量少、無法準確預估負類樣本存在空間的情況下,分類超平面主動靠近正類樣本,保證了分類的正確性。

4 結語

本文提出了基于超平面位置調優的SVM 遷移算法。該方法通過分類調整超平面位置,使其充分靠近正類樣本,結合數據增強技術,實現對小數據集的訓練與檢測,對于數據量不足的互聯網金融網頁來說,有效解決了模型出現過擬合的問題。實驗結果表明,基于超平面位置調優的SVM 遷移算法在小樣本的情況下能夠提高檢測性能指標。

猜你喜歡
分類金融
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
何方平:我與金融相伴25年
金橋(2018年12期)2019-01-29 02:47:36
君唯康的金融夢
數據分析中的分類討論
教你一招:數的分類
P2P金融解讀
給塑料分分類吧
支持“小金融”
金融法苑(2014年2期)2014-10-17 02:53:24
主站蜘蛛池模板: 欧美三级日韩三级| 免费又爽又刺激高潮网址 | 99视频精品在线观看| 国产成人精品午夜视频'| 992Tv视频国产精品| 精品综合久久久久久97超人| 日本影院一区| 亚洲AV无码一区二区三区牲色| 99久久精品国产精品亚洲| 第一区免费在线观看| 中文字幕色站| 亚洲aaa视频| 香蕉精品在线| 欧美国产日产一区二区| 亚洲va视频| 特级毛片8级毛片免费观看| 亚洲色图欧美在线| 99在线国产| 视频一本大道香蕉久在线播放 | 欧洲成人在线观看| 五月激情婷婷综合| 国产亚洲视频中文字幕视频| 日韩成人免费网站| 日日拍夜夜嗷嗷叫国产| 狠狠亚洲婷婷综合色香| 亚洲不卡网| 精品1区2区3区| 国产99精品视频| 精品少妇人妻一区二区| 国产特级毛片| 四虎在线观看视频高清无码| 东京热高清无码精品| 国产日韩丝袜一二三区| 色吊丝av中文字幕| 国内精品视频在线| 亚洲国产系列| 国产99视频精品免费视频7| 91精品国产麻豆国产自产在线| 97视频免费在线观看| 国产欧美日韩精品第二区| 久久综合色视频| 又大又硬又爽免费视频| 久久精品国产精品国产一区| 91免费观看视频| 久草视频精品| 亚洲VA中文字幕| 国产sm重味一区二区三区 | 色丁丁毛片在线观看| 欧美成人免费| 亚洲男人在线天堂| 国产一区三区二区中文在线| 国产成人精品免费av| 免费a级毛片18以上观看精品| 免费看av在线网站网址| 在线欧美日韩| 欧美成人aⅴ| P尤物久久99国产综合精品| 国产91丝袜在线播放动漫| 中文字幕啪啪| 一级黄色网站在线免费看 | 高清亚洲欧美在线看| 欧美va亚洲va香蕉在线| 日韩区欧美国产区在线观看| 久久精品丝袜高跟鞋| 亚洲区一区| 国产丝袜一区二区三区视频免下载| 日韩小视频在线播放| 香蕉久久国产精品免| 看国产毛片| 久久综合伊人77777| 曰AV在线无码| 国产高清在线观看91精品| 91av国产在线| 久久久久无码精品国产免费| 欧美精品啪啪| 日韩在线视频网站| 欧美成a人片在线观看| 伊人激情久久综合中文字幕| 免费精品一区二区h| 亚洲伦理一区二区| 亚洲成人免费在线| 国产凹凸一区在线观看视频|