金瑾 劉偉 王正剛 巫家敏 李波



摘 ?要:為了適應當前新的外貿形勢,海關監(jiān)管部門需要不斷強化風險防控管理。本文通過調研分析當前海關風險防控中的重難點問題,借助最新的大數(shù)據(jù)和人工智能技術,改進風險防控管理流程,本文提出通過將海關報關單數(shù)據(jù)進行二維化表示,用現(xiàn)有的深度學習架構進行訓練,從而得出風險評估結果。這種方法相比于傳統(tǒng)的人工方法能夠有效提高通關時效。實驗驗證了這種方法在風險防控中的有效性。本文提出的方法也可以被通用于多字段表格數(shù)據(jù)的處理問題。
關鍵詞:大數(shù)據(jù);人工智能;風險防控;提質增效
中圖分類號:TP183 ? ? 文獻標識碼:A
Research on Intelligent Risk Control in the Customs
JIN Jin1, LIU Wei2, WANG Zhenggang2, WU Jiamin2, LI Bo2
(1.Chengdu Neusoft University, Chengdu 611844, China;
2.Chengdu Customs of the People's Republic of China, Chengdu 610041, China)
jinjin@nsu.edu.cn; 45711577@qq.com; wangzgxs@outlook.com;
WuJiamin@nsu.edu.cn; li-bo@nsu.edu.cn
Abstract: In view of new development of foreign trade, the Customs have to strengthen the risk control. This paper uses the latest big data and artificial intelligence technology to improve the risk control management process, through analyzing the key issues within current Customs. This paper proposes a framework to assess risks by deep learning algorithms with two-dimensionally presented Customs declaration data. Compared with traditional manual methods, this method effectively improves the time-efficiency of Customs clearance. The proposed approach can be applied to processing multi-field table data and is verified to be effective.
Keywords: big data; artificial intelligence; risk control; improvement of quality and efficiency
1 ? 引言(Introduction)
海關查驗是海關管理部門維護國門安全和依法征稅,打擊走私的重要環(huán)節(jié),是保障進出口貿易安全不可或缺的手段[1]。一方面由于進出口貨物貿易的數(shù)量龐大,種類繁多,海關監(jiān)管部門不可能做到面面俱到,而且覆蓋所有商品的風險狀況對關員也是一個巨大的挑戰(zhàn)。另一方面隨著國際貿易的飛速發(fā)展,進出口貨物貿易的海量查驗任務和海關人力資源不足的矛盾凸顯[2]。
當下,大數(shù)據(jù)技術的飛速發(fā)展最終將引領人類社會邁進智能型社會的新形態(tài)。海關風險防控已經開始由傳統(tǒng)人工分析向風險模型評估分析和智能化分析方式轉變[3]。我們設計的風險判別模式有別于傳統(tǒng)風險判別模式,需要借助CNN對歷史單證進行參數(shù)學習,形成對輸入模型的單證進行風險判別,最后提交給風險布控人員進行具體操作,實現(xiàn)計算機輔助風險布控作業(yè)模式。
2 ?成都海關風險防控面臨的挑戰(zhàn)(Challenges faced by Chengdu Customs in risk control)
2.1 ? 智能化風險分析探索不夠
目前海關風險防控管理流程為人為地提取近期全國海關風險信息數(shù)據(jù),結合基貨物歷史報關單和艙單數(shù)據(jù)來進行風險評估分析,一方面,在整個流程中數(shù)據(jù)共享存在一些壁壘,沒有完全實現(xiàn)各類單證數(shù)據(jù)的共用共享,風險分析人員很難從宏觀角度全面把握貨物貿易的整體風險[4]。另一方面,過分依賴人工分析判斷容易產生以下三個方面的問題:一是人與人之間存在思維、判斷等方面的差異,在風險分析和判別的過程中,不可避免的摻雜人為因素,無法做到統(tǒng)一標準實施風險管理和布控;二是需要從事風險判別的關員具備豐富的風險分析經驗,以保證風險分析和布控的準確度,才能確保一定水平的查獲率;三是人工判別效率不高,難以滿足海量貨物通關的需要,各級政府要求貨物通關提速和違法商品輸入風險增加的矛盾很難通過現(xiàn)有風險分析判別流程加以解決[5]。
2.2 ? 外貿交易新態(tài)勢導致風險防控的難度增大
有效地全供應鏈風險識別、預警系統(tǒng),能夠準確判斷貿易中面臨的風險,可以幫助海關有效監(jiān)管,對風險做出正確預測、識別、判斷風險級別,以制定相應的策略,避免損失的發(fā)生,將風險損失降低到最低。目前,國內外關于供應鏈風險的研究已經取得一定的成果,一些定量研究也運用到了供應鏈之中,然而供應鏈風險識別、預警問題方面的研究方法單一,定性研究居多,定量研究不足,研究過程中存在大量的人為主觀因素。
2.3 ? 數(shù)據(jù)分析的時效性和可視化程度不高
現(xiàn)階段,開展風險防控分析工作使用的數(shù)據(jù)來源較為單一、相關數(shù)據(jù)和信息相對缺乏、數(shù)據(jù)挖掘和展示工具還需加強。風險管理和分析工作仍然沒有擺脫人工調取所需數(shù)據(jù)、簡單圖表描述趨勢的傳統(tǒng)模式,離大數(shù)據(jù)時代的智能化分析目標存在一定差距。在當前經濟全球化趨勢和國際市場瞬息萬變的形勢下,實時和準確的大數(shù)據(jù)分析有利于更快地發(fā)現(xiàn)問題并迅速作出響應,提高對進出口市場和商品分析的時效性顯得尤為必要。
3 ?智慧風控平臺的主要功能設計(Basic functionality of an intelligent risk management platform)
智能化風險防控流程,需要測試不同算法流程在報關數(shù)據(jù)風險值判別方面的優(yōu)劣,本文設計的表格數(shù)據(jù)風險值自動判別流程能夠完成海關報關數(shù)據(jù)風險自動識別。本節(jié)介紹的模型致力于將人工風險判別流程智能化,實現(xiàn)海關報關數(shù)據(jù)風險智能化判定。風險防控智慧分析平臺(以下稱智慧分析平臺)具備提升風險防控智慧分析的能力。首先需要利用自然語言處理(Word Embedding)算法將來自各種渠道的情況通報信息進行初步收集和加工,建立描述性信息的文本特征向量數(shù)據(jù)庫,利用無監(jiān)督聚類算法對數(shù)據(jù)庫中具有參考價值的特征向量進行記錄和聚類分析,得出情況通報中代表不同國別、產地、數(shù)量等重要文字和數(shù)字信息的類別簇,分析有價值的敏感高頻風險信息并賦予不同的權重值,作為神經網絡模型的輸入信息對后續(xù)報關單分類產生作用。然后通過搭建使用的神經網絡模型對歷史報關單數(shù)據(jù)和貨物查驗結果進行多批次訓練,最終達到能自動識別報關單、艙單等單證風險的等級,并按照特定的模板輸出貨物的分析報告,最后由分析人員對其進行更高層級的風險判斷,得出某一時間段、某種商品的風險指數(shù),形成一種新的海關智慧風險防控流程。在節(jié)省大量人力成本的同時,提高貨物貿易風險甄別的準確性,提升口岸現(xiàn)場高危商品的查獲率。
3.1 ? 報關單數(shù)據(jù)風險值標注
我們的數(shù)據(jù)集包含三種進口商品近五年13078條數(shù)據(jù),實驗過程采用隨機抽取10000條數(shù)據(jù)作為訓練集,另外3078條數(shù)據(jù)作為驗證集。參與風險值標注的人員均由經驗豐富的一線關員擔任,關員根據(jù)各方面通報信息為每一條報關單數(shù)據(jù)賦予一定的風險等級數(shù)據(jù)作為每條數(shù)據(jù)的標簽。風險等級分為10個等級,從低到高分別為1—10。
3.2 ? 報關單數(shù)據(jù)清洗和二維化
近年來,卷積神經網絡在圖像分類、識別、分割等領域的應用已經相當成熟,涌現(xiàn)出如Resnet[6]、U-net[7]等優(yōu)秀的網絡結構。圖像主要分為灰度圖像和色彩圖像,灰度圖像就是二維矩陣,每個像素點的值的范圍在0—255,彩色圖像可以由RGB、HSV方式分解為三個不同的像素矩陣。
原始報關單數(shù)據(jù)包含申報日期、運輸方式、貿易國別、提運單號等71個字段信息,其中包含數(shù)字,漢字英文字母。必須設置數(shù)據(jù)字典將數(shù)據(jù)轉化為CNN能夠識別的編碼。有字符串、浮點、時間類型的數(shù)據(jù)對于時間格式的數(shù)據(jù)提取相關年份,浮點類型數(shù)據(jù)中有小數(shù)的列進行四舍五入,如果有缺失值則全填充0。
具體編碼方式為:
根據(jù)列名遍歷每一列,判斷每列數(shù)據(jù)類型:
(1)如果是str類型,直接去重,按索引編號。
(2)如果是float或者int類型數(shù)據(jù),當這一列中存在某一個值大于255,則對這一列數(shù)去重,再按照索引進行編碼,否則不處理。
編碼過程中,報關單數(shù)據(jù)有上萬條,有超過圖像像素0—255的情況,此時我們采用RGB三通道編碼,三通道編碼存在256×256×256=16777216種不同的情況,可以基本滿足數(shù)據(jù)集編碼要求。
每條數(shù)據(jù)的自動編碼完成后,執(zhí)行數(shù)據(jù)轉置,實現(xiàn)每條數(shù)據(jù)的二維化,相當于將一個向量轉置為一個矩陣。這樣所有的一維數(shù)據(jù)轉換成為二維圖像數(shù)據(jù)。
3.3 ? 轉置數(shù)據(jù)輸入網絡完成參數(shù)訓練
為實現(xiàn)較好的報關單數(shù)據(jù)智能化風險識別,我們采用近年來在圖像分類中成熟運用的幾種網絡結構進行實現(xiàn)對比,分別是殘差網絡(Resnet)、U網絡(U-Net)、Incentive-V3[8]三種網絡結構。實驗的環(huán)境為Python,實驗的參數(shù)為Tensorflow默認參數(shù)。實驗通過對比選用最適合報關單數(shù)據(jù)智能化風險識別的結構作為智慧平臺報關單數(shù)據(jù)風險分析的神經網絡模型。
(1)Resnet
殘差網絡是由一系列殘差塊組成的。一個殘差塊可以用表示為:
(1)
殘差塊分成兩部分直接映射部分和殘差部分,其中是直接映射;是殘差部分,一般由兩個或者三個卷積操作構成。
在卷積網絡中,可能和的特征圖的數(shù)量不一樣,這時候就需要使用1×1卷積進行升維或者降維。
(2)U-net
U-net是2015年提出的,U-net將輸入進行2次3×3的卷積操作之后,進行一次2×2的最大池化,同時卷積核數(shù)目翻倍(1-64-128-256-512-1024),進行四次這樣的下降操作,然后2次3×3卷積,取一半的卷積核進行上采樣(轉置卷積),再剪切對應下降層的特征圖像,和上采樣得到的特征圖像拼接在一起,然后重復這樣的過程。最后輸出是深度為n個特征圖像,進行分類。
U-Net這個網絡可以應對小樣本的數(shù)據(jù)集進行較快、有效地分割,能夠泛化到很多應用場景中去。
(3)Inception_V3
這里對整個Inception-V3結構體系結構做如下介紹:從輸入端開始,先有三個卷積層,然后是一個池化層。然后又是兩個卷積層,一個池化層。緊接著用不同數(shù)量的卷積層進行并行卷積,每一套卷積層之間均用連接層(紫色)進行連接,為了防止網絡過擬合,網絡的后端還添加了丟包層(淺藍色)。
3.4 ? 實驗結果對比
我們設置不同的超參數(shù)對比各個CNN結構在報關數(shù)據(jù)集上的分類識別效果和網絡訓練時間。三種結構均選用相同的32個卷積層,在不同輪次(2000,5000,10000)下的Top1及Top5正確率對比分別記錄在表1、表2和表3中。
由表1的結果可知,在訓練輪次為2000時,正確率最高的網絡模型為Inception-V3,但是該模型訓練的時長比Resnet和U-net較長。同樣表2和表3的結果與表1相近,隨著訓練輪次的增加,三種模型的準確率均有較明顯的提升,但是訓練時長也相應地增加。但是相對于純人工的查驗,這個時間是在可以接受的范圍內的。而海關查驗對準確率要求相對較高。
通過多輪實驗對比和對實際問題的考慮,智慧平臺選用Inception-V3結構作為報關單數(shù)據(jù)智能化風險識別的驗證結構。將訓練好的參數(shù)應用到識別過程,將輸入報關單進行報關單數(shù)據(jù)編碼和二維化以后,輸入網絡,得出當前報關單數(shù)據(jù)的風險值,為口岸現(xiàn)場關員提供某一票貨物的直觀參考,省去大量人工分析過程,提升海關口岸查貨率。
4 ? 結論(Conclusion)
面對新形勢、新要求,海關風險防控應積極應對大數(shù)據(jù)帶來的各種新挑戰(zhàn),充分發(fā)揮海關風險防控應用大數(shù)據(jù)的社會價值。本文探索了一種智能化的風險防控方法,該方法將海關的報關單數(shù)據(jù)通過數(shù)據(jù)轉換,變?yōu)槎S數(shù)據(jù)。從而可以將二維數(shù)據(jù)應用于現(xiàn)階段較為成熟的CNN結構,CNN強大的分類處理能力為風險防控提供支撐。初步的實驗表明,Inception-V3結構作為報關單數(shù)據(jù)智能化風險識別的驗證結構是一種較好的選擇,驗證了本文所提方法對于風險防控的
有效性。本文的方法也為多字段表格類數(shù)據(jù)的處理提供了一種較為新穎的選擇。
參考文獻(References)
[1] 劉奇超,彭城.京津冀海關區(qū)域通關一體化取向:由歐盟海關風險管理觀察[J].改革,2014(010):92-101.
[2] 魏毅斐.對我國海關風險管理機制的思考[J].河南商業(yè)高等專科學校學報,2013(03):26-28.
[3] 李新民,徐倩,陶黎,等.國外海關風險管理的經驗及對我國海關的啟示[J].上海海關學院學報,2013(4):56-62.
[4] 丁煥苗.試論海關管理風險的防控[J].海關與經貿研究,2014,035(005):59-65.
[5] 盧金秋.人工神經網絡在海關風險管理中的應用研究[J].計算機工程與應用,2006(27):212-215.
[6] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 770-778.
[7] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]. International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.
[8] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 2818-2826.
作者簡介:
金 ?瑾(1988-),女,碩士,講師.研究領域:人工智能,大數(shù)據(jù).
劉 ?偉(1969-),女,本科,工程師.研究領域:人工智能,信息系統(tǒng).
王正剛(1982-),男,碩士,工程師.研究領域:人工智能,信息系統(tǒng).
巫家敏(1976-),男,博士,教授.研究領域:人工智能,大數(shù)據(jù).
李 ?波(1981-),男,博士,副教授.研究領域:人工智能,大數(shù)據(jù).