999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于流形學習方法的大數據分析技術在檢驗檢疫行業中應用探討

2015-05-30 10:48:04徐勝林魏穎昊仵冀穎
計算機時代 2015年7期
關鍵詞:數據分析大數據

徐勝林 魏穎昊 仵冀穎

摘 ?要: 在大數據時代背景下,數據分析技術廣泛應用于提取海量數據中的有效信息。檢驗檢疫行業形成了以CIQ2000綜合業務管理系統為基礎,以電子申報、電子監管、電子放行為主要內容的中國電子檢驗檢疫建設格局,積累了大量來源不同、類型不同、時間周期不同、用途不同的結構化和非結構化數據。針對檢驗檢疫業務數據的非線性特征,介紹了基于流形學習方法的大數據分析技術,探討了其在檢驗檢疫業務中應用的可能性。

關鍵詞: 大數據; 檢驗檢疫; 流形學習; 數據分析

中圖分類號:TP391.4 ? ? ? ? ?文獻標志碼:A ? ? ? ?文章編號:1006-8228(2015)07-09-04

Research on manifold learning based big data analysis with the application to inspection and quarantine

Xu Shenglin, Wei Yinghao, Wu Jiying

(Information Center of the General Administration of Quality Supervision Inspection and Quarantine of the People's Republic of China, Beijing 100088, China)

Abstract: With the development of big data, some data analysis techniques were proposed to extract the meaningful information from mass data. From 2000, there is a great development of the inspection and quarantine informatization. The construction pattern of electronic declaration, electronic supervision, and electronic release was established, based on the integrated business management system of CIQ2000. A large amount of structured and unstructured data with different source, variety, cycle, and purpose is accumulated. In this paper, we discuss the manifold based big data analysis technique, which is suitable for the nonlinear property of inspection and quarantine data. Meanwhile, we analyze the application of manifold to inspection and quarantine business.

Key words: big data; inspection and quarantine; manifold learning; data analysis

0 引言

隨著信息技術、計算機技術和網絡技術的不斷發展,人類社會迅速邁入了一個嶄新的數字時代。利用大量的信息平臺和網絡建設,改善了信息的交互、存儲和管理效率,從而生成、傳播出大量的數據,稱為“大數據”。一般認為大數據具有四個基本特征:數據體量大(Volume)、價值密度低(Value)、來源廣泛特征多樣(variety)、增漲速度快(Velocity)。簡言之,大數據可以理解為海量的、對于社會生活各個層面都更加有用的數據資產。

大數據的概念在社會上已經廣泛流傳多年,而在檢驗檢疫行業的應用才剛剛起步。在實際工作中,大數據與檢驗檢疫業務關系密不可分。2014年全國出入境法檢貨物共994.32萬批次,貨值達1.2萬億美元。自檢驗檢疫綜合業務管理系統(CIQ2000)在2000年上線使用以來,經過十幾年的積累,檢驗檢疫貨物信息數據量達到億級。隨著我國經濟規模的不斷擴大,檢驗檢疫業務的不斷發展,這個數據將以更快的速度遞增。

大數據處理是伴隨著數據挖掘技術的不斷發展而提出的,其核心問題是對大數據進行分析。大數據分析一方面依賴于優化的復雜大規模數據處理技術,另一方面是模式提取的程序、標準和規范。大數據不僅是指數據量大、數據類型復雜,更重要的是數據中模式結構復雜、信噪比低。特別是在檢驗檢疫行業中,存在大量非結構化數據,既包括檢驗檢疫業務數據、等級評價數據,也包括商品種類、國別等輔助數據??茖W的分析和利用檢驗檢疫大數據,需要更多角度的模式探測和更可靠的模型構建,無論是運用模型生成規則還是直接利用預測結果,都需要更加規范的設計和分析。

本文從數據分析的角度探討大數據在檢驗檢疫行業中的應用價值。首先回顧數據挖掘的概念和基本流程,然后介紹常用的針對大數據的降維方法,特別是基于流形學習的方法。最后對大數據分析方法在檢驗檢疫行業中的應用進行探討。

1 數據挖掘的概念和基本流程

一般認為,數據挖掘的概念最早由Fayyad在KDD會議上提出[1],定義為:一個自動或半自動化地從大量數據中發現有效的、有意義的、潛在有用的、易于理解的數據模式的復雜過程。

數據挖掘的核心任務是探索數據特征并建立合理的數據關系。根據最終建立的數據關系特點,可分為有監督的學習和無監督的學習。有監督的學習是指對有明確預設目標的數據學習和建模,主要包括分類、識別和預測三方面功能。無監督的學習目的是分析并模擬數據的概念結構,主要包括關聯分組、聚類和可視化三方面。在無監督學習中,沒有明確的標示變量用于表達目標概念,主要任務是從大量數據中提取潛在的可能模式,探索并建立數據聯系和內在結構。

數據挖掘主要包括六個基本流程[10]。

⑴ 問題識別

問題識別是從大量的復雜數據中,找到數據挖掘及分析要解決的核心問題。針對核心問題去建模和試驗模擬才能找到有效的數據分析方案。識別問題時,重點明確問題屬性,兼顧問題的整體性、長期性、系統性和風險性要求。

⑵ 數據理解

數據理解是確認待解決的核心問題與掌握的數據間的匹配程度,包括對數據價值的理解和對數據質量的理解兩方面。在實際應用過程中,獲取的數據可能存在大量的過期、無效數據,以及不一致、重復、不完整、不穩定的數據。

⑶ 數據準備

為數據分析的需要,要將所獲得的有價值的數據匯集在一起,形成數據庫或數據集市。以檢驗檢疫行業數據為例,需要將不同系統獲取的數據整合在一起。而各個檢驗檢疫系統,例如CIQ2000系統、通關單聯網核查系統、原產地業務系統等相對獨立,數據來源、數據記錄格式、數據級別和命名規則也存在差異。因此在數據準備階段需要完成數據抽取、轉換和裝載三方面的工作。

⑷ 建立模型

數據建模是整個數據挖掘流程中最核心的環節,目的是使用機器學習算法對大量的數據進行建模分析,從而建立對數據最終待解決核心問題最合適的模型。建立模型階段除了需要掌握先進的計算機技術、機器學習算法,還需要有經驗豐富的業務人員。分析人員的業務知識和經驗有利于發現數據間的潛在關系,剔除隨機異常數據等。

⑸ 模型評價

模型建立完畢后,需要對模型進行功能性評價和服務性評價。所謂功能性評價是指模型對任務完成的質量,包括精準性評價和穩健性評價,常用方法為增益圖法和ROC曲線法。服務性評價通常是指實際服務的能力,經技術驗證有效的模型并不一定是正確的模型。因為在實驗環境下建模通常存在大量的假設,在實際應用中會出現偏差。用戶體驗質量(Quality of Experience, QOE)是一種以用戶認可程度為標準的服務性評價。

⑹ 部署應用

模型建立并經過評價驗證后,可以部署應用。例如進行數據分類、數據預測、數據評價等工作。部署應用通常與一定的數據展現方式緊密結合在一起。

2 基于流形學習的大數據分析技術

本文主要探討數據準備階段的工作,就是利用先進的流形學習算法進行數據降維及分析。傳統的數據降維方法中最常用的是主元分析(Principal Component Analysis,PCA)[2]和線性鑒別分析(Linear Discriminant Analysis,LDA)[3]。PCA是一種無監督的學習算法,是最小方差準則條件下基于數據重構的最優描述方法,其任務就是找到數據變化的主要方向,并以這些方向為坐標軸構建一個低維子空間。利用PCA可以將特征的維數從表觀數據數量減小到特征數目。LDA是一種有監督的學習算法,LDA充分利用類別信息,尋找能夠最大化類間離散度,同時最小化類內離散度的投影方向。

PCA和LDA這類傳統的降維方法原則上只對近似于線性分布的數據有意義,即要求高維輸入空間中的樣本處在某個低維的線性子空間內。而在實際應用過程中,特別是像檢驗檢疫這樣數據來源復雜的行業問題中,輸入樣本無法滿足線性分布,而是呈現非線性的“流形”分布。為了解決這類非線性問題,提出了流形學習算法。

流形學習的任務是從高維采樣數據(大數據)中發現其原本所在的低維流形結構,并得到相應的映射,以實現維數降低。流形學習要求我們從數據集的整體,從內在幾何特性來分析數據,從而獲取與之相一致的低維參數化。進一步講,流形學習就是要找到產生觀察數據的內在規律,或者說從現象發現本質。這意味著流形學習比傳統的降維方法更能體現事物的本質,更有利于對數據的理解和進一步處理。從統計角度看,流形學習不依賴于數據集的先驗假設(如獨立性假設、正態分布假設等),而是在更一般的意義下去完成針對數據集的各項任務,如降維,數據挖掘等。

近年來,科學家們提出了大量基于流形學的數據分析算法。本文對局部線性嵌入算法(Locally Linear Embedding,LLE)[4]、等距映射算法(ISOMAP)[5]、拉普拉斯特征映射算法(Laplacian eigenmaps,LE)[6]進行簡單介紹。

⑴ 局部線性嵌入算法

假設有N個取樣自某個平滑流形的m維的數據樣本xi∈Rm(i=1,2,…,N),而且N足夠大以保證流形被很好地取樣。LLE的基本假設是:采樣自流形的每個數據點和它的近鄰點位于或者近似地位于一個局部的線性超平面。這樣每個點就可以用其鄰域點的線性組合來近似,而線性組合的系數可以用來描述這些點所在的局部幾何結構。這樣的假設符合流形定義中關于局部歐拉性的描述,所以是有意義的。在進行流形的低維展開的時候,每一個原始的數據點被映射到m'維歐式空間Rm'中(m'<

⑵ 拉普拉斯特征映射算法

拉普拉斯映射在降維時保持原始樣本在局部的相對距離。它的基本思想是在高維空間中距離較近的點投影到低維空間中的像也應距離較近。LE和LLE都是基于局部特征的算法,求解的都是稀疏矩陣的廣義特征值問題,具有相同的待定參數。圖的拉普拉斯矩陣實際上就是連續流形上拉普拉斯-貝爾特拉米算子。

⑶ 等距映射算法

ISOMAP算法建立在多尺度變換基礎之上,其目的是保持數據流形內在的幾何性質,即流形上每兩點之間的測地線距離。與LLE和LE不同,ISOMAP是基于全局特征的算法,因此適用于學習內部平坦的低維流形,但不適用于學習有較大內在曲率的流形。另外,ISOMAP中的參數選擇對最終算法的結果影響很大。鄰域過大,會造成流形展開后不同鄰域的點混雜在一起;而鄰域過小,雖然能夠保持整體的內在幾何結構,但低維展開后會產生“空洞”現象,或使最短路徑算法重構的圖不連通。因此,參數選擇問題影響了ISOMAP算法在實際問題中的應用效果。

3 檢驗檢疫行業的大數據分析探討

自2000年以來,中國電子檢驗檢疫建設得到了較快發展,先后完成了中國電子檢驗檢疫業務平臺和網絡建設[7]。實現了檢驗檢疫與企業、檢驗檢疫機構之間、檢驗檢疫與海關等部門的數據交換。完成了總局與35個直屬局廣域網和699個檢驗檢疫分支機構的局域網建設。直屬局建立了以雙主機、雙存儲、雙線路為基礎的區域集中運作環境。確定了以CIQ2000綜合業務管理系統為基礎,以電子申報、電子監管、電子放行為主要內容的中國電子檢驗檢疫建設格局,尤其是進出境貨物電子監管等系統的應用,奠定了對檢驗檢疫業務工作全過程電子化管理的基礎。

CIQ2000綜合業務管理系統作為該體系的核心系統,在進出境貨物受理報檢、施檢登記、簽證放行和業務統計等的電子化管理中,起到了重要的支撐作用。在整個檢驗檢疫信息系統架構中,包含了大量來源不同、類型不同、時間周期不同、用途不同的數據。從數據分析的角度,這些數據可主要劃分為以下幾種。

⑴ 業務相關數據

檢驗檢疫業務工作流程中所涉及到的數據包括報檢數據、簽證數據、審單數據等。這些業務數據也包含不同類型,例如國別數據、貨物種類數據、產地數據、編號數據和計收費數據等。這些數據是直接由日常業務操作產生的,數據量大,更新速度快,種類繁多,且其中會夾雜大量的錯誤數據、無效數據等,既包含結構化數據,也包含大量非結構化數據。

⑵ 監督管理類數據

監督管理是實現檢驗檢疫工作“前推、后移”的業務模式改革的基礎工作。依據法律法規、規章和國家強制性規范,以及各方面的質量及檢疫信息,提出對某一企業特定產物的具體的檢驗檢疫要求,以實現對產品的電子監管。主要分為體系監管、出口生產批監管、質量反饋及跟蹤和體系監管措施調整。其中包括企業類別、產品類別、監管結果等各類數據。

監督管理類數據主要是由針對報檢批后續監管和體系監管產生的,數據類型較為固定,更新速度較快,一般為非結構化數據。

⑶ 支撐數據

支撐數據主要是指各類檢驗檢疫證單格式、規格、種類、證單用紙、用途以及其填制內容,還包括與國外相關機構簽訂協議所涉及的各類證單、標識封識以及簽證印章等。支撐類數據不是由日常業務操作產生的,因此較為固定,一般都為非結構化數據。

⑷ 風險預警數據

風險預警類數據來源包括施檢、體系監管、風險監控和國外通報等?,F有系統中的風險預警數據通過手工錄入和系統中不合格施檢數據自動轉入兩種方式。風險預警數據也隨著日常業務操作不斷產生,但變化周期不會像業務數據那么頻繁,也主要包括非結構化數據。

⑸ 其他輔助數據

在檢驗檢疫業務系統中還包含了大量其他輔助數據,例如企業檔案數據、業務檔案數據、注冊備案管理數據等,其中每一類數據又是由大量種類復雜的數據項組成的。其變化周期各不相同,同時包含結構化和非結構化數據。

綜上所述,檢驗檢疫行業中蘊含大量數據,但數據來源廣泛,且以非結構化數據為主,數據產生速度快,其中包含的有效信息較少。因此,如需有效利用這些數據,首先需要對數據進行分析和處理,將高維空間中的原始數據降維到低維空間中,從而使用傳統的數據分析工具進行信息抽取。這些高維空間中的數據顯然不滿足線性條件約束,因此可以應用現代的基于流形學習的降維算法進行處理。

4 大數據在檢驗檢疫行業中應用思考

目前,已經有一些大數據技術應用于檢驗檢疫行業[8-9],例如利用大數據信息進行質量溯源、企業信用評價、業務互聯互通、業務規模趨勢預測,以及運用大數據進行工作量評估等。

⑴ 質量溯源

在綜合業務管理系統CIQ2000的基礎上,全國各地的檢驗檢疫機構陸續建立了一些用于產品溯源管理的信息系統,例如:深圳檢驗檢疫局研發的“供港蔬菜檢驗檢疫監管系統”,三明檢驗檢疫局開發的“出口番茄制品安全身份認證與生產供應鏈系統”,蘇州檢驗檢疫局建立的“進口酒類監管智能化管理平臺”等,分別實現了對進口、出口產品信息的溯源管理。這些系統在一定范圍內實現了對產品歷史數據的追蹤與管理,方便了檢驗檢疫機構和消費者了解產品信息。

然而,這些系統還停留在區域化的階段,數據間無交互,沒能實現真正的大數據統一管理。建立統一的產品質量信息溯源系統,真正實現產品相關信息從生產到進出口的全流程管理,同時利用現代的數據分析技術,提取其中的有效信息,應用于日常管理,將是今后的發展方向。

⑵ 企業信用評級

為全面有效地掌握及整合企業信用信息,質檢總局建設了進出口企業信用管理系統,制定了企業信用管理辦法及評分標準。通過對進出口企業檢驗檢疫信用等級實施規范化、定量化、科學化的考核,改變以人的主觀判斷來確定企業信用等級的方式,促進進出口企業信用意識和產品質量的提高,同時提高一線檢驗檢疫工作效率。

傳統的信用等級評價方法是根據與檢驗檢疫相關的信用指標設定評定標準,然后建立專家系統進行主觀或者客觀的綜合評價。近年來,為準確、客觀、科學的進行企業信用評價,國內外很多學者作了大量研究工作,將數據分析、預測模型引入信用評級。弱化了人為因素對預測結果的影響,同時提高了評價結果的準確性、科學性。今后,建立模型統一、評價指標統一的信用評級模型將有利于檢驗檢疫工作的科學化、規范化管理。

⑶ 信息互聯互通

強化大通關協作機制,推進口岸管理相關部門信息互換、監管互認、執法互助,是當前檢驗檢疫業務工作重點。信息時代,離不開共享共用。推動檢驗檢疫與其他口岸查驗部門間的合作,實現進出境產品信息的共享共用,試行單證無紙化和出入境檢疫指令快速放行,推進國際貿易便利化。當然,在實現信息互聯互通的同時,確保檢驗檢疫網絡及信息系統安全是首要任務。

5 總結

信息時代,離不開數據的共享和利用,檢驗檢疫行業在過去十幾年快速發展的基礎上,已經積累了大量有效的數據??茖W、合理的利用這些數據,提取其中蘊含的豐富信息,將會對檢驗檢疫業務發展起到推動作用,將檢驗檢疫事業不斷推向新的高度。

參考文獻:

[1] Usama M. Fayyad, Ramasamy Uthurusamy (Eds.): Proceedings of

the First International Conference on Knowledge. Discovery and Data Mining[C], Montreal, Canada,1995.8:20-21

[2] M. Turk, A. P. Pentland, Face recognition using eigenfaces, IEEE

Conference on Computer Vision and Pattern Recognition[C]. Hannover, Germany,1991:586-591

[3] P. N. Belhumeur, J. P. Hespanha, D. J. Kriegman, Eigenfaces vs.

Fisherfaces: recognition using class specific linear projection[J], IEEE Transactions on Pattern Analysis and Machine Intelligence,1997.19(7):711-720

[4] T. Roweis, L. K. Saul. Nonlinear dimensionality reduction by

locally linear embedding[J].Science,2000.290:2323-2326

[5] J. B. Tenenbaum, V. D. Silva, J. C. Langford, A global geometric

framework for nonlinear dimensionality reduction[J].Science,2000.290:2319-2323

[6] M. Belkin, P. Niyogi, Laplacian Eigenmaps and spectral techniques

for embedding and clustering[C]. Proceedings of the Conference on Advances in Neural Information Processing Systems,2001:585-591

[7] 國家質量監督檢驗檢疫總局中國電子檢驗檢疫主干系統項目概要

設計說明書(總冊)[R].

[8] 魏哲.淺談檢驗檢疫溯源管理中的大數據應用[J].中國科技期刊數據

庫,2014.7:271

[9] 王曉燕,嚴茂根.基于人工神經網絡的出口食品加工企業檢驗檢疫信

用評價[J].計算機應用與軟件,2010.27(5):191-193

[10] 王星.大數據分析:方法與應用(第一版)[M].清華大學出版社,2013.

猜你喜歡
數據分析大數據
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
淺析大數據時代對企業營銷模式的影響
基于讀者到館行為數據分析的高校圖書館服務優化建議
科技視界(2016年22期)2016-10-18 14:37:36
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 粉嫩国产白浆在线观看| 美女免费黄网站| 欧美日韩激情| 日韩专区欧美| 黄色一及毛片| 亚洲色图欧美视频| 日韩高清成人| 国产高潮流白浆视频| 国产乱子伦视频在线播放| 青青草原国产免费av观看| 久久精品国产999大香线焦| 在线观看无码av免费不卡网站 | 国产精品一区二区久久精品无码| yy6080理论大片一级久久| 国产手机在线ΑⅤ片无码观看| 中国成人在线视频| 欧美在线三级| 国产精品网曝门免费视频| 亚洲综合狠狠| yjizz国产在线视频网| 99精品久久精品| 欧洲极品无码一区二区三区| 99精品久久精品| 欧美天堂在线| 亚洲伊人久久精品影院| 91啦中文字幕| 久久不卡精品| 国产va在线观看| 国产精品冒白浆免费视频| 色偷偷一区| 另类欧美日韩| 久久6免费视频| 国产丝袜91| 99久久国产综合精品2020| 亚洲无线视频| 少妇露出福利视频| 国产视频入口| 亚洲中文字幕97久久精品少妇| 黄网站欧美内射| 国产美女在线观看| 国产乱人免费视频| 亚洲中文在线看视频一区| 国产一区二区三区在线无码| 欧美69视频在线| 亚洲熟女偷拍| 一区二区无码在线视频| av一区二区三区高清久久| 亚洲欧美日韩另类在线一| 黄色在线不卡| 伊人天堂网| 色噜噜狠狠狠综合曰曰曰| 亚洲男女在线| 欧美亚洲第一页| 日韩成人在线网站| 中文字幕有乳无码| 在线看国产精品| 99精品视频在线观看免费播放| 国产不卡在线看| 色网在线视频| 欧美国产日韩另类| 伊人色在线视频| 亚洲国产天堂在线观看| 亚洲视频色图| 无码一区二区三区视频在线播放| 国产成人精品一区二区秒拍1o| 久久久精品无码一区二区三区| 亚洲精品无码在线播放网站| 亚洲床戏一区| 热99re99首页精品亚洲五月天| 伊在人亚洲香蕉精品播放| 91网在线| 精品福利国产| 国产Av无码精品色午夜| 91精品专区国产盗摄| 91精品aⅴ无码中文字字幕蜜桃| 日韩欧美中文| 中文字幕第4页| 色综合天天操| 亚洲免费黄色网| 88国产经典欧美一区二区三区| 国产毛片久久国产| 青青热久麻豆精品视频在线观看|