數(shù)據(jù)可視分析挑戰(zhàn)賽三年回顧

2018-03-17 03:31:41趙穎張卓袁曉如

網(wǎng)絡(luò)與信息安全學(xué)報(bào) 2018年2期

趙穎，張卓，袁曉如

趙穎1，張卓2，袁曉如3

（1. 中南大學(xué)信息科學(xué)與工程學(xué)院，湖南長沙 410075；2. 360企業(yè)安全集團(tuán)，北京 100016；3. 北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室，北京 100871）

數(shù)據(jù)可視分析挑戰(zhàn)賽作為我國可視化與可視分析領(lǐng)域的一項(xiàng)重要賽事，經(jīng)過2015~2017三年發(fā)展，已成為推動領(lǐng)域競技交流、人才培養(yǎng)和實(shí)踐創(chuàng)新的重要力量。首先闡述了數(shù)據(jù)可視分析挑戰(zhàn)賽產(chǎn)生的背景和意義，然后從組織形式、比賽內(nèi)容和信息統(tǒng)計(jì)等方面對挑戰(zhàn)賽進(jìn)行了全面的回顧和分析，最后對挑戰(zhàn)賽的未來發(fā)展進(jìn)行了展望。

可視化；可視分析；學(xué)科競賽；數(shù)據(jù)可視分析挑戰(zhàn)賽

1 引言

競賽是各學(xué)科領(lǐng)域完善其教育和科研體系的重要組成部分。對教學(xué)科研來說，競賽具有示范和導(dǎo)向效應(yīng)，可以豐富教學(xué)方式和引領(lǐng)科研方向；對人才培養(yǎng)來說，競賽為參與者提供鍛煉和展示自我、與同行競技交流的平臺；對學(xué)科發(fā)展來說，競賽推動知識和技術(shù)共享，促進(jìn)實(shí)踐與創(chuàng)新融合。以網(wǎng)絡(luò)安全和數(shù)據(jù)挖掘領(lǐng)域?yàn)槔W(wǎng)絡(luò)安全領(lǐng)域已形成奪旗類、破解類和培養(yǎng)類百花齊放的國際化競賽體系[1,2]，有效地促進(jìn)了學(xué)術(shù)界與工業(yè)界的協(xié)同發(fā)展；數(shù)據(jù)挖掘領(lǐng)域頂級學(xué)術(shù)會議KDD每年舉辦的KDD Cup[3]被譽(yù)為大數(shù)據(jù)分析“奧運(yùn)會”，從1997年至今已有二十幾年歷史，見證和推動了數(shù)據(jù)挖掘領(lǐng)域的發(fā)展與繁榮。

近年來，我國在可視化與可視分析領(lǐng)域呈現(xiàn)出較為均衡且加速發(fā)展的態(tài)勢。各高校和研究院的可視化與可視分析研究取得了令人矚目的進(jìn)步，尖端研究初具國際影響，基礎(chǔ)教育日益擴(kuò)大，更多單位開始關(guān)注并加入其中。工業(yè)界正加速布局相關(guān)領(lǐng)域的技術(shù)研發(fā)與行業(yè)應(yīng)用，阿里和百度分別推出了組件式可視化基礎(chǔ)開發(fā)庫DataV[4]和ECharts[5]，360企業(yè)安全[6]和海云數(shù)據(jù)[7]等企業(yè)也紛紛推出了面向行業(yè)的大數(shù)據(jù)可視分析解決方案。與此同時(shí)，可視化技術(shù)也逐步被廣大民眾熟悉與接受，2016年“可視化推動大數(shù)據(jù)平民化”位居中國計(jì)算機(jī)學(xué)會大數(shù)據(jù)專家委員會評選的大數(shù)據(jù)發(fā)展十大趨勢之首[8]。

在此背景下，我國各界有志之士積極借鑒國際賽事的經(jīng)驗(yàn)，在國內(nèi)逐步發(fā)起各類可視化與可視分析競賽，以進(jìn)一步推動領(lǐng)域人才培養(yǎng)和實(shí)踐創(chuàng)新。效仿國際著名數(shù)據(jù)分析競賽平臺Kaggle[9]，阿里云在國內(nèi)創(chuàng)辦了天池大數(shù)據(jù)競賽平臺[10]，并于2016和2017年分別推出了2個(gè)數(shù)據(jù)可視化競賽項(xiàng)目“公益云圖數(shù)據(jù)創(chuàng)新大賽”和“廣東政務(wù)數(shù)據(jù)創(chuàng)新大賽”，2項(xiàng)賽事連續(xù)成功舉辦，使其成為國內(nèi)工業(yè)界可視化大賽的標(biāo)桿。借鑒國際頂級會議IEEE VIS Conference[11]每年舉辦國際可視分析挑戰(zhàn)賽VAST Challenge[12,13]的成功經(jīng)驗(yàn)，國內(nèi)規(guī)模最大的全國性年度可視化與可視分析技術(shù)及產(chǎn)業(yè)應(yīng)用大會ChinaVis[14]，于2015年首次設(shè)置數(shù)據(jù)可視分析挑戰(zhàn)賽（ChinaVis Data Challenge）[15]，三年來，挑戰(zhàn)賽飛速發(fā)展，已成為學(xué)術(shù)界主導(dǎo)的國內(nèi)可視化頂尖賽事。

本文對數(shù)據(jù)分析挑戰(zhàn)賽三年發(fā)展過程進(jìn)行回顧與總結(jié)。首先介紹挑戰(zhàn)賽的產(chǎn)生背景和組織形式，幫助讀者快速了解挑戰(zhàn)賽；然后對三年挑戰(zhàn)賽的報(bào)名情況、評審情況、開發(fā)工具使用情況等參賽者普遍關(guān)心的問題進(jìn)行解答，希望能幫助參賽者快速融入比賽節(jié)奏；同時(shí)還提供了這三年挑戰(zhàn)賽題目與數(shù)據(jù)信息以及其他相關(guān)競賽信息，希望能促進(jìn)各類競賽互相學(xué)習(xí)和共同進(jìn)步，更廣泛、更長遠(yuǎn)地推動領(lǐng)域人才培養(yǎng)和實(shí)踐創(chuàng)新；最后對挑戰(zhàn)賽未來發(fā)展進(jìn)行展望。

2 挑戰(zhàn)賽起源

數(shù)據(jù)可視分析挑戰(zhàn)賽依托于每年召開的中國可視化與可視分析大會。該大會前身是由北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室主辦的可視化研討會，從2008年到2013年間共舉辦了4次。隨著可視化與可視分析研究與應(yīng)用在社會各界的影響不斷加深，為促進(jìn)中國及周邊地區(qū)相關(guān)領(lǐng)域產(chǎn)、學(xué)、研、用協(xié)同發(fā)展，由我國可視化業(yè)界工作者聯(lián)合發(fā)起了中國可視化與可視分析大會，分別于北京（2014年）、天津（2015年）、長沙（2016年）和青島（2017年）成功舉辦了4屆，大會每年吸引了國內(nèi)外數(shù)百名可視化研究人員與領(lǐng)域?qū)＜覅R集一堂，共同探討在大數(shù)據(jù)與人工智能時(shí)代，可視化與可視分析領(lǐng)域面臨的機(jī)遇與挑戰(zhàn)。

中國可視化與可視分析大會于2015年首次設(shè)立數(shù)據(jù)可視分析挑戰(zhàn)賽，至今已成功舉辦3屆。作為大會的一個(gè)重要環(huán)節(jié)，挑戰(zhàn)賽提供一系列精彩的劇本、詳實(shí)的數(shù)據(jù)和具體的問題，并邀請研究人員、開發(fā)人員和愛好者使用他們最有效的可視分析技術(shù)和工具完成數(shù)據(jù)分析任務(wù)。挑戰(zhàn)賽旨在為參賽者提供鍛煉自我和競技交流的平臺，幫助參賽者評估他們的技術(shù)和工具在解決復(fù)雜問題中的有效性和新穎性，推動可視化與可視分析的專業(yè)人才培養(yǎng)，促進(jìn)相關(guān)研究與應(yīng)用的發(fā)展與進(jìn)步。

3 挑戰(zhàn)賽組織形式

挑戰(zhàn)賽的組織工作每年與ChinaVis籌備同步進(jìn)行，總體分為題目準(zhǔn)備、發(fā)布宣傳、公開報(bào)名、作品提交、綜合評審、會場交流6個(gè)階段。

題目準(zhǔn)備階段一般每年年初開始，工作內(nèi)容包括成立挑戰(zhàn)賽組委會、確定贊助商、討論組織方案、準(zhǔn)備比賽題目。360企業(yè)安全集團(tuán)是2015年和2016年挑戰(zhàn)賽的獨(dú)家贊助商，2017年挑戰(zhàn)賽由360企業(yè)安全和海云數(shù)據(jù)共同贊助。贊助商不但為挑戰(zhàn)賽提供獎金和獎品，還在題目準(zhǔn)備、發(fā)布宣傳、綜合評審和會場交流多方面提供技術(shù)支持。近三年挑戰(zhàn)賽題目背景和數(shù)據(jù)都來自真實(shí)場景，一般先由贊助商提供樣本數(shù)據(jù)和總體設(shè)想，然后組委會與贊助商技術(shù)人員一起確定題目細(xì)節(jié)，并根據(jù)題目設(shè)置對數(shù)據(jù)集進(jìn)行清洗、脫敏、加工和驗(yàn)證性分析。

發(fā)布宣傳與公開報(bào)名階段在每年4到5月進(jìn)行。挑戰(zhàn)賽組委會首先會在ChinaVis官方網(wǎng)站上發(fā)布當(dāng)年賽題、答卷和數(shù)據(jù)集，然后通過微博、微信和其他學(xué)術(shù)交流平臺進(jìn)行宣傳。參賽者以組隊(duì)形式網(wǎng)上報(bào)名，全國普通高等學(xué)校和科研院所的師生和研究人員、企事業(yè)單位的開發(fā)人員和設(shè)計(jì)師、愛好者都可以報(bào)名參加挑戰(zhàn)賽。

作品提交時(shí)間一般在ChinaVis召開前一個(gè)月左右，提交要求與VAST Challenge非常類似，每個(gè)參賽隊(duì)必須同時(shí)提交答卷、視頻和論文。答卷要求參賽隊(duì)在完成對數(shù)據(jù)的綜合分析后，用圖文并茂的方式盡可能全面和準(zhǔn)確地回答題目中預(yù)設(shè)的問題。視頻要求參賽隊(duì)通過影音手段解釋其分析方法和流程。論文則是希望參賽隊(duì)用不超過兩頁篇幅總結(jié)其可視分析方案的亮點(diǎn)。

所有參賽作品同時(shí)提交給可視分析專家和領(lǐng)域?qū)＜疫M(jìn)行通信評審，評審重點(diǎn)關(guān)注參賽作品對預(yù)設(shè)問題解答的準(zhǔn)確性以及可視分析方案的有效性，同時(shí)還會從新穎性、可擴(kuò)展性和文檔質(zhì)量3個(gè)方面對作品進(jìn)行綜合評價(jià)。挑戰(zhàn)賽委員根據(jù)專家通信評審結(jié)果進(jìn)行討論后，評選出一等獎、二等獎、三等獎和優(yōu)秀獎作品，并邀請所有獲獎參賽隊(duì)來ChinaVis進(jìn)行現(xiàn)場交流。

挑戰(zhàn)賽在這三年的ChinaVis期間都安排了主會場、分會場和海報(bào)3個(gè)不同的交流環(huán)節(jié)。一等獎參賽隊(duì)將獲得在大會主會場報(bào)告的機(jī)會，同時(shí)組委會和出題方代表也將在主會場介紹本年度比賽總體情況和題目背后的故事。分會場環(huán)節(jié)包括特邀報(bào)告、部分獲獎作品分享、現(xiàn)場討論和頒獎儀式。海報(bào)環(huán)節(jié)則為所有獲獎參賽隊(duì)提供更自由和深入的交流機(jī)會。ChinaVis結(jié)束后，組委會會擇機(jī)公布當(dāng)年賽題的參考答案和獲獎作品，使其能夠在一定程度上成為業(yè)界科研與應(yīng)用研發(fā)的標(biāo)準(zhǔn)測試數(shù)據(jù)集。

4 挑戰(zhàn)賽三年內(nèi)容回顧

本節(jié)分別介紹2015至2017三年挑戰(zhàn)賽的比賽內(nèi)容，包括賽題背景、相關(guān)數(shù)據(jù)和分析需求。

4.1 2015年挑戰(zhàn)賽題目介紹

2015年挑戰(zhàn)賽題目[15]以多源異構(gòu)大數(shù)據(jù)分析為主題，故事背景發(fā)生在一家為企業(yè)和政府機(jī)構(gòu)提供定制化網(wǎng)絡(luò)服務(wù)的互聯(lián)網(wǎng)公司。該公司內(nèi)部網(wǎng)絡(luò)平臺上運(yùn)行著很多業(yè)務(wù)系統(tǒng)，這些業(yè)務(wù)系統(tǒng)每天都會產(chǎn)生很大流量，不幸的是，某幾天公司某個(gè)內(nèi)部系統(tǒng)出現(xiàn)了安全問題，導(dǎo)致該公司的部分重要數(shù)據(jù)泄露。該公司想了解那幾天到底發(fā)生了什么事情，因此將那一段時(shí)間的多種網(wǎng)絡(luò)安全日志數(shù)據(jù)提供出來，希望參賽者能以網(wǎng)絡(luò)安全分析人員的身份，采用可視分析技術(shù)對這些數(shù)據(jù)進(jìn)行分析，幫助該公司找到答案，并提供網(wǎng)絡(luò)安全改進(jìn)方案。

挑戰(zhàn)賽在上述業(yè)務(wù)場景下設(shè)置了兩道比賽題目。第一題關(guān)注公司內(nèi)網(wǎng)正常運(yùn)行模式分析，提供了一周約700 MB的Tcpflow日志數(shù)據(jù)，希望參賽者準(zhǔn)確找到公司內(nèi)部網(wǎng)絡(luò)的客戶端和服務(wù)器，總結(jié)公司內(nèi)網(wǎng)有哪些正常網(wǎng)絡(luò)通信模式。第二題關(guān)注安全事件分析，提供了兩周共10 GB的4種網(wǎng)絡(luò)安全日志數(shù)據(jù)（Tcpflow日志、HTTP Header日志、數(shù)據(jù)庫行為日志、各應(yīng)用系統(tǒng)登錄日志），希望參賽者能分析出這次安全問題發(fā)生的原因、相關(guān)網(wǎng)絡(luò)資源、演化過程以及造成的危害。

4.2 2016年挑戰(zhàn)賽題目介紹

2016年挑戰(zhàn)賽[16]設(shè)置了2個(gè)背景完全不同的題目。第一個(gè)題目是對2015年挑戰(zhàn)賽題目的延續(xù)，該題仍以某互聯(lián)網(wǎng)公司的內(nèi)網(wǎng)安全為背景，提供的仍是Tcpflow網(wǎng)絡(luò)流量日志數(shù)據(jù)。不同的是這次Tcpflow數(shù)據(jù)的信息更為豐富，記錄了網(wǎng)絡(luò)數(shù)據(jù)流在應(yīng)用層、網(wǎng)絡(luò)層和鏈路層3個(gè)層面的信息，時(shí)間跨度2個(gè)月，數(shù)據(jù)量230 MB。參賽者被要求分析流量數(shù)據(jù)中隱含的正常模式和異常事件，并設(shè)計(jì)新穎的可視化方案，有效展示多層次網(wǎng)絡(luò)行為模式。

第二題背景來自網(wǎng)絡(luò)安全領(lǐng)域一個(gè)非常著名的真實(shí)事件。Hacking Team[17]是一家意大利米蘭的信息技術(shù)公司，該公司向客戶提供信息系統(tǒng)入侵、文件解密與通信監(jiān)視服務(wù)。2015年7月5日，Hacking Team公司被黑客入侵，入侵者通過公司官方Twitter賬號公布了該公司許多內(nèi)幕信息并通告該公司的內(nèi)部數(shù)據(jù)已經(jīng)泄露，近400 GB被公開的內(nèi)部電子郵件、各種相關(guān)文件和源代碼引起了業(yè)界的一片嘩然。挑戰(zhàn)賽從這批數(shù)據(jù)中提取了公司內(nèi)部十多年約400 MB的郵件數(shù)據(jù)作為比賽數(shù)據(jù)集，邀請參賽者通過分析郵件數(shù)據(jù)，解密Hacking Team公司的組織結(jié)構(gòu)，分析該公司的發(fā)展歷程及各發(fā)展階段的業(yè)務(wù)特點(diǎn)。

4.3 2017年挑戰(zhàn)賽題目介紹

2017年挑戰(zhàn)賽[18]以時(shí)空數(shù)據(jù)分析為主題，設(shè)置了兩道賽題，分別對應(yīng)2個(gè)不同社會熱點(diǎn)問題。第一題的背景是偽基站行為分析。偽基站即假基站，能夠搜集以其為中心、一定半徑內(nèi)的手機(jī)卡信息，利用GSM驗(yàn)證漏洞偽裝成真基站，冒用銀行、運(yùn)營商、國家機(jī)關(guān)或他人號碼，強(qiáng)行向用戶發(fā)送詐騙、色情、賭博、廣告等垃圾短信，這不僅干擾公共頻率資源，影響正常通信，而且嚴(yán)重侵害了社會秩序。手機(jī)衛(wèi)士軟件可以根據(jù)用戶舉報(bào)的垃圾短信信息，初步確定當(dāng)時(shí)偽基站的近似位置，但偽基站流動性強(qiáng)，依據(jù)近似位置和傳統(tǒng)數(shù)據(jù)分析方法，仍然很難準(zhǔn)確把握偽基站的活動規(guī)律。本題提供北京市2個(gè)月約753 MB標(biāo)注為偽基站發(fā)送的垃圾短信樣本數(shù)據(jù)，希望參賽者鑒別不同垃圾短信類型，并分析其相關(guān)偽基站時(shí)空活動規(guī)律，為執(zhí)法人員打擊整治偽基站出謀劃策。

第二題背景是關(guān)于某市黑網(wǎng)吧整治行動。隨著網(wǎng)絡(luò)寬帶進(jìn)入千家萬戶，網(wǎng)吧經(jīng)營舉步維艱，于是部分經(jīng)營者不惜采用接納未成年人、通宵營業(yè)等違規(guī)經(jīng)營方式吸引顧客。某市正在開展嚴(yán)查黑網(wǎng)吧的專項(xiàng)執(zhí)法行動，但網(wǎng)吧數(shù)量龐大，傳統(tǒng)挨個(gè)排查方法不僅耗時(shí)耗力，還為黑網(wǎng)吧提供了規(guī)避查處的準(zhǔn)備時(shí)間。為了提升全局掌控能力和執(zhí)法效率，某市公安局將市內(nèi)3 000多個(gè)網(wǎng)吧基本信息及3個(gè)月約1.7 GB上網(wǎng)記錄數(shù)據(jù)提供出來，希望參賽者從數(shù)據(jù)中識別不同上網(wǎng)人群，探索上網(wǎng)人群的時(shí)空行為特征，檢測非法上網(wǎng)行為與團(tuán)伙上網(wǎng)行為，為甄別黑網(wǎng)吧提供線索，為犯罪預(yù)防和維護(hù)社會公共安全提供新思路。

5 挑戰(zhàn)賽三年統(tǒng)計(jì)分析

本節(jié)從報(bào)名情況、評審情況和其他情況3個(gè)方面對2015至2017年挑戰(zhàn)賽的相關(guān)信息進(jìn)行統(tǒng)計(jì)與分析。

5.1 報(bào)名情況

挑戰(zhàn)賽要求參賽者以組隊(duì)方式報(bào)名，圖1顯示了這三年的報(bào)名隊(duì)伍數(shù)量和隊(duì)伍類型所占比例。三年來，挑戰(zhàn)賽的影響力迅速擴(kuò)大，報(bào)名隊(duì)伍數(shù)量保持高速增長，2017年相比2015年增加了三倍多。如果某個(gè)參賽隊(duì)的成員以學(xué)生居多，則將這支參賽隊(duì)當(dāng)作學(xué)生隊(duì)，否則當(dāng)作企業(yè)工程師或愛好者隊(duì)。這三年參賽隊(duì)絕大多數(shù)都是學(xué)生隊(duì)，其中專科生占1%，本科生占35%，碩士生占42%，博士生占4%，指導(dǎo)老師占18%。參加形式多樣的學(xué)科競賽對青年學(xué)生來說有著多方面意義，因此依托學(xué)術(shù)會議舉辦的數(shù)據(jù)分析挑戰(zhàn)賽，學(xué)生順理成章地成為主力軍。

圖1 挑戰(zhàn)賽報(bào)名隊(duì)伍數(shù)量與隊(duì)伍類型三年統(tǒng)計(jì)

企業(yè)工程師和愛好者隊(duì)2015年有1支，2016年有3支，2017年達(dá)到了9支，雖然總體占比很少，但仍是挑戰(zhàn)賽的亮點(diǎn)之一。特別是企業(yè)工程師隊(duì)，他們一般會根據(jù)其行業(yè)背景非常有針對性地選擇賽題，能給人們帶來更深入的見解，2017年有2支獲獎企業(yè)工程師隊(duì)的日常工作都與賽題背景有關(guān)。企業(yè)工程師和愛好者越來越多地參與進(jìn)來，反映了挑戰(zhàn)賽正在逐步引起工業(yè)界更多的關(guān)注，有利于促進(jìn)學(xué)術(shù)界與工業(yè)界間多種形式的互通與交流。

5.2 評審情況

正式提交進(jìn)入評審階段的作品數(shù)量一般要比報(bào)名隊(duì)伍數(shù)少，2016和2017年報(bào)名隊(duì)伍的提交比例大概在60%左右，2015年提交比例最高，19支報(bào)名隊(duì)伍中有14支提交作品，這與第一屆比賽只有相對小范圍人群關(guān)注有關(guān)。在作品提交數(shù)量和獲獎率上，本文將挑戰(zhàn)賽與VAST Challenge進(jìn)行比較分析。圖2和圖3分別顯示了挑戰(zhàn)賽和VAST Challenge這三年的作品提交與獲獎情況。挑戰(zhàn)賽作品提交數(shù)量增長很快，而VAST Challenge作品提交數(shù)量呈現(xiàn)較大幅度波動，挑戰(zhàn)賽的獲獎率明顯高于VAST Challenge獲獎率。一方面反映出VAST Challenge參賽者具有更高的專業(yè)水平，另一方面也因?yàn)樵趧?chuàng)辦初期的挑戰(zhàn)賽希望通過適當(dāng)提高獲獎比例來吸引更多參賽者。

圖2 挑戰(zhàn)賽作品提交數(shù)量與獲獎比例三年統(tǒng)計(jì)

圖3 V AST Challenge作品提交數(shù)量與獲獎比例三年統(tǒng)計(jì)

挑戰(zhàn)賽通信評審采取分項(xiàng)打分形式，每位評審專家要對所評作品從分析質(zhì)量（解答題目預(yù)設(shè)問題的準(zhǔn)確性）、可視化設(shè)計(jì)、交互設(shè)計(jì)、新穎性、可擴(kuò)展性和文檔質(zhì)量6個(gè)方面做出量化評價(jià)，5分制評分，1分為最差，5分為最好，這6個(gè)方面的權(quán)重占比分別是30%、20%、20%、10%、10%和10%。圖4顯示了三年所有提交作品分項(xiàng)打分統(tǒng)計(jì)情況，包括每項(xiàng)的平均分和方差。從平均分方面看，參賽者普遍提交了較為整齊、清晰和可讀性高的作品文檔與視頻，因此文檔質(zhì)量平均分明顯高于其他評分項(xiàng)；挑戰(zhàn)賽這三年每個(gè)賽題都提供了參考答案，評審專家可以較客觀地對分析質(zhì)量打分，平均分較好的分析質(zhì)量反映了參賽者都能認(rèn)真地理解題目需求和努力地分析數(shù)據(jù)，并較好地解答了題目預(yù)設(shè)問題；可視映射與交互功能是可視分析系統(tǒng)相輔相成的2個(gè)最重要的組成部分，交互設(shè)計(jì)平均分明顯低于可視化設(shè)計(jì)，反映了許多參賽者把更多精力投入到了呈現(xiàn)和解釋數(shù)據(jù)方面，而忽略了交互功能帶來的分析和理解作用；新穎性平均分也相對較低，反映了提出和實(shí)現(xiàn)有創(chuàng)新性的可視化與交互設(shè)計(jì)及新算法，對大部分參賽者難度較大。從方差方面看，交互設(shè)計(jì)和新穎性2個(gè)打分項(xiàng)的方差明顯高于其他4項(xiàng)，結(jié)合這2項(xiàng)平均分也相對較低，說明它們是目前評價(jià)體系中對作品質(zhì)量區(qū)分度最大的評分項(xiàng)。

圖4 挑戰(zhàn)賽作品評審各評分項(xiàng)的平均分與方差統(tǒng)計(jì)

5.3 其他情況

在其他情況分析中，本文重點(diǎn)討論開發(fā)工具使用和數(shù)據(jù)下載情況。本文按年統(tǒng)計(jì)了所有提交作品用到的開發(fā)工具，表1給出了每年使用次數(shù)排名靠前的開發(fā)工具。D3（data driven document）[19]連續(xù)三年排名榜首實(shí)屬意料之中，強(qiáng)大的定制能力和方便的數(shù)據(jù)驅(qū)動模式，使它成為當(dāng)前可視分析領(lǐng)域復(fù)雜系統(tǒng)開發(fā)與前沿技術(shù)研究的首選工具。同為BI（business intelligence）工具的Excel和Tableau[20]出鏡率都很高，其中，Excel因微軟Office系列工具在國內(nèi)更為普及，排名一直比Tableau靠前。在數(shù)據(jù)處理方面，MySQL是數(shù)據(jù)存儲首選工具，Python則成了算法處理首選。Gephi[21]的使用率高，主要因?yàn)檫@三年賽題都與網(wǎng)絡(luò)分析有關(guān)。非常值得一提的是開源可視化庫Echarts[5]，它從2015年和2016年的第七名飛躍至2017年的第二名，這是國產(chǎn)可視化工具甚至國產(chǎn)開源軟件的驕傲。

表1 挑戰(zhàn)賽作品使用開發(fā)工具統(tǒng)計(jì)排名

每年挑戰(zhàn)賽數(shù)據(jù)被下載次數(shù)要遠(yuǎn)大于報(bào)名隊(duì)伍數(shù)量，這間接反映了挑戰(zhàn)賽不但為參賽者提供鍛煉和交流的機(jī)會，還為廣泛的業(yè)內(nèi)人士和愛好者提供了背景故事和標(biāo)準(zhǔn)測試數(shù)據(jù)集。據(jù)不完全統(tǒng)計(jì)，2016年第一題數(shù)據(jù)在比賽期間就被來自961個(gè)不同IP地址的用戶下載了1 120次，第二題數(shù)據(jù)被下載了607次；2017年第一題數(shù)據(jù)在比賽期間被來自380個(gè)不同IP地址的用戶下載了556次，第二題數(shù)據(jù)則被下載了305次。在比賽完成后，這些數(shù)據(jù)仍持續(xù)被下載，據(jù)不完全統(tǒng)計(jì)，2016年的第一題數(shù)據(jù)在賽后5個(gè)月內(nèi)又被累計(jì)下載了400多次。

6 結(jié)束語

數(shù)據(jù)可視分析挑戰(zhàn)賽吸引了眾多學(xué)生、教師、企業(yè)工程師和愛好者，并為他們提供了一個(gè)競技、交流、學(xué)習(xí)的舞臺。這三年，挑戰(zhàn)賽在規(guī)模增長和影響力擴(kuò)大等方面取得了令人鼓舞的成績，筆者收到了參賽者和關(guān)注者大量正面積極的評價(jià)，也收到了很多非常好的建議。今后幾年，挑戰(zhàn)賽將進(jìn)一步吸引學(xué)會、政府部門及社會各界有志之士以多種形式參與進(jìn)來，努力擴(kuò)大國內(nèi)甚至國際影響力。筆者還將不斷完善和豐富比賽組織形式，例如，設(shè)置應(yīng)用創(chuàng)新類或創(chuàng)意設(shè)計(jì)類題目、設(shè)置單項(xiàng)獎勵(lì)、優(yōu)化賽程和評審機(jī)制等。總之，筆者仍然非常看好數(shù)據(jù)可視分析挑戰(zhàn)賽的發(fā)展前景，也期待與社會各界一起努力，共同推動可視化與可視分析領(lǐng)域競賽體系建設(shè)，促進(jìn)領(lǐng)域的發(fā)展與進(jìn)步。

致謝

感謝中國可視化與可視分析大會指導(dǎo)委員會對挑戰(zhàn)賽籌備的大力支持；感謝2015年及2016年挑戰(zhàn)賽共同主席新疆大學(xué)努爾布力、中國科學(xué)院時(shí)磊、天津大學(xué)張亞平和國防科大大學(xué)宋漢辰對挑戰(zhàn)賽組織工作的貢獻(xiàn)；感謝360企業(yè)安全的黃鑫、黃偉、李秋生，海云數(shù)據(jù)的李龍輝和華德禹，西南電子電信技術(shù)研究所的王勁松為挑戰(zhàn)賽提供技術(shù)支持；感謝所有通信評審專家在百忙之中為參賽作品給出中肯細(xì)致的評價(jià)；感謝所有參賽者和參會者的熱情參與。

[1] 諸葛建偉. 我國網(wǎng)絡(luò)空間安全技能競賽現(xiàn)狀漫談[J]. 中國計(jì)算機(jī)學(xué)會通訊, 2016, 12:(6):49-50.

ZHUGE J W. Discussion on the present situation of Chinese cyberspace competition[J]. Communications of the CCF, 2016, 12(6): 49-50.

[2] 余翔湛, 張宏莉, 于海寧, 等. 網(wǎng)絡(luò)空間安全競賽及人才管理[J]. 中國工程科學(xué), 2016, 18(6):49-52.

YU X Z, ZHANG H L, YU H N, et al. Cyberspace security competition and talent management[J]. Engineering Sciences, 2016, 18(6): 49-52.

[3] KDD Cup 2017 homepage[EB/OL]. http://www.kdd.org/kdd2017/ calls/view/kdd-cup-2017-call-for-proposals.

[4] DataV homepage[EB/OL]. https://data.aliyun.com/visual/datav.html.

[5] ECharts homepage[EB/OL]. http://echarts.baidu.com.

[6] 360企業(yè)安全集團(tuán)主頁[EB/OL]. http://www.360.net.

360 Enterprise Security Group homepage[EB/OL]. http://www. 360.net

[7] 海云數(shù)據(jù)主頁[EB/OL]. http://www.hiynn.com/hy-zh.

HYDATA homepage[EB/OL]. http://www.hiynn.com/hy-zh.

[8] 潘柱廷, 程學(xué)旗, 袁曉如, 等. CCF大專委2016年大數(shù)據(jù)發(fā)展趨勢預(yù)測—解讀和行動建議[J]. 大數(shù)據(jù), 2016, 2(1):105-113.

PAN Z T, CHENG X Q, YUAN X R, et al. Developing trend forecasting of big data in 2016 from CCF TFBD: interpretation and proposals[J]. Big Data Research, 2016, 2(1):105-113.

[9] Kaggle homepage[EB/OL]. https://www.kaggle.com.

[10] 阿里天池主頁[EB/OL]. https://tianchi.aliyun.com.

Tianchi homepage[EB/OL]. https://tianchi.aliyun.com.

[11] IEEE VIS conference homepage [EB/OL]. http://ieeevis.org

[12] VAST challenge homepage[EB/OL]. http://www.vacommunity.org.

[13] COOK K, GRINSTEIN G, WHITING M. The VAST challenge: history, scope, and outcomes: An introduction to the Special Issue[J]. Information Visualization, 2014, 13(4):301-312.

[14] 中國可視化與可視分析大會主頁[EB/OL]. http://chinavis.org.

ChinaVis conference homepage[EB/OL]. http://chinavis.org.

[15] ChinaVis data challenge 2015 Homepage [EB/OL]. http://chinavis. org/2015/challenge.html.

[16] ChinaVis data challenge 2016 Homepage [EB/OL]. http://chinavis. org/2016/challenge.html.

[17] Hacking team Wiki homepage[EB/OL]. https://en.wikipedia.org/ wiki/Hacking_Team.

[18] ChinaVis data challenge 2017 homepage[EB/OL]. http://chinavis. org/2017/challenge.html.

[19] D3 homepage[EB/OL]. https://d3js.org.

[20] Tableau homepage[EB/OL]. https://www.tableau.com.

[21] Gephi homepage[EB/OL]. http://gephi.org.

ChinaVis Data Challenge from 2015 to 2017

ZHAO Ying1, ZHANG Zhuo2, YUAN Xiaoru3

1. School of Information Science and Engineering, Central South University, Changsha 410075, China 2. 360 Enterprise Security Group, Beijing 100016, China 3. Key Laboratory of Machine Perception (Ministry of Education), Peking University, Beijing 100871, China

The evolution of the ChinaVis Data Challenge from its origin 2015 to 2017 was presented. Firstly, the background and organization of the Data Challenge were introduced. Then, the competition contents and statistical data of the three years were summarized. Finally, the future development of the Data Challenge was discussed.

visualization, visual analytics, discipline contest, ChinaVis Data Challenge

TP393

10.11959/j.issn.2096-109x.2018012

趙穎（1980-），男，湖南益陽人，博士，中南大學(xué)副教授，主要研究方向?yàn)樾畔⒖梢暬c可視分析。

張卓（1988-），男，山東青島人，360企業(yè)安全集團(tuán)高級工程師，主要研究方向?yàn)楦呒壨{檢測、大數(shù)據(jù)與網(wǎng)絡(luò)安全、安全可視化與可視分析。

袁曉如（1975-），男，江蘇吳江人，博士，北京大學(xué)研究員，主要研究方向?yàn)榭茖W(xué)可視化、信息可視化、可視分析、計(jì)算機(jī)圖形學(xué)和人機(jī)交互。

2017-12-05；

2018-01-13

趙穎，zhaoying@csu.edu.cn

國家自然科學(xué)基金資助項(xiàng)目（No.61402540, No.61672538）

The National Natural Science Foundation of China (No.61402540, No.61672538)