文/符冰 金耀輝
?
上海交通大學開放數據給學生創新舞臺
文/符冰金耀輝
開放數據(Opan Data)最早是由政府發起和推動,旨在為公眾提供信息透明和決策依據。如今,開放數據的受關注度越來越高,國內各大城市也把開放數據作為智慧城市重要組成部分。與此同時,高校作為一個有鮮明特點的環境和群體,在相應的智慧校園的建設中,也離不開校園開放數據。
開放數據是一類可以被任何人免費使用、再利用、再分發的數據。開放數據幾個主要特性是:可獲取性和可訪問性、再利用和再分發、普遍參與性。開放數據與大多數的大數據不同,開放數據是公開并且有目的性的。最基本的例子比如手機的GPS(全球定位系統),或是天氣預報,就是開放數據。開放數據的目標是,相關組織主動發布開放數據,人們可以使用、分析和應用個人所需的數據,帶動公眾力量最大限度的挖掘數據價值。
從2009年起,隨著各國政府(比如美國,英國,加拿大,新西蘭等)相繼宣布了他們的公眾信息開放計劃,開放數據受到了主要關注。2012年起,隨著上海和北京相繼推出政府數據服務網,揭開了國內政府開放數據的序幕,開放的數據內容涵蓋了公共安全、公共服務、交通、環境、衛生等重點領域,不僅為公眾和企業的數據查詢提供方便,也將為互聯網應用產業帶來巨大潛力。
就高校而言,國外不少高校制定了本機構的數據管理政策,對數據共享進行指導和規范,像伯克利大學、滑鐵盧大學都建立了開放數據平臺,并且提供服務。而國內高校開放數據還未真正起步,智慧校園相關的一站式服務還僅限于整合現有業務系統資源。管理者限于對普遍用戶需求的精準把握以及對所掌握數據資源的謹慎性,導致現有存量數據并沒有發揮出應有的價值。因此,推動校園開放數據,借助眾包模式群眾智慧,共創智慧校園勢在必行。
大數據時代的基礎要求
開放數據有利于盤活存量數據,實現數據價值。大數據時代,數據是根本,高校也不例外。隨著信息化建設的推進,高校各業務部門通過交換平臺實現了基礎的信息共享,但仍然有大量數據沉淀在各自的應用系統中沒有被充分利用。數據被利用起來才有價值,管理者雖然可以通過建設數據倉庫來實現一定的決策統計分析,但大量數據仍然沒有轉化為信息并被利用,一方面是由于用于共享的交換數據仍然占很小的比例,大部分并沒有實際用起來;另一方面是由于各部門對數據的敏感性、隱私性、安全性考慮而限制開放。
智慧校園建設的重要組成部分
數據是智慧校園的基礎,開放數據則是打開智慧校園的鑰匙。智慧校園的根本是信息的精準推送,用戶隨時隨地想要什么信息就能方便的獲取到才體現智慧。智慧校園不是一個人、一個部門的事情,需要群策群力,共同建設。智慧校園最有效的推動力是大量的活躍的個體,核心力量是數據分析者和開發者,包括創新開發團隊和第三方公司,公共部門要做的就是做好開放數據提供平臺。校內師生不僅僅是數據的生產者和消費者,更為重要的是,也可以作為數據的分解者,這就是智慧校園的生態系統。如何調動全校的力量,探索適合自己的智慧校園建設模式,是各高校應該著力探討的方向。
有利于提高運行效率、激發創新
開放數據不僅僅只是增加信息透明度,更多有效信息的傳播通常能使得運行效率更加高效。網絡、食堂、教室、一卡通等公共資源的運行數據,如果放在開放平臺上,就有可能被深度挖掘,變成有用的信息。從最基本的用途講,用戶就可以選取合適的時間、方式以最高效的方式去做自己的事情。進一步講,無論從興趣還是從創新創業角度,開放數據都會大大激發用戶參與度,開發出各類創新應用,這是從管理者層面憑一己之力很難做好的。下文提到的智慧校園開放數據大賽就是很好的例子。
數據分級分類開放
隨著信息化建設的推進,高校各業務系統通過整合數據源、完善門戶、開發流程等應用集成技術,基本都在各自云數據平臺建立了業務數據存儲和數據倉庫。但開放數據不是所有數據都公開,核心是要在開放數據層面和信息安全層面找到合適的平衡點。開放數據是一個逐步的過程,也伴隨管理決策者對開放數據的理解和意識,學校層面應研究制定適合本校的開放數據管理政策,各業務職能部門制定詳細的數據分類與分級方案,根據實際需要面向特定對象或用戶個體開放。
具體來說,數據可按部門和業務系統分類:人事、財務、資產、科研、一卡通等等,這些可稱為校務數據,是從管理層面來看的,每一類數據可按照表1中四個級別定義。

表1 數據分級定義
1.保密數據。顯然,這是國家法律法規以及各高校政策規定的需要保密的數據,屬于私密數據,只能內部開放使用。比如涉密的科研課題相關數據。
2.敏感數據。敏感的含義相對較廣,包括從管理層面考慮的個體群體對某些數據信息的接受程度、文化觀念差異等復雜因素,為避免不必要的負面效應會比較謹慎,也包括從個人層面對個人信息、行為軌跡等隱私信息的開放接受程度不同,會造成大量數據都在此列。比如一卡通消費記錄、考試成績等等。敏感數據的開放原則是在主管部門和個人授權許可的前提下控制性開放。
3.一般數據。可以理解為按需開放的數據,不涉及保密和隱私,只要有需求,滿足相應接口定義就能開放。比如環境信息、運動場館信息等等。
4. 公開數據。比如網站、搜索引擎獲取到的公開的信息。
校園開放數據平臺建設
開放數據僅僅是第一步,如何管理應用好這些數據,還涉及到數據治理、權限控制、落地機制等諸多環節。做好開放數據平臺建設,重點要做好落地環節(如圖1)。

圖1 校園開放數據平臺層次示意
落地環節保障了數據到信息的轉化,是智慧校園精準信息推送的基礎。其中關鍵要做好對開發、運維者的服務和資源配給,同時又要兼顧管理需要。
1.完善的統一身份認證和授權體系。高校都十分注重組織架構和人員身份的管理,統一身份認證和授權體系保證了各業務、數據的分級授權控制,確保信息安全。
2.云服務平臺。面向開發者提供的可靠、便捷的私有云資源,開發者無需投入過多精力在基礎架構運維上,可以更聚焦于應用和創新。
3.接口開放的能力。不僅要包含傳統的網頁端接入能力,更要包含互聯網新媒體環境下移動客戶端、微信端的接入能力。開放形式可以根據具體內容、要求,通過標準API的形式,也可以用更直接的方式基于Web以特定格式提供下載。
可持續發展的運營機制
運營是個商業化的概念,是指不斷體現產品商業價值的持續投入。具體到高校來說,開放數據的落地就是應用,傳統的大數據往往是數據的擁有者和管理者獨自在玩,他們作為開放數據平臺生態系統的數據消費者,往往注重了強關聯性的業務層面的數據使用,無論從功能需求上還是從UI設計上,都很難創造出吸引大多數年輕的學生群體的應用。而學生中的草根團隊作為一個個活躍的群體,卻往往處于四處爬數據甚至用釣魚方式獲取數據的尷尬境地。開放數據給了這些草根團隊廣闊的舞臺,他們的熱情和參與度可以作為智慧校園開放數據的有力補充。需要建立以管理者為指導、充分帶動、發揮學生能動性的運營團隊,不斷豐富和完善開放數據內涵。
上海交通大學在開放數據與共享上積累了一定經驗,建立了一套較為完整的授權體系,并利用開源軟件建立了開放數據平臺,通過進一步探索開放更多校園數據,可以為師生提供一個實踐開放數據和構建智慧校園的生態環境,讓師生在豐富多樣的開放數據世界中,充分發揮想象力和創造力。
校園開放數據平臺
開放數據要求數據不僅要從政策上開放,還要從技術上開放,基本的準則是:簡單易用、易發現、易獲取。開放數據是一個迭代的過程,可以先從小的、簡單的、快捷的數據開始開放,盡早且頻繁地讓現有的或潛在的用戶使用或再利用那些數據。
1.公共開放的CKAN平臺
CKAN(Comprehensive Knowledge Archive Network)提供了一種讓數據發布者便捷高效的展示開放數據以及再提交開放數據的方式,并且已被美國、英國、澳大利亞部署用于國家層面的政府開放數據平臺建設。CKAN是可以方便的搭建集數據發布、數據共享、數據搜索和數據使用為一體的管理平臺,并且提供了強大而完善的RPC APIs供用戶調用。它的基本組成是數據集和組織,數據集是數據存儲的基本單元,其中可以包含多個資源文件,提供豐富的元數據,同時可以方便快速地搜索和下載使用。組織是用來創建、管理、發布數據集集合的,用戶可以在組織中扮演不同的角色,并被賦予不同級別的權限來創建、編輯和發布數據。
公共開放的原始批量數據提供,使得使用者不存在對原始提供者的依賴,可以更自由地發揮使用。上海交通大學網絡信息中心利用開源平臺CKAN搭建了校園開放數據平臺,目前已有6個組織和20個數據集,提供CSV、TXT、PDF、JSON等多種便捷方式公開下載使用,其中也包括了為首屆智慧校園開放數據大賽提供的三個重量級的數據集。
2. OAuth體系保護的API建設
API方式是高校信息系統開發標準接口方式,也是開放數據的重要提供形式。API方式的優勢,一是可以結合高校自有的統一身份認證和授權體系實現對用戶資源保護的權限控制,在管理角度和保護用戶角度做到很好的平衡;二是API通常和一個實時更新的數據庫連接起來,這意味著任何通過API的請求數據都將是最新更新的,不必實時盯著數據集更新。
上海交通大學已實現基于OAuth授權體系保護的API建設模型,在各業務系統建設的同時,API建設也在同步進行,并在學在統一的技術規范下已經建設完成了約40個開放API,范圍涵蓋用戶基本信息、教學信息、信息流控制、工作流信息、非結構化存儲等信息化常見的多個領域,已經被多個應用廣泛使用。對開發者來說,只需要申請一個令牌,就可以方便的調用API獲取相應資源。API方式的不足之處在于開發和維護量的高成本投入,尤其是開放資源越來越多的趨勢下。
智慧校園開放數據大賽
將數據轉化為成果落地智慧校園,需要添加催化劑,鼓勵大眾參與。比賽形式是較為直接的激發大眾創新的最有效的手段,甚至可以成為解決實際問題的眾智眾包平臺。上海交通大學通過舉辦首屆智慧校園開放數據大賽,最終效果超出了預期,吸引了校內外500多人參與,經過宣講會、數據訓練營、初賽決賽,學生的參與度、想象力和數據分析能力超乎想象,甚至通過數據挖掘發現了管理的盲區。開放數據大賽的成功可以歸結為于以下幾個方面:
1. 高質量的開放數據
開放數據大賽首次開放了校內某半年的一卡通消費流水、WIFI上網日志、氣象信息共計千萬級別的記錄信息,賽前的數據清洗就花了兩個多月的時間,在最基礎的匿名化和去隱私化處理上,剔除了大量無關數據,保證了數據的可靠性。
2. 數據訓練營的引導與宣傳
數據訓練營為開發者包括初學者提供量身定做的裝備,引導學生抓住重點,幫助他們迅速走上正軌。通過28天的社群化、實踐化學習,掌握數據建模與數據分析基礎技能,并為訓練營成員提供專業的數據分析工具和資源。這種領入比賽門檻的做法也吸引到了文科學生參與到作品的可視化展示中。
3.豐厚的回饋機制
學生參賽的目的性很強,或為實實在在的獎金,或為展示自己能力,或為創新創業找伙伴,但最終參賽者拿出的是一個個優秀作品(如圖2)。比賽不僅僅是最后決出參賽者名次,大賽也請到了管理學院、數學系、工業設計系等校內多個院系的專家教授以及校后勤集團、贊助企業、投資人,匯集各方力量,從可行性的角度共同商討智慧校園開放數據環境下的創新創業機會,促進作品以校內應用或創業項目的形式落地。
精彩比賽之余,也看到有待進步的地方,比如數據集的種類和規??梢岳^續擴大。對數據質量、用戶隱私、網絡安全的把握還需努力,畢竟比賽數據是經過處理的,真正將開放數據應用到用戶端,還需要做更多的工作。

圖2 智慧校園開放數據大賽作品示例
學生創新團隊
開放數據的智慧校園發展有兩條線,一是自上而下的學校層面沿著推進信息化建設的方向完善各個業務系統向智慧校園過渡,另一條線就是從下而上用戶層面迎合草根用戶實際需求創建的各類接地氣的創新應用。開放數據在學生團隊運作下,可以發揮更大價值,學生團隊是學校在建設智慧校園過程中不可忽視的一支互補力量。學生的思維天馬行空較為發散,某方面講這是優點,但需要引導,相對而言,導師指導下的學生團隊更容易迸發凝聚的力量。在交大推進開放數據的過程中,前后就有開放移動網絡與信息服務創新工作室(OMNILab)、科賽競賽平臺(KESCI),上海交大數據分析俱樂部(D.A.CLUB_SJTU),成為開放數據推廣運營的主力軍。
校園開放數據是高校管理者與師生溝通的關鍵,彼此在共同的數據上對話,才可有依據地進行有效對話。開放更多的數據,讓師生都有感,管理者也會明白數據對師生的重要性,彼此就會產生正向循環。下一步,學校層面除了加速數據的開放,也期盼用戶端提供更多的創意、需求回饋,彼此找到真正的運作模式;師生除了扮演監督的角色,也盼望多加參與數據的使用,回饋需求想法;運營者是管理層面與終端師生用戶重要的溝通平臺,應運作使力促進各方的相互協同,朝向更互信互利的共贏模式,共創智慧校園。
(作者單位為上海交通大學網絡信息中心)