趙宇翔,仝 沖,張 妍
互聯網的飛速發展推動了開放數據的進程。圖書館、檔案館、博物館等文化遺產和文化記憶機構作為公共文化服務領域的主體單位,承擔著文化資源組織、傳播、保存、利用和服務的職責。伴隨著知識獲取方式和文化服務方式的數字化浪潮,公共文化服務機構在大數據時代面臨一系列數字化轉型。2018年國務院頒布《科學數據管理辦法》,進一步加強和規范各學科領域的科學數據管理并提升科學數據開放共享程度。目前各級政府部門和專業學科在政策引領下開展數據開放與共享工作,并規劃建設相應的開放數據平臺,進一步推進開放數據應用。然而,公共文化服務機構的開放數據存在體量龐大、結構復雜、形式多樣、分散孤立等問題,在開發、利用和深度聚合等方面還存在較大困難,僅僅依靠公共文化服務機構自身的力量還不足以應對在開放數據價值挖掘以及基于公眾差異化需求的知識創新服務等方面帶來的挑戰。
鑒于此,為了更好地利用及深度開發各類開放數據資源,激勵更多的公眾參與到該過程中,開放數據競賽(open data competition)模式在一些公共文化機構中得以開展。開放數據競賽是主辦方以推動互聯網公共的開放數據的挖掘和使用為目的,旨在收集某一領域對網絡開放數據成功應用案例的一種競賽形式[1]。開放數據競賽與開源軟件競賽和眾包競賽類似,均以競賽形式號召相關個體、學術團體和社會各界力量的參與,激發新的服務創意和原型產品(如微信小程序、Apps、交互式信息系統)的開發,最終實現更大程度的開放創新(open innovation)[2]和價值共創(value co-creation)[3]。此外,隨著信息技術在公共文化服務等人文社科領域的廣泛應用和推廣,傳統的人文研究也在創新和拓展,一個新興的交叉研究領域——數字人文(digital humanities)逐漸被學界和業界所關注。數字人文將現代計算機和網絡技術深入應用于人文研究和探索,得益于信息時代人文資料的信息化組織、標引、存儲、檢索和利用,數字人文使傳統的人文內容和結構在數字化的情境中得以進一步深入分析和挖掘。面向公共文化服務的開放數據競賽就是數字人文視域下的新興模式和研究對象,競賽作品結合了科技、文化、藝術、歷史、文學等領域的素材,充分體現了數字人文的概念內涵和應用外延。
已有學者基于國內外成功的開放數據競賽實踐,對項目運作機制進行初步探索[4]。然而,這部分研究仍然停留在宏觀層面,雖然將開放數據競賽看作一種價值共創模式,但對價值共創過程中多主體參與的協作機制和機理還缺乏深入分析,尤其是忽略開放數據競賽中競爭性與合作性共存的特點[5]。開放數據競賽的競爭合作關系是對立統一的。一方面,有限的獲獎名額和獎勵意味著開放數據競賽具有天然的競爭屬性;另一方面,參賽者在參賽過程中也會收到來自主辦方、團隊成員以及其他參賽者之間的幫助和支持。從長遠來看,在參賽過程中所積累的人脈關系和社會資本也能為參賽者帶來更多互利共贏的機會。因此,本文選取上海圖書館數字人文類開放數據競賽為案例,從競賽主辦方和參賽者的雙主體視角,采用社會網絡分析的方法探究競賽各主體之間體現的協作特征。
近年越來越多的政府部門和機構開始向公眾開放社會重要領域的數據集,如教育、健康醫療、消費、衣食住行等方面。這些曾經只在政府和公共服務機構內部獲取和使用的數據,如今可以通過互聯網在諸多平臺上公開獲得[6]。2009年美國聯邦政府發布data.gov開放數據平臺,提供上千可以免費獲取的政府開放數據集[7]。開放數據的一個重要目標是讓公眾在使用這些數據集的同時,將他們的創造力和技術能力轉換成可以解決現實問題并更好地創造價值的軟件應用和產品[8]。隨著開放數據在學界和業界的應用和推廣,越來越多的學者將開放數據視為開放創新的源泉和新形式。
國外開放數據競賽起步較早,學者率先對開放數據競賽進行理論和實踐探索[1,9]。Hjalmarsson等提出開放數據競賽通常指在規定的時間內,參賽者利用開放數據開發出新的想法和原型的一種競賽形式,逐漸成為刺激新產品開發的流行趨勢[10-11]。這種參與形式利用競爭的特點和激勵因素(如物質獎勵、名聲、經驗)刺激公眾開發更高性能的軟件應用[12-13]。從主辦方角度,Schottner對不同的開放數據競賽獎項設置進行對比研究,發現競拍制和排名制會吸引不同類型的參賽者[14]。從參賽者角度,現有研究集中在參賽者的行為模式上。Bullinger等發現具有較高和較低合作程度的參賽團隊會在開放數據競賽中取得較好的結果,合作程度中等的參賽團隊在開放數據競賽中的結果較差[15]。Huang發現開放數據競賽的形式可以激發具有更高抱負的人的自我選擇,而缺乏自我追求的人則會避開開放競賽[16]。
國內對開放數據競賽的探究起步較晚,目前較為知名的開放數據競賽有上海開放數據創新應用大賽(SODA)、上海圖書館開放數據應用開發競賽。前者是以提供開放數據集下載的形式讓開發者參與到開放數據的數據分析過程中,以更好地解決上海的城市問題[17];后者通過上海圖書館搭建開放數據平臺,以應用程序接口(API)的形式允許開發者在個人開發的產品中獲取該館開放數據,實現對開放知識服務模式的應用和創新[18]。趙宇翔等在分析國內外開放數據競賽的案例基礎上,提出開放數據競賽的運作機制[4],并結合數字人文領域的特色,構建創意類開放數據競賽作品的評價體系[19]。董行基于開放數據競賽作品對面向跨語言家譜服務的多元關聯數據匹配進行研究[20]。張磊等結合開放數據競賽探討面向數字人文的圖書館開放數據服務架構和模式[18]。趙星等以開放數據競賽作品為例,構建數字人文視域下的人物專題數據庫[21]。總的來看,目前對開放數據競賽的研究更多關注作品本身,而對競賽中協作和競爭特征的直接探索還較少。
盡管目前在開放數據競賽中針對群體協作特征的研究不多,然而在很多傳統的開放創新環境下開展的相關研究已經為這一主題積累了不少經驗,特別是在開源軟件和眾包等開放情境下。
GitHub是一個面向開源及私有軟件項目的托管平臺[22],因為支持開源項目并為團隊提供協作支持,受到眾多開放創新應用開發者的歡迎。許多學者以GitHub為例,探究開放創新過程中的協作行為與協作模式。Cui等通過模擬仿真的方法對開源軟件社區的共識主動性協作進行探究[23]。Shah基于開源軟件和體育用品的產品開發過程,探索開放創新社區的協作方式[24]。James提出軟件工程將會圍繞社會技術型協作開展[25]。Enkel等從戰略、組織、行為、知識、法律和商業觀點及其經濟意義方面討論開放創新開發的現象和趨勢[26]。總體而言,一些團隊注重通過交流提升團隊的協作程度,屬于顯性協作;一些團隊則會非常依賴系統和工作流程,形成一種隱形協作模式,兩種協作方式都依賴于團隊成員對自己和他人的工作進度的意識(Awareness)[27]。由此可見,現有的開放創新協作行為研究大多聚焦參與者團隊內部的協作行為與協作模式,以及開放社群的群體協作行為。
有學者采用競合(coopetition)概念描述開放創新的競爭與合作共存的關系。Noorda1992年提出“競合”概念,用于描述諾威爾公司的發展策略[28]。起初競合被認為是跨組織層面的企業發展戰略,隨后越來越多的學者將競合看作一種多層級的理論框架[5]。因此,從廣義看,競合是一種存在于多個主體之間的競爭與合作共存的情況。現有實證研究大多關注開放創新競爭性和合作性的差異,對二者共存特性的解釋較少[29]。也有學者從社會依賴理論視角發展開放創新的競合特征框架,并對不同性質的眾包平臺競合特征進行歸納總結[30]。由此可見,競合共存的特征已經逐漸受到學者的關注[15]。該理論為開放創新的競合特性提供了概念框架,也為本文奠定了研究基礎。基于上述內容,本研究認為對開放數據競賽這一開放創新形式的探究,需要充分考慮到競賽的競合特性,因此將采用社會網絡分析的方法,分析開放數據競賽的案例,以期發現競賽中各團體之間存在的協作特征。
隨著互聯網環境的普及和發展,通過微信、QQ、釘釘等即時通訊工具進行工作和學習已經常態化,人們的協作行為也能夠通過這些即時通訊工具體現出來。趙蓉英等認為協作的本質是信息的交互,因此對信息交流痕跡進行量化分析可以揭示協作行為的特征和規律[31]。QQ、微信等軟件的聊天記錄的獨到之處是將交流內容和社會關系都記錄下來,并且數據結構比較齊整。從社群的角度來看,聊天記錄是對社群成員信息行為的“數字映像”,對其交流內容和社會網絡關系進行分析有助于探究社群成員的協作行為。社會網絡分析可以測量行動者之間各種有形和無形的客觀信息,能夠通過中心度、集群、小世界等指標更準確地探究成員之間的協作關系[32]。
社會網絡思想源于英國人類學家布朗,他認為社會的行動者及其成員之間會構成一種社會關系的集合,即社會網絡[33]。一個社會網絡是由多個社會行動者構成的點與各個行動者之間關系形成的線組成的網絡集合,用點和線來表達網絡,是社會網絡的形式化界定[34]。在社會網絡中,如果幾個行動者之間保持緊密聯系,就形成了較緊密的關系網絡。在互聯網時代,虛擬社群不再是空間上被界定的地點,而是由網絡成員們根據信息需求和歸屬感延伸形成的社會網絡。通過社會網絡,人們在特定的領域實現聚合、分離、競爭和協作行為[35]。社會網絡分析被廣泛應用于社會學、心理學、教育學、管理學和圖書情報學等諸多領域。其中,許多學者采用社會網絡分析方法,對QQ群等基于即時通訊軟件構成的網絡協作關系進行分析,以對知識分享、群體協作等行為進行研究[31,36-37]。Kakimoto等對OSS社群的知識協作行為進行社會網絡分析,發現4種具有不同活躍度和模式的協作社群[38]。Van通過社會網絡分析的方法對科學家在線協作行為進行研究[39]。可見,社會網絡分析廣泛應用于在線群體協作的行為探索。
在開放數據競賽中,參賽者和主辦方需要就選題規劃與設計、開放數據使用、技術實現、競賽流程等話題進行充分交流,在交流過程中完成競賽涉及主體構成的社會網絡中各行動者之間的協作行為。基于此,本文采用社會網絡分析的方法探究開放數據競賽中的協作行為。
上海圖書館(以下簡稱“上圖”)開放數據應用開發競賽迄今已經成功舉辦4屆,2017年獲得第14屆IFLA BibLibre國際營銷獎第二名,其數字人文知識庫服務平臺還入圍LODLAM2017國際競賽前五名,該賽事正成為具有國際水平的開放數據競賽。2019年的上海圖書館與CADAL項目管理中心、哈佛大學計量社會科學研究中心、復旦大學圖書館、廣州搜韻文化發展有限公司、《全國報刊索引》編輯部、上海創圖網絡科技等多家數據機構合作,以“老建筑的故事”為主題,面向全社會征集以開放數據為基礎的優秀移動應用產品原型或服務創意,以期更加充分地釋放開放數據的價值,從而更好地實現知識創新。
上圖舉辦的開放數據競賽嘗試在每一屆設置不同的主題并不斷吸納更多的開放數據集。2019年的核心主題是“老建筑的故事”,旨在弘揚海派文化、江南文化和紅色文化,推薦了閱讀建筑、紅色記憶、民國影事、故居旅游、名人掌故、民國書刊、尋根之旅、古今詩詞、古籍探索等創意主題,同時鼓勵更多的數字人文類創意。競賽數據主要來源于上海圖書館的數字人文項目開放數據平臺。該平臺以關聯數據(Linked Data)方式向互聯網公開發布上海圖書館數字人文項目所用的基礎知識庫(人、地、時、事、物)、文獻知識庫(家譜、手稿檔案、古籍等)、本體詞表和數字人文項目建設過程中所用到的各種數據清洗和轉換工具,以及項目組發表的相關論文、課件等資料。開放數據以REST API,Sparql Endpoint,內容協商(Content Negotiation)等方式提供各種數據消費接口供開發人員調用,以促進數據的開發獲取、共享和使用。
本屆競賽設置競賽獎和人氣獎兩個獎項。競賽獎項設置一等獎1 名,獎金10 萬元(人民幣,下同);二等獎2名,各5萬元;三等獎3名,各2萬元;優秀獎6名,各5,000元。人氣獎項設置最佳人氣獎1 名,獎金3,000 元;人氣獎7 名,各1,000元。整體的獎金達到30萬元,是國內現有的開放數據競賽中總獎金額最高的賽事。
參賽作品形式多樣,以微站(移動Web應用)或iOS、Android等平臺上的App為主要呈現方式。參賽團隊基本由多人組成,提倡團隊內部的分工明確及各司其職,1名參賽人員僅允許參加1支團隊。參賽團隊在報名時須提交真實的個人身份信息,主辦方承諾對所有涉及個人隱私的信息予以嚴格保密,參賽團隊報名提交的個人信息僅用于賽事相關程序。參賽團隊名單以在官網上提交的報名表為準,不予更改。競賽評獎的主要依據為作品創新性、可行性、技術含量、交互體驗、開放數據利用程度等,具體可詳見筆者前期研究[4]。所有競賽入圍作品(含獲獎作品)的知識產權歸屬作者和上海圖書館(上海科學技術情報研究所)共有。參賽作品應為未經發表的原創作品,具有創新性和獨特性。競賽獎項評委由國家公共文化服務體系建設專家委員會專家,圖書情報、計算機、大數據等領域的專家,上海圖書館理事會成員,專業媒體和用戶代表等組成。
本文以上海圖書館開放數據應用開發競賽(簡稱“上圖競賽”)為例,選取該競賽官方微信群的聊天記錄作為本次社會網絡分析的數據樣本。本研究選取2019年4月23日(競賽報名起始日期)到2019年9月24日(競賽公布獲獎作品日期)之間在群里至少有一次發言的成員,其中包括78名參賽者與10名上圖工作人員共88人。本文通過微信客戶端的同步功能將聊天記錄的網頁版導入計算機中,使用Python對網頁數據進行預處理并轉化為表格數據,如表1所示。

表1 微信聊天記錄格式表
單條微信聊天群記錄的結構由ID、時間、聯系人、微信號、類型、消息組成。其中消息可以通過“@”的方式確定聊天記錄發送的對象,但絕大部分的消息沒有采用“@”方式,因此無法確定聊天內容發送的對象。此外,部分表情文字和簡單回復缺乏實質性的信息交流內容。為明確聊天記錄涉及的主題,以便于后續對群中每一個行動者進行社會網絡分析,需要對聊天記錄進行編碼處理。為了保證編碼的客觀性和科學性,本文由兩位編碼員單獨對分析單元進行開放編碼工作。在編碼的過程中,會對同義指標和概念進行合并,并將新的指標和概念添加到編碼手冊中。
編碼結束后對編碼的信度和效度進行檢驗。在信度方面,現有的研究常常選用一致百分比作為檢驗編碼信度的指標[40]。Holdford提出在編碼的過程中,會有隨機產生的一致性編碼結果,僅僅通過一致百分比作為檢驗編碼信度的指標,會因概率一致性的數據導致最終計算的信度結果偏高[41]。因此,本研究選取Cohen's Kappa系數作為檢驗編碼結果的信度指標。Cohen's Kappa系數度量將N個分析單元分成C個類別的一致性程度。計算公式如下:

其中,Pr(a)是觀察到的一致百分比,,aii是編碼結果中一致的數量,N表示總的分析單元數。Pr(e)是期望的一致百分比,,其中Ri和Ci分別表示編碼結果矩陣中第i 個格點對應的行合計和列合計。如果編碼員的編碼結果完全一致,則k=1;如果編碼員除了期望的偶然一致性外沒有一致的編碼結果,則k=0。通常情況下,k的值大于0.75時,編碼結果具有較好的信度。本次編碼的Kappa系數為0.87,說明本次編碼具有較好的信度。
在效度方面,本研究選取的樣本包含競賽期間所有聊天記錄,具有很好的外部效度。兩位編碼員在遵守編碼規則和標準的基礎上,合作完成編碼任務,保證了編碼結果的有效性。部分編碼結果見表2。原始的1,895條聊天記錄經過上述的編碼過程,去除了系統通知、表情符號、語氣詞和停用詞,同時合并了同一語句的多行聊天記錄,最終得到524條有效聊天記錄。

表2 數據編碼表(部分)
為滿足數據分析需要,同時隱藏樣本真實信息,以在數字代號前添加字母D的方式對不同成員進行表示。編碼結果顯示,開放數據競賽微信群主要討論話題分為技術問題、競賽流程問題和其他問題,見表3。從表3看出,技術問題占微信群的主要聊天內容,占比69.65%,且開放數據接口占46.37%。由此可見,雖然主辦方在5月23日組織統一的線下培訓,集中對上圖的開放數據平臺和開放數據接口形式進行交接和培訓,且將培訓資料通過線上形式發布給未能參加線下培訓的參賽者,但從聊天記錄的結果看出參賽者仍然對競賽的技術問題產生困惑。通過對消息文本進行細粒度分析后發現,如下幾方面的問題經常出現:“數據接口能否支持https 協議?”“接口的key傳值失敗該怎樣處理?”“部分數據集沒有提供接口。”這些問題說明主辦方在技術準備和技術宣傳等方面有待進一步深化,主辦方和參賽者在作品的設計和開發階段需要花費大量的時間和精力處理技術性問題,一定程度上會影響整體項目的協作效率。

表3 話題分類編碼結果表
關于賽程安排的討論也具有較高比例,一方面說明賽程是備受參賽者關注的問題,另一方面體現了主辦方在重要賽程安排信息傳遞方面需要強化。在競賽流程方面,競賽組隊消息占4.96%,甚至高于對評分標準(3.44%)討論的比例。從下文研究結果可以得知,開放數據競賽具有很強的社交性和合作性,這與聊天記錄分析的結果相一致。為進一步了解上述討論話題的組成情況,本研究選取了參與次數最多的前20 個人,其中11人屬于獲獎團隊的成員。基于他們的角色和不同話題中的參與程度,結合本次開放數據競賽的部分獲獎情況,探究其在競賽中的協作行為,具體如表4和圖1所示。

表4 部分參賽團隊獲獎情況表

圖1 參賽者參與話題分布圖
圖1中 的D8、D13、D85、D17、D39、D70為競賽的主辦方人員,其余均為參賽者。其中,D8和D70是負責開放數據接口相關問題的技術專家,D17是負責網站功能和交互方面的技術專家,D13是負責競賽流程的工作人員,D39是負責聯絡各參賽團隊的通訊員,D85是競賽主辦方總體負責人,這與圖1中的結果基本符合,主辦方的工作人員基本都在群里負責解答各自的問題。從參賽者角度來看,D63、D65、D87等參賽者主要關注技術問題,其中D65是三等獎團隊中的成員,該團隊的作品很好地關聯了上圖的開放數據集。圖1還可以看出D33的討論話題與其他參賽者有著明顯的差別,集中在數字人文方面。該成員是一等獎的團隊成員,該團隊的作品有著非常濃厚的數字人文烙印。由此可見,參賽者在作品設計過程中會通過與主辦方和其他團隊的成員交流創意,在競賽中開發出優秀的作品。另外,D87和D53也是一等獎團隊的成員。綜合來看,一等獎團隊的所有成員在官方微信群中都有著較活躍的交流行為,交流內容不僅僅是對主辦方的提問,也包括與其他團隊的成員在作品的設計、技術的實現等方面進行深入交流。這也證明了開放數據競賽在參賽團隊之間也存在一定的協作和互動行為。
通過對微信群成員的聊天記錄條數以及參與不同主題討論的次數可以衡量微信群中不同成員的活躍程度。然而,上述統計數據尚不能完全展現出不同行動者之間的關系程度以及整個微信群形成的社群成員協作行為特征。鑒于此,采用社會網絡分析工具進一步分析成員之間的協作關系強度。借鑒社會網絡分析的基本概念和方法,在可視化分析的基礎上,從中心度分析、集群分析、小世界效應分析3 個方面,選用可視化與定量研究軟件Gephi對開放數據競賽主體的協作行為進行分析[34]。

圖2 參賽者完整社會網絡關系圖
在對開放數據競賽微信群進行社會網絡分析之前,采用Gephi軟件,通過可視化的方式展示社會網絡中不同行動者之間構成的關系,并在此基礎上進行總體分析。可視化分析結果見圖2,位于網絡中心位置的有9位成員,其中5位是主辦方單位成員,分別為D85、D17、D88、D8和D39;4 位為參賽者成員,分別為D53、D33、D19 和D59。網絡以這9 位成員為中心構建起來,其余成員從里向外大體按照4個層級分布。圖2中紅色的邊表示參賽者之間的交流,綠色的邊表示主辦方之間的交流,灰色的邊表示兩類行動者之間的交流。處于網絡中央位置的5位主辦方成員主要和參賽者進行交流,即交流內容以答疑和通知為主。處于網絡中央位置的4位參賽者有3位在競賽中獲得較好名次。其中,D53與參賽團隊和主辦方關系都較為緊密,不僅就選題、技術、流程等問題與主辦方進行多次交流,其團隊作品也是通過與其他團隊以及主辦方進行較高程度的協作完成的;另外,競賽的社交性越強,參賽者們最終的參與意愿會越強。邊緣位置的參賽者對競賽感知的社交性較弱,這可能會影響他們參與競賽的意愿與積極性。
基于競賽的部分日志記錄數據,下文對參賽者完整社會網絡可視化結果進行了簡要分析。為了更細致了解開放數據競賽雙方主體的協作行為,將通過中心度分析、集群分析和小世界效應檢驗對該社會網絡的關系和特征進行研究。
學者常用中心度分析方法探究一個社會網絡中的個體具有怎樣的地位和影響力。中心度指標主要包括點度中心度(Degree Centrality)和中間中心度(Between Centrality)。社會網絡中一個節點的點度中心度指的是與其有直接聯系的其他節點的數量。一個節點的中間中心度衡量的是任何兩點之間測地線(最短路程)與經過該點的測地線比值。因此,點度中心度衡量了一個行動者影響其他行動者發生的能力,中間中心度衡量了一個行動者控制其他行動者的能力。在開放數據競賽官方微信群中,一個成員的點度中心度越高,則說明他與其他成員的協作性更高,中間中心度越高,則說明其他成員對該成員的依賴性越強。
5.2.1 點度中心度分析
在Gephi中,根據菜單路徑“概覽”→“統計”→“網絡概述”→“平均度”和“加權平均度”進行點度中心度分析,結果按照加權點度中心度由高到低排序,見表5。從表5中看出,點度中心度最高的5 個成員分別為D85、D17、D39、D8、D33。其中,D85、D17、D39、D8均為競賽的主辦方成員,他們具有較高的點度中心度說明在整個競賽期間,主辦方會時刻與參賽團隊保持密切聯系,從而保證整體的競賽能夠順利進行。此外,一等獎獲獎團隊中的成員D33也有著較高的點度中心度,說明在整個競賽期間,該成員與競賽主辦方以及競賽的其他團隊保持著緊密的聯系。根據上一小節描述性統計的結果可知,D33與其他成員的協作體現在對作品主題相關的數字人文話題的討論行為。

表5 點度中心度計算結果
5.2.2 中間中心度分析
在Gephi中,根據菜單路徑“概覽”→“統計”→“網絡概述”→“網絡直徑”進行中間中心度分析,結果由高到低排序,具體見表6。表6展示了中間中心度較高的8 個成員,其中D8、D85、D17、D39、D88是競賽主辦方成員,基本囊括了主辦方中負責競賽事務的成員。較高的中間中心度說明主辦方的老師們基本上會與群里絕大部分的參賽者都保持緊密的聯系,避免遺漏可能出現的咨詢問題。另外,D19作為三等獎獲獎團隊的參賽成員,參與話題討論的絕對次數不多,但每一次參與話題討論時,都會面向所有參賽者發表意見,且影響話題討論的主題。此外,D19還與D53和D87這兩位一等獎獲獎團隊的成員進行交流。后兩位也多次就選題、技術、流程等多方面的問題與群其他成員進行交流。該團隊在技術上和設計上的很多創意和解決方案都來自于和群內其他參賽成員的討論結果,由此可見兩個獲獎團隊都充分利用了開放數據競賽作為開放創新形式的強社交性特點,加強了團隊之間協作程度,從而提高最終作品的質量。

表6 中間中心度計算結果
與中心性分析關注行動者在網絡中所處位置的角度不同,社會網絡集群分析關注的是網絡中那些關系緊密的行動者形成的次級團體網絡,這種次級團體網絡在社會網絡分析中被稱為凝聚子群(Cohesive Subgroups)[42]。通過對開放數據競賽官方微信群的社會網絡進行集群分析,可以了解到參賽團隊與主辦方之間的協作關系,以及不同參賽團隊之間可能存在的協作關系。
5.3.1 模塊化分析
在Gephi中,根據菜單路徑“概覽”→“統計”→“網絡概述”→“模塊化”進行模塊化分析。如表7所示,整體的社會網絡共劃分為9個社群(注:加粗為主辦方單位成員)。其中,社群9是除前8個社群外的所有成員,人數較多,無統一話題,因此后續的子群分析僅針對前8 個社群。人數最少的社群3 和社群4 僅包含兩名成員,且大多數社群是由多個參賽者成員與一個主辦方老師形成的。不同的主辦方老師所負責的討論話題有所差異,反映在分析的結果上則是不同的凝聚子群會有較為統一的話題關注點。例如,社群6的成員會圍繞競賽流程等相關問題展開討論,社群8則會圍繞開放數據接口等相關問題展開討論。此外,同一個參賽團隊的成員往往分布在不同的社群中。例如,一等獎獲獎團隊的成員分別分布在社群3、社群4、社群5中。該現象一方面因為同一獲獎團隊的成員可以通過線下的交流完成協作;另一方面也說明該團隊注重和其他團隊的成員進行交流和協作,且每個成員的角色定位明確,會注重不同的話題。通過上述分析可以看出,此次開放數據競賽注重不同的參賽團隊之間的交流,且這些交流往往會在主辦方相關人員的引導下呈現主題分化的趨勢。在這一趨勢下,不同團隊之間產生了一定的協作行為。

表7 模塊化分析結果表
5.3.2 凝聚子群密度分析
凝聚子群密度(Eternal-Internal Index,E-I Index)是子群密度和整個社會網絡的密度之比,能衡量各個凝聚子群內部以及不同凝聚子群之間的緊密程度[43]。該指標取值范圍為[-1,1],指標越靠近1,說明行動者之間的關系趨向于群體之外;指標越靠近-1,說明行動者之間的關系越趨向于群體之內;指標趨向于0說明不存在明顯的子群劃分的趨勢。本模型的凝聚子群密度為0.631,接近于1,說明凝聚子群的現象較明顯,且不同群體之間的交流和協作較頻繁。上述結果進一步說明了開放數據競賽具有很強的協作性,不同參賽群體之間也存在明顯的協作行為。
小世界效應(Small World Effect)是“六度分割理論”在社會網絡中的體現。考慮一個無向網絡,定義L為節點對之間的平均最短路徑,則L通過式(2)計算。dij是節點i到節點j的距離,如果兩個節點不可達,則距離為無限遠。

一個滿足小世界特性的網絡應當滿足在所有情況下,L的值都遠比節點數n要小[43]。一般情況下,L的值會介于1到7之間,最多不會超過10。在微信群成員構成的社會網絡中,如果存在小世界效應,則每產生一個新的話題,都應當迅速引起相關的成員關注。
在Gephi中,根據菜單路徑“概覽”→“統計”→“邊概述”→“平均路徑分析”對微信群成員之間的平均距離進行計算,從而驗證微信群的社會網絡小世界特性。經過計算,該網絡的平均距離L為1.78,說明在微信群中每個成員之間僅需1.78個人就能聯系起來。根據小世界理論,此開放數據競賽的微信群是具有顯著小世界特征的網絡,也反應了該微信群具有較好的信息交流模式和良好的協作氛圍。
經過上述社會網絡分析,本文認為上海圖書館開放數據應用開發競賽具備優秀的實踐經驗,體現在如下的協作特征中。
(1)主辦方群體在競賽過程中參與程度高、分工明確、協作能力較強。D8、D85、D17、D39、D88是主辦方成員,他們具有較高的中心度,分別負責技術問題、競賽流程問題和其他問題等話題,并作為參賽者團隊的子社群成員針對不同的話題參與協作。主辦方在開放數據競賽中扮演的不僅僅是組織者的角色,還需要在作品主題的選取、開放數據集的篩選、開放數據接口的提供和技術支持、賽制流程優化等方面實時為參賽者群體提供幫助。同時,主辦方群體內部之間也存在一定的分工和協作,如安排不同的人員負責競賽宣傳、參賽者招募、開放數據技術支持等工作。社會網絡分析的結果證明,主辦方群體在競賽的過程中基本具有較高的參與程度,且和活躍程度不同的參賽者都保持一定的聯系,在參賽者團隊需要協助的時候能實時提供幫助。
(2)競賽成績靠前的參賽團隊成員具有較強的協作程度,且團隊內部有明確的角色分工。獲獎團隊T1、T2、T3 中的D87、D53、D33、D9、D65、D19成員均具有較高的中心度,說明他們與整個開放數據競賽網絡的行動者們之間關系較為緊密。此外,同一團隊內部的參賽成員往往具有明確的角色分工,針對作品主題、開放數據集獲取與使用、產品設計、產品開發等不同的工作內容有不同的人員負責,他們各自通過官方微信群與其他團隊成員以及主辦方成員進行深入和密切的交流,實現競賽過程的協作。
(3)不同參賽團隊之間存在明顯的協作行為,且基于不同的話題類型形成了相應的子社群。通過集群分析,本研究發現了8個凝聚子群社群,這8個社群包含來自不同參賽團隊和主辦方的社群成員,這些社群分別就開放數據接口、網站技術、競賽推廣、競賽主題、競賽組隊、評分標準、賽程安排等問題形成主題話題。開放數據競賽強社交性的一個體現在于不同的參賽團隊之間也存在明顯的協作行為。雖然團隊之間本身存在一定的競爭性,但通過彼此之間的團隊協作可以完成更好的作品,達到互利共贏的局面。在本開放數據競賽案例中,優勝的參賽團隊之間具有緊密的聯系,往往就選題和技術等多個方面進行溝通和交流,通過這種協作讓彼此都能取得更優異的成績。在這種協作過程中,面對不同的話題,他們還各自形成了一定的子社群,并在主辦方成員的輔助下,達成更深層次和多元化的協作。
(4)競賽成員之間的關系比較緊密,信息交流比較通暢。本案例競賽成員構成的社會網絡具有明顯的小世界特征,平均1到2個人的距離就可以實現信息快速傳達,即社群中處于邊緣位置且與其他參賽成員以及主辦方交流較少的個體也能夠在這個網絡中快速地傳達和分享信息。微信作為一種即時通訊軟件,群聊天提供了一種成員之間無障礙通訊的環境,然而很多成員由于熟悉程度并不會積極參與所有成員和所有話題的討論和協作,即使同處在一個微信群中,處于較遠距離的兩個社會網絡節點成員也需要通過他人傳達信息和分工協作。因此,如果主辦方采取一些措施鼓勵參賽者們參與交流以及和其他成員進行協作,那參與者之間以及參與者和主辦方之間會很容易構建起相應的協作網絡。
研究發現,開放數據應用競賽存在著明顯的競合特征,協作關系不僅體現在各個參賽團隊中,也體現在參賽團隊之間,以及團隊和主辦方之間。因此,競賽的主辦方應當加強對競賽社交性和合作性的宣傳,在賽制設置上也應當鼓勵團隊性,如采用多元化競賽的評判標準,鼓勵團隊配置產品、數據、設計、開發等不同類型的人才,從而激勵人才復合型的團隊參賽;在競賽宣傳的早期,公開競賽官方的微信、QQ或論壇等社交平臺,吸引用戶和有參賽意愿的人員加入相關話題的討論,重視早期報名的參賽者在二次宣傳上起到的重要作用,鼓勵他們在線上和線下進行宣傳,如設置特別的貢獻獎項激勵參賽者們在參賽的同時積極參與競賽的宣傳工作,同時告知參賽者招募更多的參賽者有利于多元化的團隊配置,完善自身的作品;在競賽宣傳的中后期,鼓勵參賽者在官方群中進行跨團隊的交流和協作。開放數據競賽的主辦方應當充分利用競賽的競合統一性質,為參賽者提供良好的協作環境,提出互利共贏的協作理念,鼓勵跨專業的協作行為。
本研究結論有助于揭示開放數據競賽運作模式中的“競合”特征,并對公共文化服務機構如何更加有效且高效地開展開放數據競賽提供了對策和建議。未來研究工作將從3個方面進一步開展。首先,結合社會依賴理論,對開放數據競賽競合特征下各主體的社會互動和依賴性進行探索。其次,結合問卷、實驗等方法,進一步對開放數據競賽的參與者協作行為進行實證分析。最后,結合價值共創理論,深入分析開放數據競賽的價值鏈和共創流程,探索開放數據競賽的價值創造機理及群體協作機制。