孫金娟,鄭建明
公共文化服務大數據是公共文化服務機構開展各種活動所需要和產生的、以用戶為中心的多源異構大規模數據[1],不包括公共文化產業數據,是狹義范疇的公共文化大數據。公共文化領域已經積累了豐富的原始數據資源,為公共文化服務大數據的開發利用提供了基礎。公共文化服務大數據除具有數據資源規模龐大、數據結構復雜、數據更新快和數據價值逐步顯現等特征外[2],還呈現出顯著的多源多維特征。公共文化服務大數據的來源機構多樣,主要包括公共文化系統內部(圖書館、博物館、文化館等)和系統外相關組織機構(政府、學校、信息產業等)。隨著信息技術發展,一方面,圖書館等公共文化機構建立了完善的信息管理系統,這些機構的各項系統、設備和服務本身每天都在生產大量數據,最具代表性的就是資源數據和核心運營數據;另一方面,物聯網、人工智能、可穿戴設備等現代信息技術和設備廣泛應用于人類生產生活領域和各種場所,生產了海量的用戶行為數據;網民在網絡上的所有活動足跡也是主要來源之一。除數據來源廣,公共文化服務大數據還呈現出顯著的多維特征。多維特征體現的是公共文化服務大數據的復雜性和應用多樣性,是基于情境對公共文化服務大數據的全景揭示和復雜觀察,目的是為滿足用戶個性化、多樣化的信息需求。本文從3個方面對多維進行理解:第一是多視角,不同的人對同一對象或同一場景有不同的描述或理解,即可以用不同的數據來對同一個場景或者對象進行描述;第二是多方法,指的是對多源數據使用多種方法進行融合、進行多種關系的融合、從多個研究的視角進行融合,發掘數據之間的多重關系;第三是多主題,不同地域、民族和社會形態的公共文化,有著自身特色[3],形成具有區域特色的多主題數據維度。此外,跨域(跨界)融合也是公共文化服務大數據的典型多維特征。
公共文化服務大數據開發的價值在于挖掘數據背后的隱性知識,發現事物發展規律,支持組織的戰略分析與決策。為實現多源多維數據管理、共享和重用的目的,需要構建一個標準統一、跨行業、跨區域、跨部門的綜合性公共文化服務大數據分析平臺,聚合多源異構的公共文化服務大數據。大數據分析平臺要實現多源多維數據的采集、清洗、存儲、管理、共享和利用,構建一個系統、統一的公共文化服務大數據分類體系至關重要,也將成為公共文化服務大數據質量控制的重要環節。本文在分類理論與方法的指導下,嘗試構建基于多維組合的公共文化服務多源數據分類體系框架。
分類是人類認識世界的基礎,通過分類過程建立對象實體的身份[4]。對公共文化服務大數據進行分類是對公共文化服務大數據實施科學管理、實現公共文化資源共享的前提,是公共文化服務大數據標準化建設和質量控制的重要工作。但國內外關于公共文化服務大數據的分類研究非常少。國外沒有公共文化服務概念,更沒有公共文化服務大數據概念[5],國內關于公共文化服務大數據的分類研究也比較零散。吳素舫和柯平[6]從基層標準、技術標準、管理標準和應用與服務標準4 個方面構建了文化大數據標準規范體系,但未對數據分類體系的構建展開論述。其他關于公共文化服務大數據的分類研究主要基于以下兩種視角:
第一種是基于數據內容主題的劃分。李廣建等[1]劃分了4個層次:核心數據、業務輔助數據、管理數據和支撐數據;劉煒等[7]劃分為資源大數據和運營大數據兩類;趙嘉凌[8]劃分為輔助服務數據、用戶數據和平臺運行數據;郭路生等[9]劃分為公共數字文化資源、公共文化活動大數據、公共文化場館大數據、公共文化交流大數據等?;跀祿黝}的分類采用等級列舉式的分類方法,呈現簡單扁平化特點。為盡量減少數據分類層次,分類目錄大都只有一、二級的深度,類目邊界、內涵不清,缺少系統性和全面性,分類深度和精度達不到數據共享和重用需求。數據分類深度不夠直接導致語義信息描述不完整,數據精度不夠就無法準確識別數據,尤其是在用戶數據需求不明確、對數據不了解的情況下,這種扁平化、缺少深度和精讀的分類方法成為公共文化數據管理和共享使用的主要障礙。
第二種是基于數據維度的劃分。嵇婷等[10]依據4種不同的維度對公共文化服務大數據進行類型劃分:(1)根據機構和服務類型不同,分為圖書館大數據、博物館大數據、文化館大數據、科技館大數據、美術館大數據等;(2)依據服務平臺不同,分為傳統文化服務大數據和數字文化服務大數據;(3)依據信息類型不同,分為資源數據、用戶數據、運行服務數據、用戶行為數據;(4)根據數據結構不同,分為結構化數據、半結構化數據和用戶行為數據。此外,還可依據數據來源不同,劃分為業務數據、網絡數據和管理數據。這種基于數據維度的劃分具備多維數據分類的初步特征,但只是就分類結果進行簡單列舉,未對分類方法和分類過程展開詳細論述,未脫離等級列舉式分類方法局限。
本研究選擇分面組配式分類法來構建公共文化服務大數據的分類體系框架。分面組配式分類法是以《冒號分類法》為代表的系統化分類理論[11]。它的核心理念是依據概念分析與綜合組成“分面—亞面—類目”的分類結構體系,通過各分面內類目之間的組配來表達信息資源主題[12]。分面分類法具有組配能力強、標引結果專指性高、適應新主題與復雜主題標引等優點,其內含的多維視角與多元表達理念與大數據時代的多源多維數據融合理念達成高度一致。繼承其基本原理并面向公共文化服務大數據等領域數據的主題呈現與價值開發,可實現面向用戶、機器可讀、自動組配等大數據分類設計目標。本研究借鑒了分面分類法的基本方法和原理,并為了適應網絡環境下數據分類的特點和操作便捷性,對該分類法進行了簡化和改造,具體包括主題領域、基本維度結構、分面組配3個方面。
基本部類是對信息組織的對象所做的最本質、最概括的劃分,對基本部類的劃分是分類法開展的基礎[13]。大數據分類雖然與傳統的信息資源分類有很大不同,但對數據進行主題領域分析、構建基本部類仍然是數據分類的基礎和起點。根據馬克思主義哲學理論,人在本質上是社會關系的總和,社會關系中的個人才是構成社會的基本實體[14],因此可以認為公共文化服務大數據本質上就是關于人的數據,人就是公共文化服務大數據的主要實體??梢园压参幕沾髷祿幕静款愐匀藶橹行臍w納為人和物兩大范疇,其中人的數據劃分為人的客觀屬性數據、主觀感受數據、行為軌跡數據;物的數據劃分為資源數據、基礎數據和管理數據,是服務于人、產生于人、與人間接相關的數據。主題領域的分類情況及其說明見表1。
將前文提到的公共文化服務大數據分類研究成果與表1中的主題領域進行比對發現,本研究提出的公共文化服務大數據主題領域劃分可以很好地容納不同維度的分類目錄,具有一定的適用性與合理性(見表2)。

表1 公共文化服務大數據主題領域表

表2 公共文化服務大數據分類研究的大類對應表
分面就是把觀察到的事物的某一共同屬性抽取出來概括為一個維度,并依據該維度聚集一組類目,這一組類目就組成一個分面[15]。事物不同的屬性形成不同的維度,不同的維度組成不同的分面,所以分面劃分本質上是對事物的屬性認知劃分,也就是維度劃分。傳統分面分類法中并無維度概念,本研究根據大數據的特征和使用習慣,用維度代替分面分類法中范疇的概念。維是一種度量,簡言之,0維是點,1維是線,2維是平面,3維是立體空間,4維是時間,靜態系統通過點線面體的空間維進行描述,而動態系統就必須加入時間維度[16]。無論是古代樸素的整體思想還是現代對復雜系統的定量研究,都離不開維度的概念,多維分類的思想其實早就根植于信息組織的思想和方法當中[17]。不同行業在數據分類的實踐過程中總結了靈活實用的維度結構,如面向水利科學數據的“科學屬性、獲取方法、數據載體、時空特征”維度結構[18]。公共文化系統是一個復雜的綜合性系統,公共文化服務大數據類型多樣,維度眾多,各維度之間的關系復雜。錯綜復雜的維度關系影響了數據價值的發揮,因此,公共文化服務大數據分類框架的構建并不致力于窮盡所有維度,而是要在參考其他分類維度結構的基礎上,根據主題分析尋找最能概括數據特征的維度,初步概括為4個最基本的維度:內容描述維、獲取方式維、時間維和空間維。
2.3.1 內容描述維
內容描述維描述的是分類對象(主題領域)的內容特征,根據不同用戶的不同需求,可以設立一級類目、二級類目甚至更多。例如主題領域之人的客觀屬性數據,其一級類目可以包括姓名、性別、學歷、年齡等;一級類目學歷可以生成二級類目:??萍耙韵隆⒈究?、研究生;二級類目研究生還可以生成三級類目:碩士研究生、博士研究生。如有必要,還可依據授予學位的學科不同,生成四級、五級類目,直至與用戶的搜索目標匹配?,F代信息處理技術無需考慮類目深度造成的標識復雜,只需以滿足用戶需求為標準。
2.3.2 獲取方式維
獲取方式維依據數據的獲取方式分類,如調查數據、統計數據、測量數據、傳感器數據。隨著信息技術發展和傳感器的普遍應用,公共文化系統中的人和物不斷數據化,極大豐富了公共文化的數據量[19],統計數據、測量數據、傳感器數據成為公共文化服務大數據的主要來源,然而傳統問卷調查等方式生成的調查數據仍然重要,如人的主觀感受數據雖然也可以通過數據建模與算法從人的行為軌跡數據中推測與模擬,但問卷調查與訪談等方式獲取的調查數據將更準確和直觀。
2.3.3 時間維與空間維
時間維和空間維共同描述定位數據的時空情境。前者是與數據直接相關或間接相關的各種主題現象發生、發展的過程與周期,劃分尺度可以是某個時間點或某個時間區間;后者是與數據實體相關聯的空間位置,能以區域或省為單位,也能以具體圖書館或博物館為單位。兩種維度的粒度都可依據用戶的數據需求進行縮放。世界圖書館網站(WDL)和美國公共數字圖書館網站(DPLA)都提供按時間線和互動地圖進行資源的可視化瀏覽:用戶點擊某個時間點或某個地點就可方便獲取在此時或此地發生的所有數據資料,有助于幫助用戶對數據內容的理解和意義的建構[20]。
以上4個維度是主題領域共有的、最基本的維度,每個主題領域還可以提出自己的特色維度,可以細分二級主題、三級主題等,每級主題都可以根據面向用戶對象的不同,依據用戶需求的不同形成不同的維度結構,最終生成不同層級的分面類表。為了表達的簡潔性,這些維度在進行公共文化服務大數據分類體系的框架設計時不予展開,應用時可根據需要進行擴展或調整。
分面組配是以主題為軸,與其他組面按照一定次序排列,形成對主題的多維度闡述[21],其分面組配方式如圖1所示。換言之,主題是個相對比較特殊的維度。在傳統分類法中,主題維一般都是核心維度,其它維度可稱之為是為進一步描述核心維度的邊緣維度。對于用戶來說,數據維度沒有主次之分,只要是自己需要的,數據主體的任何維度都有可能是核心維度,如上文提到的時間維和空間維。公共文化服務大數據的分面組配就是以分類對象的某一維度為軸,與其他維度構成的分面一起組配組成分類體系。多源多維數據分面組配并非要把來源于不同系統,不同渠道,不同結構的數據簡單合并,而是要根據不同的目的和情景需求把相應的數據內容整合并分析,集成一體,化繁為簡,化難為易,將海量復雜的多維數據可視化,實現高低維間的協同轉化,為決策所用。

圖1 分面組配圖
基于前文對主題領域分析、維度和組面的確定、分面組配的分析,本研究設計的公共文化服務大數據分類體系框架由主題領域、基本維度結構和分面組配三大部分組成,其概念模型如圖2所示。在該分類體系框架的指導下,可以編制形成公共文化服務大數據目錄,使多源公共文化服務大數據映射至該數據目錄中,經標識后被計算機和人工識別與處理,實現高效率的數據檢索、存儲、共享和服務。
本分類體系框架為公共文化服務大數據分類提供思路,是開放和自適應的,并非一成不變,應充分考慮不同數據管理、應用與服務的情境需求和數據源特征,尤其是要考慮用戶需求。無論是主題領域的確定還是基本維度結構的設計,都要圍繞著收集與理解用戶顯性公共文化需求、發現公眾隱性文化需求、促使隱性文化需求向顯性文化需求轉變,為用戶提供智慧公共文化服務這一最初的出發點和最終目標,為用戶正確認識數據和有效發現數據提供幫助,同時為計算機系統準確標識和著錄數據做好準備工作。
公共文化服務大數據分類體系框架主要面向各類公共文化服務大數據服務平臺,為其數據組織架構和用戶數據檢索路徑規劃提供參考。只有經過科學分類的數據才能被準確標識和著錄,然后才能被分析、計算或挖掘[22]?,F以國家公共文化云的資源數據分類實踐為案例對公共文化服務大數據分類體系框架做進一步分析。

圖2 公共文化服務大數據分類體系框架的概念模型
2017年11月國家公共文化云開通[23]。國家公共文化云是統籌整合全國文化信息資源共享工程、數字圖書館推廣工程、公共電子閱覽室建設計劃而推出的,是文化共享工程在“互聯網+”時代搶占移動服務的3.0版。國家公共文化云作為國家公共文化服務的大數據平臺,目的是為了整合全國的公共數字文化資源和數據。國家云與其他地方公共文化平臺的對接主要分為4個層面:端口互訪、資源數據對接、統計數據對接和用戶數據對接,其中資源數據的分類、標識和著錄形成了一系列的標準規范,包括《國家公共文化云平臺標準規范1:數字資源知識組織分類標準規范》[24](以下簡稱《標準規范1》)、《國家公共文化云平臺標準規范2:數字資源唯一標識符規范》[25]、《國家公共文化云平臺標準規范3:數字資源加工格式規范》[26]和《國家公共文化云平臺標準規范4:數字資源元數據標準規范、交換標準規范及著錄規則》[27]。《標準規范1》依據資源內容把公共文化資源數據分為12個基本大類,如表3所示。其中,B-P 為主體類目,W為資源類目,Z 為地區與民族語言類目。每個大類設置若干二級類目(如果必要可以擴充三級類目)。資源數據的分類組織整體上采用“列舉-組配”相結合的編制方式,主體類目以列舉的方式層層展開,對多重屬性的數據采用復分、仿分技術深度揭示,必要時利用超文本鏈接技術重復反映,多維揭示。此外,為方便計算機自動處理,該分類標準對每一級類目都賦予了代碼,并采用字母和數字混合號碼的方式對類目進行統一編碼。
國家公共文化云平臺對資源數據的分類組織標準與本文的公共文化服務大數據分類體系框架理念一致,均采用多維結構和多維處理技術實現對多重屬性對象的多維揭示?!稑藴室幏?》的編制目標是建立分類查檢工具,供瀏覽檢索?;诖四繕?,國家公共文化云平臺資源數據分類體系舍棄了不便于瀏覽展示的獲取方式維和時間維,增加了與數據主題密切相關的文獻類型維和民族語言維。在公共文化服務大數據分類體系框架的概念模型的指導下,構建國家公共文化云資源數據的分類體系框架(見圖3),其中主題領域為資源數據,設置的4 個分面維度分別是內容描述維、文獻類型維、空間維和民族語言維。主題領域與4 個分面維度通過分面組配,可以科學、便捷、多維度地揭示復雜的公共文化云資源數據,表述更簡潔、層次也更清晰,混合號碼的編碼方式同樣適用于公共文化服務大數據分類體系。

表3 國家公共文化云平臺資源數據組織分類基本大類表

圖3 國家公共文化云資源數據分類體系框架
公共文化云資源數據可歸屬于主題領域:物的數據-資源數據。資源數據主要來源于各公共文化機構購買或自建的數字圖書館,除了圖書、期刊等之外,還包括電影、電視劇、歌曲、戲曲等。資源數據是公共文化機構開展服務的基礎和前提,是公共文化領域最核心的數據,也是公共文化領域管理最完善的數據,因此成為國家公共文化云平臺首先整合與共享的數據類型。
分面維度的內容描述維設立多級類目,圖3框架中列舉前兩級類目,其中B-P 為一級類目,是根據公共文化系統的性質,結合資源數據的內容,大體按照文化、社會、科技的次序設類:B、D、E 屬于文化層面的類目,F、G、H、J屬于社會層面的類目,M、N、P 屬于科技層面的類目。二級類目是對一級類目的進一步細分,如一級類目B文化可細分為公共文化、傳統文化、地方文化、民族文化。根據用戶檢索瀏覽需要,這些類目還可進一步細分,但要綜合考慮整體門類劃分的均衡和資源數量支撐。文獻類型維、空間維和民族語言維3 個維度是根據資源數據的性質,從國家公共文化云平臺資源數據基本大類表的W、Z 類目拆分出的,提供從資源類型、地區、民族語言等角度的資源揭示。
國家公共文化云資源數據分類體系框架分面維度的劃分與本文提出的公共文化服務大數據分類體系框架的概念模型(圖2)并未一一對應:未使用獲取方式維和時間維,增加了文獻類型維和民族語言維。一方面這種不一致體現了圖2概念模型的開放性與自適應性;另一方面也說明該分類體系有進一步提升的空間,如資源數據的獲取方式維和時間維雖然可以在數據組織層面通過調用對應元數據的相關元素予以揭示[27],但是卻失去了揭示的直觀性和用戶獲取的便捷性。
公共文化服務大數據的分類研究與其他行業數據尤其是自然科學和工程技術科學領域的數據分類研究相比稍顯滯后,目前還未形成公共文化數據相關的標準文件。事實上,不僅公共文化數據研究的成果較少,整個人文社會科學領域的數據研究都遠遠落后于自然科學和工程技術科學領域。公共文化數據研究屬于人文社會科學范疇,其研究對象往往具有主觀性和模糊性的特征,學科交叉頻繁,數據來源廣泛,其數據呈現系統異構、結構異構、語法異構和語義異構等特點,其開展研究的原始數據和結果數據多少存在不一致、不完整、不可靠等問題[28]。所以,雖然有大量科研人員從事人文社科研究,并通過觀察、監測、考察、調研等研究獲得大量的有價值的研究原始數據和結果數據,但由于缺少科學、系統、完整的數據分類體系,無法完成對數據集中統一的語義描述,成為數據發現、共享和重用的障礙。因此,開展公共文化服務大數據的分類研究不僅對公共文化服務大數據本身,對人文社會科學其他領域的數據研究也具有參考和借鑒價值。本研究還存在一些不足,主題領域的確定和基本維度結構的設計還是基于單個案例而進行的實證,后續研究將在此基礎上通過問卷調查、專家訪談等方式對概念模型進行驗證與修訂。