














摘 要:文章以近幾年我國公共圖書館、文化館、文化站的歷史數據為例,借鑒經濟學中投入產出理論,以公共文化機構服務能力為主要研究對象,設計數據重用流程,利用數據挖掘技術對這些公共服務機構的服務能力進行分析,并從投入產出的角度尋找其影響因素,以期實現對公共文化機構的歷史數據重用。
關鍵詞:
數據重用;數據挖掘;服務能力;投入產出模型;公共圖書館;公共文化
中圖分類號:G250 文獻標識碼:A 文章編號:1003-7136(2023)03-0001-09
Data Reuse of Historical Data in Public Cultural Field: Case Study of Service Capacity Data of \"Public Library,Cultural Center and Cultural Station\" in China
ZHANG Ning
Abstract:Taking the historical data of public libraries, cultural centers and cultural stations in China in recent years as an example, this paper draws on the inputoutput theory in economics, takes the service ability of public cultural institutions as the main research object, designs the data reuse process, uses data mining technology to analyze the service ability of these public service institutions, and finds its influencing factors from the perspective of input and output, in order to realize the reuse of historical data of public cultural institutions.
Keywords:data reuse;data mining;service ability;inputoutput model;public library;public culture
0 引言
我國公共文化領域數據具有量大且結構復雜、生成速度快、價值密度低的特點[1],對于公共文化機構來說,由于各種信息和數據處理速度趕不上生成和迭代速度,許多數據還沒有發揮出真正價值就已經成為歷史數據,被淹沒在新增數據中,這無疑造成了數據資產的流失和浪費。利用數據挖掘技術對公共文化領域歷史數據進行重用,分析過去忽略或沒有被發現的規律,提煉歷史數據價值,是實現公共文化領域數據價值最大化的一個重要途徑。
本文以我國公共圖書館、文化館、文化站(以下簡稱:“兩館一站”)近幾年的歷史數據為例,以投入產出理論為基礎,以公共文化機構服務能力為主要研究對象,設計數據重用流程,利用數據挖掘技術對“兩館一站”的服務能力進行分析,并從投入產出的角度尋找其影響因素,從而實現對公共文化機構歷史數據的重用。
1 數據重用
1.1 概念及意義
數據重用可以理解為對現有或原有數據的再次有效利用。隨著數據分析技術的不斷發展,數據重用的廣度和深度也在不斷地發生變化。廣義的理解,數據重用不僅包括數據獲取和共享[2],如數據拷貝、模數信息轉換、數據及結構變換等,還包括數據分析與挖掘、潛在規律發現等,這也形成了數據重用的多個層次,其中,數據共享是基礎,數據引用是表現形式,數據挖掘與分析是手段[3]。
在實際應用中,數據重用具有極高的數據價值和實用意義,尤其是對于公共文化領域歷史數據來說,由于時代技術和思維的限制,在面對數據爆炸式增長的局面時,數據還沒有充分利用就被埋沒在新增數據中,難以實現數據價值最大化。因此,對于數據擁有者來說,對歷史數據的重用具有極高的應用價值,它不但能夠重新分析處理有價值的數據,提高數據信息的利用率,還能解決人們在實際工作中的各種問題。
1.2 數據重用層次
從應用層次上來看,數據重用根據應用方式和技術方法,可以分為不同的層次[4]。
(1)數據整理層次。數據整理是數據重用最直接的利用方式,一般情況下只需對收集的原始數據重新排序或組合,并根據實際需要合理分配數據信息。如對于結構化數據,按照實際需要抽取不同的字段重新組織,從而形成全新的數據表;對于非結構化數據,利用數據處理技術抽取關鍵信息,以結構化的形式進行組織和存儲。
(2)數據挖掘層次。數據挖掘就是通過數據挖掘技術,利用原始數據之間的相互聯系重新建立新的數學模型,并以此為基礎,分析挖掘新的數據和信息,獲取更多潛在的、不為人知的信息,從而更加準確地把握事物之間的規律。
1.3 數據重用相關研究
數據重用在自然科學領域和社會科學領域均有較長時間的使用歷史,盡管不同學科對數據重用的認知存在一定的偏差和不同的理解,但學者們都試圖從多個維度對數據重用開展相關研究和展開論述,如數據重用過程、可重用性評估、數據可信度及重用滿意度、數據重用行為影響因素、數據重用權益等[5]。
在諸多維度中,對數據重用過程進行方法研究,是數據重用具體應用的一個重要方面。以公共文化領域為例,對歷史數據的重用有助于在服務對象行為、精準服務、資源建設等多個領域開展深入研究[6-9]和多場景應用,如公共圖書館采用數據重用的方式,利用圖書館館藏資源數據建設特色資源庫;重用用戶歷史行為數據,為圖書館個性化服務提供數據輔助[10];利用歷史數據構建借閱量估計模型,對圖書館未來借閱量進行預測[11];構建行為元數據標準,實現異構數據重用[12]等。
2 數據重用場景設計
2.1 場景設計思路
數據重用的整體思路如圖1所示,主要包括以下幾個步驟。
(1)以投入產出理論為基礎,對公共文化領域投入與產出相關理論進行拓展研究,明確投入產出相關概念及組成。
(2)分析公共文化領域的投入與產出的基本組成要素,確定投入與產出指標,并進行指數合成及標準化處理。
(3)設計一定的應用場景,構建相應的數據重用模型,即公共文化機構服務能力評價模型。
(4)針對合成的產出指數,利用數據挖掘技術進行描述性分析。
(5)針對投入與產出之間的關系,利用數據挖掘技術進行自變量與因變量關系分析,找出產出指數的影響因素。
2.2 模型設計理論依據
(1)投入與產出理論。
投入產出分析是經濟學中一個十分重要的理論,主要是模擬真實的社會經濟結構和社會產品再生產過程,從數量上實現對社會經濟結構中各單元之間的依存關系的深入分析[13]。而投入與產出模型,就是在此基礎上建立的一種數學模型,用于分析經濟活動中投入與產出之間的數量依存關系[14]。其中,投入主要指經濟活動過程中的各種投入及其來源,包括最初投入和中間投入;產出主要指經濟活動過程中的各種產出及其使用去向,包括中間產出和最終產出[15]。在公共文化領域,投入指為了更好地開展公共文化服務所進行的一系列行為總稱,包括資金、各種軟硬件設施、文獻資源、人員和服務方式等,是公共文化服務供給水平的客觀反映;產出則指因投入而產生的效果,即在進行一系列投入的基礎上,提供的專業化、均等化和高價值的公共文化服務和文化產品[16]。在本文中,產出主要指服務能力,即在一定的時間范圍內,公共文化機構向公眾所提供的各種文化服務中被實際接受和使用的數量,是公共文化服務的實際使用量。
(2)投入與產出的組成。
公共文化機構投入組成除最初的資金投入外,還存在多種形式的中間投入,主要包括:①服務方式投入,即為更好開展公共數字文化服務所采用的各種方法或手段的集合。在后現代服務時期,讀者在服務方式上的需求主要是“需求多樣化,服務便利化”[17],常見的服務方式除閱覽、外借、文化活動外,還包括各種信息化服務方式等。②文獻資源投入,指公共文化機構對公眾開放和投放的各類文獻資源,包括以數字形式存在的數字資源和以紙質形式存在的實體資源。③環境投入,指為營造一定氛圍的公共文化服務環境而建造的各種基礎設施,包括各類基礎設施,如場館設施、網絡環境、服務器、存儲設備等,也包括各種服務設備,如讀者用機、觸摸屏、閱讀器等。④人力投入,即投入的人力成本,是公共文化服務能力提升的重要保障,主要包括從業人員的投入數量和技能水平等。
公共文化機構服務能力產出按服務類型可以分為線上服務能力產出和線下服務能力產出。其中線上服務能力指依托互聯網,通過各種信息化設備,向公眾提供數字化資源及服務所產生的實際使用量,如訪問量、下載量和播放量等;線下服務能力指為用戶提供的各種非信息化公共文化服務中被實際使用的數量,如閱覽和外借的人數與人次、文獻流通的冊數與冊次、各類活動的參與人數和場次等。
2.3 數據重用應用流程設計
根據場景設計思路,在公共文化機構投入與產出理論的基礎上,以公共文化機構服務能力評價為具體應用場景,利用數據挖掘技術對數據重用流程進行設計,包括理論應用、指數合成、技術路徑選擇和結果分析四個方面,具體流程見圖2。
(1)理論拓展與應用。將投入與產出理論應用在公共文化領域并進行相應的延伸和拓展。其中,投入按照服務類型可以分為線上服務和線下服務,涉及資源投入、環境投入、服務方式投入、人員投入、資金投入這里的資金投入指的是除資源建設、基礎設施建設、保障服務方式正常運行和人員支出之外,還指與提供文化服務直接相關的費用,下同。五個維度。產出根據服務類型有所不同:對于線上服務,產出主要指信息化的服務量;對于線下服務,會因圖書館、文化館和文化站職能和業務的差異而存在差異[18-19],其中,公共圖書館的服務產出主要指文獻資源的流通情況和使用情況,文化館和文化站的服務產出主要指舉辦各種活動的實際效果。
(2)標準化指數合成。為了消除各指標在量綱上的差異,可以利用指數編制及標準化的方法將其合成百分制標準化指數[20],并將其作為服務能力定量描述的基礎數據。服務能力標準化指數包括線上服務能力指數、線下服務能力指數,兩者合并后形成綜合服務能力指數,如圖3所示。
(3)設計技術路徑。結合公共文化機構投入與產出理論對具體的應用場景進行設計,在引入第三方數據的條件下,根據數據重用目的和數據的情況,選取不同的數據挖掘方法,對數據重用的技術路徑進行設計,制定服務能力現狀及其影響因素分析方案。
(4)結果分析。主要包括服務能力現狀分析和影響因素分析,其中,服務能力現狀分析重點對各省“兩館一站”的服務能力進行描述,揭示其中隱藏的信息;影響因素分析主要探尋投入指標集合與服務能力指標集合之間的聯系,尋找服務能力的影響因素。
3 技術路徑與成果示例
在大數據環境下,利用大數據技術對海量數據進行挖掘分析,是數據重用的一個有效手段。所謂數據挖掘,指的是從數據中發現、獲取有用信息的過程,包括探查數據庫并發現先前未知的有用信息、預測未來的觀測結果等,是數據庫中知識發現不可缺少的一部分[21]。在實際應用中,數據挖掘的任務主要分為描述任務和預測任務[22],其中,描述任務的主要目標是尋找、探查數據中存在的潛在聯系;預測任務的目標是根據其他屬性值預測特定屬性的值,即通過自變量來預測因變量。
3.1 構建服務能力指標體系
(1)投入指標提取。基于對公共文化服務體系中對投入概念和內涵的理解,以已收集數據為依據,將文獻資源、環境設施、服務方式、人力投入和資金投入這五個維度作為指標,并根據衡量的主要目標進行逐級細化。值得注意的是,由于公共圖書館、文化館、文化站在線下服務中具有明顯的差異,因此,在構建指標時需要按照不同的機構進行分類,詳見表1。
(2)服務能力指標提取。按照服務能力類型分為線上服務能力和線下服務能力兩大類,并基于本文對產出概念和內涵的理解,在提取公共文化機構服務能力定量描述指標時,與投入指標構建的方法相同,詳見表2。
3.2 評價指標的約簡處理
公共文化機構服務能力評價指標是一套比較完善的評價指標體系,評價內容比較全面,但考慮到業務場景的差異性,在實際評價過程中,為了提高數據重用的可操作性和實用性,需要根據具體需求,采用客觀計算為主、人工修正為輔的方法對評價指標進行約簡處理。
(1)基于模糊粗糙集理論的客觀約簡。模糊粗糙集作為一種數學方法,主要目的是把近似對象擴展到模糊集、等價關系擴展為模糊關系,用于處理不確定性和不精確性知識,目前廣泛應用于信息處理和數據挖掘領域,如人工智能、知識發現、模式識別、故障檢測等[23]。本文利用該方法對評價指標進行屬性約簡,將具有相似屬性特征的指標約簡成一個屬性集合,并用全新指標替代該集合,從而得到最簡指標,如圖4所示。
(2)基于經驗的指標主觀約簡。雖然模糊粗糙集理論可以對部分指標進行約簡處理并且效果良好,但從業務邏輯層面上來說,該方法無法對指標的重要性進行判斷和識別,可能會存在重要指標被剔除,而非重要指標被保留的情況,因此,還需要進行人工干預和修正,包括:①從業務角度識別比較重要的指標,找回被客觀約簡掉的重要指標,舍棄被保留的非重要指標;②對客觀計算形成的新屬性集合進行業務邏輯上的解釋,并定義新名稱替代該集合;③對部分指標進行降維處理,合并業務邏輯一致的指標,如將書刊文獻外借人次、流動圖書車借閱人次合并為總外借人次;將到館人次、講座參加人次、展覽參觀人次和培訓人次合并為總參與人次等。
3.3 服務能力差異性分析
離散系數也被稱為變異系數,是統計變異分析中的一個重要指標,主要用于比較不同樣本數據的離散程度。一般來說,離散系數越大,說明數據離散程度也越大,數據越不穩定[24]。利用離散系數,我們可以比較各省之間不同服務類型的服務能力的差異。以2018年數據為例,分別計算全國各省“兩館一站”不同服務類型的服務能力指數的平均值、中位數、標準偏差和離散系數,如表3所示。線上服務能力指數離散系數最大,說明各省線上服務能力差別最大,發展最不均衡。
3.4 服務類型均衡性分析
服務類型均衡性分析即在計算各省線上服務能力和線下服務能力Z值的基礎上,通過Z值表查詢對應的百分數,從而推斷各目標值在全國總體中的排位,判斷其相對優劣情況[25]。同時,利用百分數差值進行兩種服務類型的均衡性判斷:①通過沃德聚類分析法經過對比實驗證明,對于服務能力指數而言,在事先沒有明確分類的情況下,采用沃德聚類法效果最好。對百分數差進行非監督分類,根據計算結果的特征區隔程度將其分為均衡區和非均衡區兩類;②由于非均衡區包含線上服務占優和線下服務占優兩種情況,因此,可以將其繼續劃分為線上服務比重大和線下服務比重大兩類,從而最終得到線上服務比重較大(A類)、線下服務比重較大(B類)和服務較均衡(C類)三種類別,如表4所示。
我們可以發現:①多數省份線上與線下服務能力比較均衡,但仍有超1/3的省份存在不均衡現象;②從地理角度考慮,A類省份中,東部地區占多數,而B類省份中,中西部地區占多數,因此,可以認為在非均衡的省份中,東部地區更傾向于線上服務,中西部地區更傾向于線下服務;③從經濟角度考慮,A類省份中有80%的省份人均GPD超過1萬美元,而B類省份中僅有1/3的省份人均GDP超過1萬美元。
3.5 影響因素分析
目前,對于公共文化服務能力影響因素的分析,前人已經做了很多研究,其中以王錳認為的主客觀兩方面因素最具有代表性[26],其中客觀因素指向物的因素,包括公共文化機構的資源、基礎設施、服務策略等;主觀因素指向人的因素,包括公眾獲取信息的意識和能力、用戶欲望及自身屬性等。在模型構建方面,不少學者根據實際需求構建了不同的分析模型,如錢丹等構建了公共文化服務平臺可及性評價模型,從信息意識、社會影響等4個維度進行分析[27];楊秀云等利用回歸方程分析公共文化服務水平影響因素[28];徐享王等從內生提升的角度構建了資源與知識互動關系模型[29];余敏等構建了公共數字文化服務需求影響因素模型,對影響因素進行驗證與分析[30]。
在上述研究工作的基礎上,根據本次研究主體的實際情況,本文分別針對線上和線下服務能力,從內外兩個方面對影響因素進行分析與探測。
(1)線上服務能力影響因素分析。
在分析方法的選擇上,由于內外部因素與線上服務能力存在共線性問題,如表5所示,因此,在進行實際分析過程中,我們采用嶺回歸的方法[31]進行分析。
①內部影響因素分析。在內部影響因素探測過程中,以資源投入、環境投入、資金投入、人員投入為自變量,線上服務能力為因變量進行嶺回歸分析,結果見表6??芍篟2值為0.687,意味著所選取的四項內部影響因素可以解釋因變量68.73%的變化內因,其中資源、資金、人員具有顯著的正向影響,而環境并不會對線上服務能力產生影響。
②外部影響因素分析。在外部影響因素探測過程中,以人口數、各省面積、城鎮化率、GDP、GDP增速為自變量,線上服務能力為因變量進行嶺回歸分析,結果見表7。可知:R2值為0.654,意味著所選取的五項外部影響因素可以解釋因變量65.35%的變化外因,其中GDP具有顯著的正向影響,其余四項不會對線上服務能力產生影響。
(2)線下服務能力影響因素分析。
由于公共圖書館、文化館和文化站開展的線下服務各有側重,因此,在進行線下服務能力影響因素分析時,需要分開考慮。由表8、表9可知,除了文化館內部影響因素不存在共線性問題,可以直接采用線性回歸的方法外,其他因素都存在共線性問題,需要采用嶺回歸的方法進行分析,計算結果如表10所示。
①內部影響因素分析。線下服務內部影響因素考慮的指標主要有環境投入、資源投入、服務方式投入、人員投入、資金投入五項,其分析結果如下:
對于公共圖書館來說,R2值為0.852,意味著這五項內部因素可以解釋服務能力85.17%的變化內因,且這些因素均具有顯著的正向影響。
對于文化館來說,R2值為0.844,意味著這五項內部因素可以解釋服務能力84.4%的變化內因,其中服務方式具有顯著的正向影響,其余四項不會對服務能力產生影響。
對于文化站來說,R2值為0.817,意味著這五項內部因素可以解釋服務能力81.75%的變化內因,且這些因素均具有顯著的正向影響。
②外部影響因素分析。
線下服務能力外部因素考慮的指標主要有人口數、城鎮化率、GDP、人均GDP、GDP增速、各省面積六項,其分析結果如下:
對于公共圖書館來說,R2值為0.624,意味著這六項外部因素可以解釋服務能力62.39%的變化外因,其中人口數、GDP、人均GDP具有顯著的正向影響,其余三項不會對服務能力產生影響。
對于文化館來說,R2值為0.481,意味著這六項外部因素可以解釋服務能力48.07%的變化外因,其中人口數、GDP具有顯著的正向影響,其余四項不會對服務能力產生影響。
對于文化站來說,R2值為0.637,意味著這六項外部因素可以解釋服務能力63.70%的變化外因,其中人口數、GDP具有顯著的正向影響,其余四項不會對服務能力產生影響。
4 結論與建議
對于公共文化機構來說,由于過去技術條件的限制,歷史數據的價值并沒有完全挖掘出來,然而隨著全國智慧圖書館體系的建設,我國公共文化機構開啟了智慧化轉型的新篇章[32]。在這個過程中,利用數據挖掘技術實現公共文化領域歷史數據的重用,是公共文化機構智慧化的核心工作。本文在數據挖掘技術的基礎上,利用投入產出理論,以“兩館一站”數據為例,設計了公共文化領域的數據重用流程,對公共文化機構服務能力的現狀、影響因素進行分析,探討了數據重用在公共文化領域的應用模式、方法和技術路徑,為日后的大規模應用提供一定的參考依據。但同時也應該看到,目前公共文化領域利用數據挖掘技術的數據重用雖然在理論和技術研究方面取得了一定的成果,但在實踐應用上還需要進一步地加深和突破,以實際業務和具體需求為突破點,逐步擴展,取得以點帶面的效果。
參考文獻:
[1]嚴昕.公共圖書館數據治理框架構建研究[J].圖書館,2020,308(5):58-63.
[2]顧立平.數據治理:圖書館事業的發展機遇[J].中國圖書館學報,2016,42(5):40-56.
[3]尹文辰.國內外科學數據重用理論研究與實踐進展[J].山東圖書館學刊,2022,190(2):7-14.
[4]張瀟月.我國科研人員科研數據重用行為影響因素研究:以生物學領域為例[D].北京:中國科學院大學(中國科學院文獻情報中心),2020.
[5]張若晗.科研人員數據重用滿意度影響因素研究[D].哈爾濱:黑龍江大學,2021.
[6]俞錦梅.數據挖掘在國內圖書館應用領域研究綜述[J].圖書與情報,2015,162(2):137-141.
[7]潘小楓.數據挖掘技術及其在數字圖書館建設中的運用[J].圖書館理論與實踐,2006(4):105-106.
[8]李默.基于Web的數據挖掘技術在數字圖書館中的應用[J].大學圖書情報學刊,2007,102(4):44-46.
[9]董云鵬.數據挖掘技術在圖書館中的應用[J].現代情報,2006(11):131-132.
[10]張寧,李雪.國家圖書館數據管理與分析平臺建設[J].國家圖書館學刊,2016,25(6):80-89.
[11]楊英.基于數據挖掘技術的圖書館借閱量估計模型[J].現代電子技術,2020,43(7):99-102,106.
[12]邱春艷.科學數據元數據記錄復用研究[D].武漢:武漢大學,2015.
[13]李燕萍,許穎,吳紹棠.不同省域科研投入產出效率及其影響因素的實證研究[J].經濟管理,2011,33(2):23-30.
[14]李偉民.金融大辭典[M].哈爾濱:黑龍江人民出版社,2002:11.
[15]李小敏.投入產出視角下福建省文化產業對經濟增長效應的研究[D].福州:福州大學,2018.
[16]邱冠華.公共圖書館提升服務效能的途徑[J].中國圖書館學報,2015,41(4):14-24.
[17]郝忠洛.論讀者需求與圖書館服務方式[J].圖書情報工作,2007,361(12):135-137,115.
[18]中華人民共和國公共圖書館法[EB/OL].(2017-11-05) [2022-04-10].http://www.gov.cn/xinwen/2017-11/05/content_5237326.htm.
[19]文化和旅游部關于群眾藝術館、文化館管理辦法[EB/OL].(2020-01-14) [2022-04-10].http://www.gaozhou.gov.cn/mmgzwhgdj/gkmlpt/content/0/740/post_740895.html?jump=1#3204.
[20]TAN P N,STEINBACH M,KARPATNE A.數據挖掘導論[M].段磊,張天慶,譯.北京:機械工業出版社,2021:39.
[21]馮研,王馨.國內圖書館數據挖掘技術實踐應用進展分析[J].圖書館學研究,2011,271(20):2-4.
[22]黃志良.數據挖掘技術在高校圖書館資源利用中的應用研究[D].南昌:南昌大學,2020.
[23]黃正華.模糊粗糙集模型的若干拓展[D].武漢:武漢大學,2010.
[24]賈俊平,何曉群,金勇進.統計學[M].第7版.北京:中國人民大學出版社,2018:85.
[25]FREEDMAN D,PISANI R,PURVES R,et al.統計學[M].魏宗舒,施錫銓,林舉干,等譯.北京:中國統計出版社,1997:100.
[26]王錳,陳雅,鄭建明.公共數字文化服務效能的關鍵影響因素及其機理研究[J].中國圖書館學報,2018,44(3):35-51.
[27]錢丹,陳雅.公共數字文化的一體化服務效能探析[J].圖書館,2017,273(6):60-64.
[28]楊秀云,趙科翔,蘇祎.我國公共文化服務水平及其影響因素[J].西安交通大學學報(社會科學版),2016,36(5):81-88.
[29]徐享王,羅蔚.圖書館服務能力的內生提升研究[J].圖書館建設,2009,186(12):8-11.
[30]余敏,完顏鄧鄧.公共數字文化服務需求影響因素研究[J].圖書館,2020,306(3):14-20.
[31]郭鵬妮.嶺回歸與分位數回歸的研究及結合應用[D].哈爾濱:哈爾濱工業大學,2014.
[32]饒權.全國智慧圖書館體系:開啟圖書館智慧化轉型新篇章[J].中國圖書館學報,2021,47(1):4-14.
作者簡介:
張寧(1982— ),男,碩士,副研究館員,任職于國家圖書館。研究方向:數字圖書館、大數據分析。