尹相權 李書寧 弓建華
(北京師范大學圖書館,北京 100875)
·業務研究·
基于系統日志的高校圖書館研究間用戶利用行為分析
尹相權 李書寧 弓建華
(北京師范大學圖書館,北京 100875)
[目的/意義]挖掘高校圖書館研究間的用戶行為規律特征,為研究間設施改進、精準服務提供數據支撐。[方法/過程]利用北京師范大學圖書館研究間系統日志數據,參考用戶畫像的研究思路,對數據進行多維度行為建模,探索影響用戶行為的主要因素,并建立用戶原型。[結果/結論]行為分析發現,學科特點因素和學生年級是影響研究間使用的重要因素;研究間預約熱度與采光條件和相對位置顯著相關;研究間違規使用行為與用戶所在年級和學科有一定的關聯;研究間預約與績效之間存在一定相關性。多維度行為分析可為改進設施、建立用戶原型提供數據支撐。
數據挖掘;研究間;關聯分析;多維度;用戶行為分析;用戶畫像
近年來,圖書館空間規劃與利用研究已成為國際圖書館界的熱點話題之一,美國哥倫比亞大學2010-2013年圖書館規劃中提出,“發展多功能的、有吸引力的圖書館空間是圖書館未來發展的關鍵因素”[1],《地平線報告·圖書館(2017版)》預測大學圖書館未來3~5年內將迎來空間改造的熱潮[2]。同濟大學的一項調研結果表明,現今大學生認為最缺乏的學習空間大都集中在“沉思、獨處的空間”和“小規模學習研究的場所”[3]。從國內已有實踐來看,設立和優化研究間已成為圖書館空間改造的重要內容,研究間也已成為深受師生歡迎的學習研究場所[4]。
從筆者們對國內圖書館研究間建設和管理實踐電話訪談(含他館實地和電話對我館情況的調查)來看,國內圖書館研究間建設和管理正面臨相當多的困惑:預開設研究間的圖書館對設立研究間的必要性、在圖書館建筑內的哪些位置設置研究間、如何處理個人研究間和多人研究間的關系等困惑;已經建有研究間圖書館面臨研究間使用量不均衡、研究間配置不足或不合理等困惑。這些困惑的解決不能依靠“拍腦袋”的直觀感覺,需要跟蹤用戶研究間利用行為,借助于相關數據的定量分析,用戶正常使用行為和違規行為的行為特征進行分析,揭示用戶對研究間的使用規律,促進更合理的資源配置。此外,依托大數據技術,將多源數據充分地進行融合和深入分析,挖掘出數據背后的用戶行為規律特征,將其概括為抽象的用戶行為長期跟蹤服務模型,進而實現圖書館對用戶個人的精準定位與服務,這將對圖書館信息服務能力的提升具有重大意義[5]。
從相關研究成果來看,雖然國內外有大量研究工作基于系統日志對用戶行為進行分析[6-8],但尚無工作對研究間系統進行系統的用戶行為分析。
北京師范大學圖書館自2010年新館啟動時,就在國內較早的引進杭州聯創信息技術有限公司的IC學習空間管理系統(目前國內采用該系統進行研究間管理的高校圖書館已有近70所)實現研究間預約和管理,積累了豐富的平臺管理經驗和用戶利用數據,本文利用北京師范大學圖書館研究間的日志數據,采用統計分析、聚類分析、可視化等方法,基于多維度用戶類型,分析用戶利用行為規律,以解決上述研究間建設管理過程遇到的困惑問題,也期待本文所采用相關方法對其他采用該系統的高校圖書館開展數據分析和研究有所啟迪。
用戶畫像(Personas)的概念最早由Alan Cooper提出:“用戶畫像是目標用戶的一個具體代表”,即用戶原型是真實用戶的虛擬代表,是建立在一系列真實數據之上的目標用戶模型[9]。通過用戶調研或用戶行為數據去了解用戶,根據他們的目標、行為和觀點的差異,將他們區分為不同的類型,然后每種類型中抽取出典型特征,賦予名字、照片以及一些人口統計學要素、場景等描述,就形成了一個用戶原型[10]。通過用戶畫像,可以描繪應用的主要用戶群;表達和聚焦主要用戶群的主要需求和期望;清晰描繪用戶的期望以及使用習慣;輔助發現通用特征和功能等。已有工作利用用戶畫像進行數字圖書館知識社區關聯模型構建,為數字圖書館社區用戶描述提供參考[11-12]。參考用戶畫像的研究思路,可以通過用戶日志數據,對研究間用戶的使用數據劃分為多個維度并分別進行行為建模,然后在行為建模的基礎上,構建用戶畫像,為提升研究間資源配置提供數據基礎。

圖1 研究間用戶利用行為分析技術路線
如圖1所示,第一步,進行基礎的數據收集工作,包括用戶預約數據,用戶違規數據,用戶基礎數據(學院,入學年度,類型等)以及用戶績效數據(部分學院的研究生獎學金名單)。第二步,在數據收集的基礎上進行探索性數據分析,包括,聚集用戶預約數據與用戶基礎數據;把部分主要數據項進行概念化分層,例如,把學生分為碩士和博士,并進一步按照入學年度進行分層,把學生所在學院概念化分層,比如劃分為文史、理工、教育和藝體4類;根據概念化分層的數據,對研究間的熱度進行多維度分析,并考察用戶違規行為;根據用戶績效數據和用戶行為數據的關聯分析,探索用戶預約行為與績效產出之間的關聯。第三步,根據行為建模結果,選擇代表性用戶,構建用戶畫像。
在探索性數據分析中,首先要了解不同年級的預約行為差異、不同學科的預約行為差異,構建一個基本的研究間用戶描述信息,進而進行細化分析,根據聚類分析,探索研究間設置與研究間人氣之間的關聯。之后,基于違規記錄的分布,考察研究間違規宣傳教育的成效,并抽取了部分數據,根據交叉列聯表分析以及獨立性分析,探索研究間預約行為與研究生績效之間的相關性。
出于計算分析方便且不失代表性,本文所使用的日志數據為北師大圖書館2016年1月1日至2016年12月31日1年中48間研究間預約數據(研究間預約日志格式參見表1),共包含60 163條記錄。其中,碩士記錄47 876條,博士記錄11 591條,教職工記錄696條??紤]到該校研究間預約系統只面向研究生和教職工,由于教職工的數據相對較少,本文只分析研究生數據。依據各學院的學科設置特點,本文將學生分為文史、理工、教育和藝體四大類。

表1 研究間預約日志格式
本文根據入學年度,把碩士和博士的預約記錄分開統計,統計結果如表2所示。碩士和博士共計58 938條,其中碩士47 327,博士11 567,留學生44,碩士研究生是研究間預約用戶的主體。

表2 研究間研究生預約行為統計表
從表2可以看出:①文史類研究生對研究間的利用顯著高于理工類研究生,且文史類博士研究生對比理工類博士研究生差異更為顯著,文史類碩士生約為理工類的5倍,文史類博士生約為理工類的6倍;②總體而言,研究生年級越高對研究間的利用量越高(這里只考慮正常在校學習的研究生,2013級及以前延期畢業的研究生因群體人數不完整不予考慮),2014級碩士和2014級博士分別占比最高,其次為2015級碩士和2015級博士,符合研究生科研行為量隨入學時間逐年遞增的規律,但是學科專業特點對此影響比較大,比如教育類專業對研究間的利用二年級研究生是主體,明顯高于三年級,可能跟該類研究生三年級需要實習有關。

表3 不同學科類型研究生人均預約數
考慮到不同類型、不同入學年度的研究生總數不同,本文調研了北京師范大學各學年各專業的實際錄取人數,用于計算不同類型研究生按照入學年度的人均預約數,如表3所示,文史類研究生是研究間利用的主體,其人均預約數顯著高于其他三類,其次為教育類,理工類的人均預約數與藝體類較為相似。在各入學年度數據中,二年級研究生(2015級)是研究間利用的主體,其人均預約數高于三年級(2014級)和一年級(2016級)。一年級研究生(2016級)的預約行為在各個學科類別中相對比較均衡,說明各類型的一年級研究生新生在入學的第一個學期中尚沒有顯著的預約行為差異。
在讀者的預約行為中,是否對不同研究間具有一定的選擇偏好?帶著這個問題,本文首先總體統計了各個研究間的預約情況,并進一步細化統計項,按照入學年度,觀察不同亞群讀者對研究間的偏好。這些分析可以為管理人員改造熱門研究間的服務設施提供參考,例如把部分位置的單人間改為4人間,或者參考人氣高的研究間的溫度等環境因素,改善其他研究間的使用環境等。在總體統計分析的基礎上,根據入學年度分析各個研究間的預約情況,一方面可以方便管理人員改善研究間的服務設施;另一方面,可為用戶預約研究間時的個性化推薦提供數據支撐。由于碩博連讀生以及博士延期學生的比例偏低,本文選擇2013年、2014年、2015年和2016年4個年度作為統計分析對象。

圖2 研究間預約總計對比圖
北京師范大學圖書館的不同樓層的研究間具有統一的編號規則。本文分別對比了四樓和五樓各研究間的預約總數,如圖2所示。從該圖可以看出,除了個別研究間(比如419和519)樓層之間預約量差異較大外,四樓和五樓對應位置的研究間預約熱度較為相似。不管四樓還是五樓,05~12研究間普遍比其他研究間預約熱度高,多人研究間顯然比單人研究間更受歡迎,其地理位置以及顯著預約熱度如圖3所示。

備注:藍色—白色—紅色,表示熱度從低到高,矩形代表四樓研究間熱度,三角形代表五樓研究間熱度,Z代表樓層。圖3 研究間地理位置分布及顯著熱度
總體說來,南側研究間的利用普遍比北側更高,由于建筑原因,西南側的自然采光條件最好,其利用率也最高,北側采光條件較好的位置利用率也比較高,顯然,自然采光條件是用戶選擇研究間非常關鍵的影響因素;到達便利性和使用方便性也是影響用戶利用非常重要的因素,靠近電梯和洗手間又并非正對洗手間(正對洗手間的04最低,519利用最低后排查是硬件設施原因造成)的研究間更被用戶青睞;環境安靜則是另一個影響用戶利用的重要因素,圖3中21~23研究間就是這樣的位置。當然影響用戶選擇利用的不是其中的一個因素,而是綜合各方面因素的結果。

備注:藍色—白色—紅色表示熱度從低到高圖4 研究間人氣熱力圖(入學年度)
圖4為研究間根據入學年度的聚類結果。如圖4所示,2014年入學的研究生和2016年入學的研究生對研究間的喜好更為相近,各個年級的學生的“人氣研究間”具有一定共性和差異性。人氣最高的研究間(2013級:411、412、506、511、512;2014級:408、409、506、509;2015級:406、416、508、509、510;2016級:405、407、408、410、411、412、505),除了416研究間,其他均為4人間,且表現出了一定地理位置偏好。例如,樓層西南角的研究間(09~12),在各個年級的人氣研究間中至少有兩次出現,在13級研究生中,甚至占到了4/5。2016級的研究生明顯對四樓的研究間更感興趣。
個人研究間的選擇可能更能代表個人對研究見的選擇傾向。各年級研究生對個人研究間的偏好差異較大,2013級:520,2015級:416、518,2016級:414、415,從數據上看,低年級的研究生(2015級和2016級)更傾向于選擇四樓西北角的較安靜的位置(414、415、416),高年級的研究生(2013級)則更傾向于比較開放的位置(520)。
在所有違規記錄中,扣除管理員取消的違規記錄以及教職工的違規記錄,共有777條研究生違規記錄。其中,173個違規原因為使用人數不達標(未按規定人數使用是指多人間使用人數不足),604個為預約不來。如表4和表5所示。在預約不來和使用人數不達標的記錄中,人數不達標率顯著高于預約不來率,高年級的違規率明顯低于低年級;文史類人數不達標記錄占文史類預約總數的比例為0.9%,在4個學科類型中最低。經獨立性檢驗,學生年級與預約違規類型的卡方值為744,P值為0.199(大于0.05),學科類型與預約違規類型的卡方值為775,P值為0.135(大于0.05),說明年級、學科類型與違規類型具有一定的相關性,總體來說,對研究間利用率越高的群體違規率越低。此外,在所有的違規記錄中,沒有出現同一個學生重復違規的情況,也沒有出現同一個學生有不同類型違規的情況,即預約不來記錄和人數不達標記錄沒有交集,說明研究間預約違規規范相對簡單,容易被理解,也能起到了良好的約束作用。

表4 各年級違規記錄

表5 各學科類型違規記錄
研究表明,學生的學業科研與圖書館利用具有較強的相關性[13-14]。是否可以假設,獲得獎學金的學生具有較多的研究間預約行為。為此,本文選擇3個有代表性且有獎學金公開信息的學院(教育學部,經濟與資源管理研究院和心理學院),將其2016年度國家獎學金、學業獎學金及專項獎學金名單作為研究生的績效信息,考察研究生預約行為與績效之間的關聯。其中,教育學部僅有國家獎學金信息,經濟與資源管理學院和心理學院有國家獎學金、學業獎學金及專項獎學金信息。
如表6所示,據統計,在215名獎學金獲得者中,有62名同學預約過研究間。其中,經濟與資源管理研究院的獎學金獲得者的預約比例最高(40.4%),心理學院最低(22.6%),同時,經濟與資源管理研究院的獎學金獲得者預約人中,博碩比最高。這3個學院的預約行為覆蓋了近30%的獎學金名單,顯著高于獎學金獲得者占所有研究生的比例,以教育學部為例,其2014級、2015級、2016級碩士共計招生658名,而國家獎學金獲得者僅為22名,國家獎學金獲得者僅占所有碩士生的3.3%,說明研究生研究間預約行為與研究生獎學金之間具有一定相關性。

表6 2016年預約行為與2016年度獎學金
同時,我們也注意到,學院不同,績效與研究間使用的相關性不一,例如心理學院,其獎學金獲得者的預約行占總預約行為的比例相對教育學院偏低。為此,我們進一步根據表6的數據,把各個學院的預約數據分為獎學金獲得者預約人數,獎學金獲得者無預約人數,進行了獎學金獲得者使用研究間情況與其所在學院之間獨立性檢驗,卡方檢驗結果如下:卡方值為215,P值為0.028(小于0.05),說明二者相互獨立,即獎學金獲得者的預約行為與其所在學院無關。
基于以上的探索性數據分析,可以根據不同的需求來抽取用戶原型。例如圖書館需要一個研究間用戶代表,根據研究間研究生預約行為統計表(表3)和研究間人氣熱力圖(入學年度)(圖4),可以選取2014級文史類碩士,2014級研究生對研究間的偏好分析,定位到研究間408、409、506、509,并進一步統計法學院在該4個研究間預約次數最多的2014級碩士生的行為軌跡,作為用戶原型的行為特征,預約次數最高的學生,在該4個研究間總計預約次數為168次,我們抽取其在2016年度所有的預約行為,如圖5所示,小結如下:在48間研究間中,共計預約過16間,其中,四樓和五樓的4人間預約次數最多,更傾向于使用五樓的4人研究間,單人間更傾向于四樓的420~424,均位于四樓的東北角。通過多個用戶原型,可為預約服務提供個性化推薦,在預約界面提供“您可能最喜歡的研究間”推薦服務,提高用戶的預約體驗。
此外,基于以上探索性分析結果,還可以為研究間的配置提供數據參考。例如,若計算個人研究間與4人研究間的優化配比,計劃通過定向抽樣調查問卷來執行,參加調研的學生,可以參考人氣熱力圖中獲取的學院、入學年度以及學生類型。

圖5 北師大研究間用戶原型研究間預約分布
本文參考用戶畫像的研究思路,對北京師范大學圖書館研究間系統日志數據進行了多維度探索性數據分析,探討了研究間預約行為在學院以及研究生年級層次上的特性,發現:
1)二年級研究生為研究間最主要的使用群體,其次是三年級的研究生,一年級研究生對研究間利用需求不是特別明顯;
2)學科特點因素是影響研究間使用的重要因素,文史類研究生對研究間利用率最高,教育類研究生次之,理工和藝體類研究生利用率較低;
3)不同年級在研究間選擇時具有不同偏好,且偏好具有一定地理位置對稱性(不同層的相同位置以及相鄰研究間);
4)研究間違規使用行為與用戶所在年級和學科有一定的關聯,使用率越高的群體,違規的幾率越?。?/p>
5)研究間采光條件、距離廁所和電梯的位置、安靜程度都是影響用戶研究間選擇的重要因素;
6)經過研究間與獎學金之間的關聯分析,發現研究間預約與績效之間存在一定相關性,獎學金獲得者的預約行為與其所在學院關系不大。
基于以上研究間用戶行為特征規律分析結果,對圖書館改進研究間服務的重要啟示如下:
1)研究間采光條件、距離廁所和電梯的位置、安靜程度都是影響用戶研究間選擇的重要因素,在改進研究間服務設施時,應重點考慮以上因素,通過改變研究間門的朝向等措施,盡可能優化研究間的硬件條件。
2)不同年級、不同學科類型的行為特征具有明顯差異,參考各個群體的行為規律,圖書館應根據學科類型特點和年級,分別提供個性化推薦數據。
3)加強研究間在新生群體的宣傳,進一步加強對新生的研究間使用培訓教育,在吸引新生充分使用研究間的同時,減少新生的違規率。
4)在開展研究間服務調研或獲取特定研究目的抽樣數據時,可以參考不同年級、不同學科類別的預約比例做相應調整。例如,在抽樣調查時,適當增加二、三年級的學生的比例,更多選擇文史類和教育類學生。
5)根據挖掘出的多維度用戶行為規律特征,可從大數據中概括出抽象的用戶行為模型,輔助實現圖書館對用戶個人的精準定位與服務。
另外需要注意的是,考慮到研究間資源相對比較緊張,本文分析結果可能并不能獨立反映用戶的主動選擇傾向,在進行研究間相關決策之前,可輔以重點用戶調查,以便使相關決策更加科學。
[1]馮東,于沛.近20年來圖書館館庫空間變化研究[J].圖書館學研究,2011,(22):2-6.
[2]Adams Becker,S.,Cummins,M.,Davis,A.,Freeman,A.,etc.NMC Horizon Report:2017 Library Edition[R].Austin,Texas:The New Media Consortium,2017.
[3]沈天清.高校自主學習空間的研究[D].合肥:合肥工業大學,2004.
[4]劉孝文,和艷會.圖書館研究間的調查與分析[J].圖書館雜志,2013,32(8):42-45.
[5]王捷.基于用戶行為數據分析的高校圖書館信息服務平臺研究[J].現代情報,2017,37(1):127-130.
[6]余慧佳,劉奕群,張敏,等.基于大規模日志分析的搜索引擎用戶行為分析[J].中文信息學報,2007,21(1):109-114.
[7]童國平,孫建軍.基于搜索日志的用戶行為分析[J].現代圖書情報技術,2015,31(z1):80-88.
[8]Minami T,Kim E.Seat Usage Data Analysis and Its Application for Library Marketing[C]// International Conference on Intelligent Information and Database Systems.Springer-Verlag,2011:238-247.
[9]Cooper A.The Inmates are Running the Asylum[M].Macmillan Publishing Co.Inc.1999,53(vember):17.
[10]Cooper A.The Origin of Personas[EB/OL].https://www.cooper.com/journal/2008/05/the_origin_of_personas?[2017-08-17.
[11]胡媛,毛寧.基于用戶畫像的數字圖書館知識社區用戶模型構建[J].圖書館理論與實踐,2017,(4):82-85.
[12]劉速.淺議數字圖書館知識發現系統中的用戶畫像——以天津圖書館為例[J].圖書館理論與實踐,2017,(6):103-106.
[13]Stone G,Ramsden B.Library Impact Data Project:Looking for the Link between Library Usage and Student Attainment[J].College & Research Libraries,2013,74(6):546-559.
[14]吳英梅,何璨.高校圖書館對學生學業科研影響的實證研究——以北京師范大學為例[J].圖書情報工作,2014,(20):73-77.
SystemLogsBasedUserBehaviorAnalysisofStudyRoomsinUniversityLibrary
Yin Xiangquan Li Shuning Gong Jianhua
(Library,Beijing Normal University,Beijing 100875,China)
[Purpose/ Significance]This paper aimed to provide data support to improve facilities and precise services of study rooms in university library by analyzing user behaviors.[Method/Process]System log of Beijing Normal University Library was collected,and further analyzed with Persona related technique to get multi-dimensional modeling results,to analyze major factors affecting user behaviors and to build user prototypes.[Results/Conclusions]Via the behavior analysis,it showed that the utility of study rooms was related to classes of disciplines and the grades of students,the popularity of study rooms was related to their lighting conditions and relative locations,noncompliance with requirements was related to both the grade and discipline factors,and that reservation data was somewhat related to scholarships.The multi-dimensional user behavior analysis method may provide data for improving facilities and building user prototypes.
data mining;study rooms;association analysis;multi-dimensional;user behavior analysis;persona
10.3969/j.issn.1008-0821.2018.01.016
G250.7
A
1008-0821(2018)01-0115-06
2017-10-11
尹相權(1982-),男,館員,碩士,研究方向:圖書館學,圖書館新技術應用,數據挖掘等。李書寧(1976-),男,副研究館員,博士,碩士生導師,研究方向:數字圖書館技術、用戶研究等。弓建華(1981-),女,館員,碩士,研究方向:圖書館學、圖書館管理等。
郭沫含)