湯妙吉
(廣州南洋理工職業學院圖書館,廣東 廣州 510925)
·業務研究·
面向個性化信息服務的圖書館移動用戶行為分析模型設計
湯妙吉
(廣州南洋理工職業學院圖書館,廣東 廣州 510925)
總結國內外圖書館移動用戶行為的研究現狀,為面向個性化信息服務的圖書館移動用戶行為分析模型設計提供參考。采用理論研究與模型分析相結合的方法,從數據采集、數據處理與數據應用三方面研究用戶行為動作序列和用戶行為特征之間的關系。以前端操作行為與后端業務數據庫相結合的方式定義和表示圖書館移動用戶在iOS App、Android App與Web頁面上與產品UI的隱形反饋行為,采集移動用戶客戶端基礎信息字段、用戶行為相關字段、配置Flume 3個方面數據,引入時間維度、用戶維度、部門維度、資源維度、行為維度、入口渠道6個維度進行數據倉庫層面的建模,從用戶行為序列預測與用戶興趣引導兩步實現數據應用。
移動圖書館;用戶行為;個性化;信息服務;模型設計
隨著移動終端的快速發展,人們已不僅僅是通過坐在計算機前獲取圖書館信息,更能夠利用手機、平板電腦等移動終端隨時隨地的訪問數字圖書館,獲取其感興趣的資源,移動技術在數字圖書館中的應用為圖書館個性化服務帶來了一次新的發展機遇。目前移動終端和普通計算機終端相比,在處理能力、處理方式以及操作形式上都有較大差別,移動終端更偏向于輕量化的處理,其最終目的是為讀者提供更為快速、便捷、靈活的應用效果。因此如何發揮移動終端的特點,在此基礎上更好的為讀者提供個性化信息服務,是當前需要解決的一個重要問題。
隨著越來越多的圖書館整合數據庫、優化信息化手段,圖書館能夠為讀者提供越來越多快速便捷的信息服務。在圖書館為讀者提供諸多便捷服務的過程中,最引人注目的是圖書館給讀者提供的個性化信息服務。個性化信息服務是指根據用戶的特定需求有針對性的為用戶提供相應的信息服務和知識服務[1]。圖書館推出個性化信息服務,在很大程度上節約了讀者的時間、提高了讀者獲取知識和信息的效率,受到了大量讀者和用戶的歡迎。
目前為讀者提供個性化信息服務的方式有多種,較具代表性的有3種:1)國外多家高校圖書館使用的Mygateway。Mygateway系統能夠保存讀者在訪問圖書館各種數據庫時產生的訪問路徑、訪問頁面、訪問專題等相關的信息,并將這些信息分門別類進行處理,有針對性的為讀者推送一些新的、用戶可能感興趣的頁面或信息,提高讀者獲取其感興趣知識的效率。2)通過電子郵件的方式為讀者定時推送信息。這種服務方式需要讀者預先在圖書館相關的服務系統中登記信息,尤其是需要讀者主動提交感興趣的專題、知識點和興趣。之后圖書館以此為依據,定期向讀者郵箱中推送相關的資訊。著名的INGENTA機構就采用這種服務方式。3)利用圖書館信息服務系統功能記錄用戶長期以來的訪問過程、訪問興趣和愛好。根據這些信息為每個讀者建立虛擬化的個性圖書館。比如瑞典計算機科學研究所就能夠為訪問該圖書館的研究者建立虛擬的個人圖書館,日本大多的高校圖書館也推出類似的虛擬化個人圖書館信息服務系統。
綜合近年來全球各國所推出的數字圖書館個性化服務的發展現狀和發展趨勢可以看到,在所有的這類應用系統中,都是根據用戶或者讀者的喜好有針對性的為讀者推送相關的信息和知識,從而提高用戶獲取知識的效率。這種應用模式經過實踐證明能夠極大的提升讀者在圖書館的體驗效果,成為圖書館提供信息服務的一個主要發展方向。
國內在面向個性化信息服務的圖書館移動用戶研究中引入了對用戶行為的分析功能。如:宋文杰等人研究學生和工作人員這兩個群體在對待移動圖書館這種新技術方面存在的差異,支持TAM模型中兩個核心變量(感知易用性和感知有用性)對使用移動圖書館行為意向的影響[2];明均仁等人結合移動圖書館的特點,引入績效期望、努力期望、感知趣味性、感知風險、信息質量、服務質量、社會影響和促成因素8個變量,構建基于UTAUT的高校學生使用移動圖書館的技術采納模型[3];吳丹等人以國內某高校圖書館OPAC后臺日志為基礎,采用日志挖掘法對移動端與桌面端的用戶后續點擊行為進行統計分析[4];梁欣指出目前國內圖書館移動服務模式存在著重實踐、輕用戶的現象,圖書館應以用戶為中心來設計與優化移動服務模式[5]。
國內圖書館移動用戶行為分析的具體模型設計與實現主要表現為接入第三方或者圖書館自己開發。在數據分析這個模塊,目前國內圖書館大多使用的是傳統數據統計服務或新興數據公司提供的第三方服務。以百度統計、Google Analysis為代表的傳統數據統計服務,前端嵌入SDK采集數據、后臺查看相應統計數據的方式成為一些圖書館的首選。這種方式的缺點有4個:1)統計范圍只能是簡單的訪問量、點擊率與活躍數;2)各統計模塊之間的控制、調用、傳遞關系依賴性強;3)統計數據源不受圖書館控制;4) 無針對用戶需求的分析功能。而以神策、GrowingIO為代表的新興數據公司根據傳統數據統計服務缺點提出了相應的解決方案,但需要不菲的接入或私有部署費用,這筆費用對于公益性質的圖書館來說過于昂貴,加上新型數據公司在業務上側重于電商領域的數據分析,對于圖書館行業的分析模式也處于探索階段,沒有成熟的模板可以利用。
為此本文重點針對圖書館移動用戶行為,結合圖書館自身業務特點,設計圖書館移動用戶分析模型,充分利用開源框架實現相應功能,力圖通過對移動用戶行為的分析,讓圖書館為讀者提供更好的個性化信息服務。
以面向個性化信息服務的圖書館移動用戶行為分析為目的,以向用戶推送感興趣的內容為服務最終目標,在分析圖書館移動用戶內在特征和外在需求的行為上,采用理論研究與模型分析相結合的方法開展研究。
第一步,從圖書館移動用戶行為的基本定義和表示方法入手,梳理清楚面向個性化信息服務的圖書館移動用戶行為分析過程中應該如何對用戶行為進行定義和描述,并給出表示用戶行為的基本數據結構。
第二步,設計圖書館用戶行為分析模型。通過分析圖書館移動用戶行為的特征與意圖,提高圖書館用戶行為分析模型理解用戶行為的準確性,真正做到為用戶提供所需要的各種個性化信息推送服務。
第三步,針對不同的圖書館移動用戶群體,分析其差異性與特征,研究圖書館移動用戶行為分析模型動態更新技術。讓所設計的用戶行為分析模型并不是一個簡單的靜態應用模型,而是能夠根據用戶群體的特征和差異動態的進行更新,使得用戶行為分析模型能夠針對不同的應用場合、應用對象展示出不一樣的分析能力。
第四步,將研究成果應用到圖書館實際的參考咨詢服務中。讓讀者在使用圖書館移動服務時能夠享受到圖書館自主提供的關聯數據和知識,提高圖書館信息構建服務能力,提升讀者使用圖書館移動服務的體驗效果。
圖書館用戶行為數據一般分為用戶打分、喜歡或不喜歡的顯性反饋行為與頁面瀏覽行為、消費行為的隱性反饋行為。兩者的詳細比較如表1所示。
本文所研究的面向個性化信息服務的圖書館移動用戶行為主要指的是表現在iOS App、Android App與Web頁面上的用戶與產品UI的隱形反饋行為。這些隱形反饋行為伴隨著屬性數據在前端引起UI變化或者在后端產生服務通信,從計算機技術角度來說就是負責從前端采集所需的完整用戶行為信息,從后端服務日志、業務數據庫中讀取相關數據,將兩部分數據做整合用于后期的數據建模。

表1 顯性反饋行為與隱形反饋行為的比較
圖1所示是一次移動圖書館的注冊流程。

圖1 移動圖書館的注冊流程圖
從圖1中可以看出,如果僅僅依靠后端的數據庫只能知道在一定時間內新增了多少新注冊移動圖書館的用戶。而通過采集用戶在前端的操作行為,則可以分析出全部新增移動圖書館用戶的5個數據:用戶瀏覽海報頁面的數據、點擊“注冊”跳轉注冊頁面的數據、點擊“獲取驗證碼”的數據、點擊“提交”注冊信息的數據、后臺注冊成功的用戶數據。所以定義和表示圖書館移動用戶行為,一定要前端操作行為與后端業務數據庫相結合,前端用戶行為數據用于分析轉化率,幫助后端業務數據庫挖掘出更多的有用信息,方便后臺產品業務做結合。
在傳統圖書館各種應用、服務、管理系統中,由于對用戶行為模型研究不充分,缺乏對用戶行為數據的深度挖掘,導致圖書館服務系統不能夠為讀者提供高質量個性化信息服務。所以在研究圖書館移動用戶行為分析時,應將研究重點放在移動用戶行為的建模方法上。研究用戶行為動作序列和用戶行為特征之間的關系,剔除用戶行為中的一些個性化信息的干擾,采用模型的表示形式,快速、準確地將用戶行為動作序列映射到用戶行為特征上,解決移動用戶行為分析中的核心問題。
面向個性化信息服務的圖書館移動用戶行為分析模型總體數據架構分為數據采集、數據處理與數據應用三大塊。如圖2所示,數據采集層負責從前端App、H5頁面、服務器日志采集數據,通過Kafka接入后存入Elasticsearch中,數據處理層負責數據的抽取、清洗、建模,然后存入MongoDB與MySQL中,整個過程由Airflow任務調度管理系統來進行管理與監控,產出的數據最終提供給應用層使用。MySQL與MongoDB業務數據在數據采集層仍是重要的數據源,同時考慮到圖書館數據增長相對于電商數據很緩慢且沒有很明顯的需求,整個過程暫時擱置Hadoop。
主要采集圖書館移動用戶客戶端的數據。由于圖書館各種移動端應用并不全是圖書館負責開發,所以這部分工作由移動系統各團隊負責采集并將采集到的數據寫入kafka,圖書館這邊以kafka作為source,通過flume直接將采集到的數據以天為單位sink至hdfs中。相關采集的字段如下:
1)移動用戶客戶端基礎信息字段。可分為26個字段,詳見表2。

圖2 圖書館移動用戶行為分析模型總體數據架構

字段名中文名稱可取值字段名中文名稱可取值opt_system_type操作系統類型android、ios、windowsuser_account用戶賬號opt_system_version操作系統版本ios_10.0、android_5.0user_dept用戶部門location_gps_long地理經度位置user_post用戶職位location_gps_lat地理緯度位置user_role用戶角色network_type網絡類型WIFI、3G、4G、2Gdevice_brand設備品牌network_operator網絡運營商名中國移動、中國聯通、中國電信、中國網通、中國鐵通、阿里通信、京東通信action_type動作類型login(登陸)、logout(登出)、startup(啟動)、install(安裝),background(切換到后臺)device_type設備機型device_imei設備IMEIaction_result動作結果成功、失敗device_resolution設備分辨率action_erro動作錯誤action_create_time動作時間毫秒時間戳app_nameApp名稱app_key應用鍵值install_way安裝途徑校園局域網、分享二維碼、appstore、應用寶、小米應用市場、華為應用商店extra_data其他參數啟動時候上報上次使用時長(毫秒)app_versionApp版本user_dept_number部門編號user_name用戶名ip_addressip地址
2)移動客戶端用戶行為相關字段。可分為23個字段,詳見表3。
3)配置Flume。Flume是一個分布式、可靠和高可用的海量日志采集、聚合和傳輸的系統,支持在日志系統中定制各類數據發送方,同時提供對數據的簡單處理,并寫到各種數據接受方(比如文本、hdfs、hbase等)的能力[6]。在本模型設計中,需要在base action topic和user action topic中分別配置sources、sinks和#channels,即被監聽的源目錄、目的目錄和通道目錄的配置,把文件事件持久化到本地硬盤上,然后在hdfs上相關目錄形成以天為分區、小時為單位的的日志文件。至此,數據采集的工作告一段落。
面向個性化信息服務的圖書館移動用戶行為分析模型的數據處理,主要指業務數據倉庫層面的建模。首先根據圖書館需求擬定出符合業務發展的數據模型,然后根據該數據模型的表示方式從MySQL、MongoDB中的業務數據和Elasticsearch中的用戶行為、日志數據中提取數據進行篩選,通過ETL過程編寫Python腳本完成分析功能,由Airflow負責任務處理和存儲,最后將形成的數據存入MySQL中,建立能應用于深度分析、供數據應用層使用的多維數據模型。作為集中存儲數據的中間平臺,數據倉庫的建設重點在于數據建模與ETL過程,并不生產和消費數據。數據倉庫建設方案如圖3所示。

表3 移動用戶客戶端用戶行為采集字段

圖3 數據倉庫建設方案
面向個性化信息服務的圖書館移動用戶行為分析模型采用維度建模法。維度建模法是Kimball最先提出的概念,將數據抽象為事實表與維度表兩種,而根據二者之間的關系將整體的模型劃分為星型模型與雪花模型兩種[7]。用維度建模法來建模的優勢在于可以按照不同維度預處理數據,提高數據分析時的效率。比如根據時間維度預處理統計與分類。
結合圖書館具體業務,本系統引入6個維度:時間維度、用戶維度、部門維度、資源維度、行為維度、入口渠道;數據指標上,主要有點擊總人數、點擊次數、注冊人數、拒絕人數,每個指標分別有增量值和總量值兩種;數據粒度上,時間維度細分到以小時為單位,部門維度細分到讀者專業。圖4為相應的星型模型。
從圖4可以看出,圖書館移動用戶行為分析模型只建立了tb_dim_time時間維度、tb_dim_user用戶維度、tb_dim_resources資源維度、tb_dim_action行為維度四張維度表,部門維度和入口維度以字符串的形式放到tb_fact_lib_usage事實表中,這是為了避免重復查詢,提高分析效率。在用戶維度、資源維度、行為維度3張表中設立與圖書館業務數據庫中相應數據id鏈接的prod_xxxx_id字段,方便與業務數據庫中的信息進行同步。當業務數據庫中的相關信息發生變化時,通過ET更新數據倉庫信息[8]。ETL過程則采用編寫Python腳本、引入增量更新機制與Airflow任務流管理來實現。
圖書館對移動用戶行為進行建模和分析,最終是為了引導讀者能夠更好的利用圖書館中的各種資源,開展學習和研究活動,充分發揮圖書館中館藏資源的價值。因此在研究和設計移動用戶行為分析模型和應用技術之后,結合圖書館對用戶行為分析的結果,設計有針對性的讀者引導模型和機制,可以使圖書館能夠主動的為移動用戶群體提供高質量的信息和知識服務。
在設計用戶行為引導機制時需要考慮的不僅僅是用戶操作界面設計的信息構建問題[9],還需要將之前分析的用戶行為特征進行逆向預測。根據用戶已有的用戶行為序列分析出用戶行為特征,然后再以此特征為依據預測出用戶下一步可能感興趣的行為序列[10]。由用戶行為特征預測用戶行為序列是對用戶行為分析模型的數據應用。預測到的用戶行為序列可以為用戶的下一步行為引導做鋪墊。最后對用戶潛在的行為動作序列進行優化設計,提高每個操作步驟對用戶的吸引力。

圖4 圖書館移動用戶行為分析模型
用戶行為引導可分用戶行為序列預測與用戶興趣引導兩步實現。首先,通過分析用戶行為,抽象描述用戶的行為特征,對抽象的用戶行為特征反向表述出用戶行為的基本步驟,將用戶行為的表示形式與用戶行為特征建立對應關系,然后在進行用戶興趣引導時對每個步驟的用戶行為進行專門設計,開發出友好的界面和操作流程吸引用戶眼球,使用戶有興趣沿著預先設計的行為步驟逐步操作下去,將圖書館移動用戶行為分析模型的數據應用朝圖書館希望的方向發展。
建立面向個性化信息服務的圖書館移動用戶行為分析模型,能夠讓圖書館更好的發現移動用戶行為的特征以及需求[11],為圖書館給這些讀者提供更高質量的知識和信息服務奠定基礎,也將進一步調動讀者訪問圖書館的興趣和積極性,讓圖書館能夠在有限的時間和空間上抓住讀者的需求,將讀者吸引到圖書館中開展更深入的學習和研究。
[1]陳鶴陽.國內外移動圖書館用戶行為研究綜述[J].圖書情報工作,2016,60(22):135-144.
[2]宋文杰,朱學芳.基于TAM模型的移動圖書館用戶行為意愿研究[J].圖書館學研究,2015,(11):71-77,60.
[3]明均仁,張俊,楊艷妮,等.基于UTAUT的移動圖書館用戶行為模型及實證研究[J].圖書館論壇,2016,(11):1-9.
[4]吳丹,金鑫,王林琳.移動圖書館與非移動圖書館用戶后續點擊行為比較分析[J].圖書情報工作,2016,60(18):27-34.
[5]梁欣.圖書館移動服務模式優化研究——基于用戶信息行為的視角[J].現代情報,2012,32(9):75-79.
[6]楊海鋒.用戶移動搜索行為研究綜述[J].情報理論與實踐,2017,40(4):138-144.
[7]陳亞睿,田立勤,楊揚.云計算環境下動態用戶行為認證的機制、模型與分析[J].系統仿真學報,2011,23(11):2302-2307.
[8]黃傳慧,萬力勇.高校學術用戶移動學習信息查詢行為影響因素分析[J].現代情報,2017,37(3):52-56.
[9]湯妙吉.信息構建研究進展[J].情報資料工作,2015,(1):58-64.
[10]劉錦宏,余思慧,徐麗芳.移動數字圖書館用戶行為模型構建研究[J].大學圖書館學報,2015,(5):93-98.
[11]湯妙吉.圖書館智能化專業學科服務平臺建設[J].現代情報,2016,36(6):100-102,107.
DesigningtheAnalysisModelofLibraryMobileUserBehaviortoFacilitatePersonalizedInformationService
Tang Miaoji
(Library,Guangzhou Nanyang College,Guangzhou 510925,China)
The current research status on library mobile user behavior at home and abroad was summarized in this paper to provide a reference for designing the analysis model of library mobile user behavior to facilitate personalized information service.With theoretical research and model analysis combined,the relationship between the action sequence of user behavior and the characteristics of user behavior was studied in three aspects,i.e.,data collection,data processing and data application.Front-end operation behavior and back-end business database were combined to define and denote library mobile users’ invisible feedback of product UI on iOS App,Android App and Web.Three types of data,namely,the basic information field of mobile user client,fields related to user behavior and Flume were collected,and six dimensions including time,user,department,resource,behavior and entrance channel were introduced to set a DW-based model to finally realize data application by two steps—user behavior sequence prediction and user interest guiding.
mobile library;user behavior;personalise;information service;model design
10.3969/j.issn.1008-0821.2018.01.017
G250.7
A
1008-0821(2018)01-0121-06
2017-06-26
2016年廣州市科技創新委員會軟科學項目“從化高校-企業-農村地方區域信息服務”(項目編號201609010073);2016年廣州市科協項目“‘云’閱讀與移動圖書館技術的宣傳及推廣”(項目編號K20160603)。
湯妙吉(1980-),女,館長,副研究館員,研究方向:校地信息資源共享、移動圖書館。
孫國雷)