夏小娜,戚萬學
(曲阜師范大學 a.統計學院,b.信息科學與工程學院,c.中國教育大數據研究院)
在互聯網技術迅速發展、在線資源日趨豐富甚至膨脹的當前社會,圖書館依舊是用戶學習的重要場所,是知識獲取到靈感觸發的驅動力。它可以提供近在眼前、分門別類的書籍陳列模式,給予讀者一種沉浸知識氛圍的“莊重感”和“沉甸力”,也會讓讀者在不由駐足、適時停留和不禁翻閱中給予書中“文字”和自身“認知”的碰撞。互聯網和大數據實現了在線閱讀,這是一種“快餐”方式和“碎片”模式的應用。搜索引擎實現了瞬時反饋,用戶不再需要花費很多時間查閱資料或者獨立思考完成一篇文檔,[1]使得傳統借書和讀書的意識退化,傳統圖書館運營模式受到了挑戰。
圖書館一直作為一種公益的知識傳遞和存儲載體而存在,信息時代的圖書館產生了大量的在線和離線數據,但這些數據并沒有得到充分有效的利用。在對于教育大數據的學習行為分析論證中,很少將借閱行為納入數據分析范疇;[2,3]許多數據挖掘算法局限在商業數據,[4-6]對于教育類數據、讀者學習興趣和認知偏好不能做到直接關聯和轉化。如何讓圖書館產生更多有益的數據,為教育大數據的學習行為研究提供新的支持依據?能否通過概率反饋機制調優圖書借閱應用服務,并做出新的決策和新的業務調整?本文以某高校某一屆學生三個學年的圖書借閱數據為樣本,分析其閱讀行為,研究讀者可能的學習行為和興趣偏好,[7,8]構建借閱流程改進方案,對后續不同分類下的圖書推薦、圖書興趣引導等提供有效的建議。
閱讀行為涉及三個要素:讀者、讀本與作者,這三者之間通過需求或知識產生聯系。閱讀的目的、方式、習慣和傾向等會因人不同、因時有別,但閱讀的過程和目標存在共性,即讀者通過知識探索、發現、思考及關聯等,將信息逐步內化為自我認知。借閱行為留下的數據使研究讀者的學習行為有據可依。彭博通過分析讀者借閱行為,提出了一種可視化方法,有助于圖書館提供面向用戶的個性化服務分析;[9]嚴貝妮等基于十所高校圖書館的借閱數據分析讀者的閱讀行為,針對高校圖書館閱讀推廣工作提出建議;[10]艾金勇利用讀者借閱數據挖掘讀者借閱行為的關聯規則。[11]
隨著移動互聯技術的發展和普及,自助借閱和在線閱讀逐漸成為圖書館重要的業務推廣形式,以手機、平板電腦及Kindle為載體的電子書受到讀者的青睞,各種移動App收集了大量的在線數據,成為圖書館借閱行為分析的重要補充。張亞明等結合計劃行為理論與移動閱讀模式的經濟成本因素,設計了移動閱讀的用戶采納行為假設模型;[12]李琳琳從大學生移動閱讀需求角度分析了高校圖書館服務向跨界整合、用戶極致體驗轉型的策略和條件;[13]張瀘月從社交網絡角度研究移動閱讀推廣活動中讀者的交互行為。[14]
筆者調查了某高校圖書館2013-2017年的圖書借閱數據(見表1),可以看出,該館的讀者借閱次數逐年減少。表2是該館2013-2017年的圖書采編典藏情況,2013-2015年的圖書訂購冊數較多,2016-2017兩年較少;2013-2016年的館藏數量基本穩定,2017年最少。以上數據說明該校圖書借閱次數與圖書訂購次數之間沒有直接關聯。

表1 2013-2017年圖書借閱情況

表2 2013-2017年圖書館采編典藏情況
互聯網技術革新了傳統的生活學習方式,但改變不了學習行為的初衷和目的。它帶來了碎片化的在線閱讀和即刻搜索,但并不能帶給一個人完整的知識體系和自我求知探索圖譜,這一切需要讀者學習行為的良性引導和逐漸積淀,需要讀者在不斷的探索和求索中獲得,這是技術解決不了的。互聯網可以改進圖書管理的模式和技術實現,但替代不了圖書館的底蘊和價值,但是互聯網技術支撐下的圖書管理變革勢在必行。
本部分隨機抽取了某高校2014級890名學術碩士(學制三年)和420名專業碩士(學制二至三年)為研究對象,對其2014-2017年借閱情況進行了統計(見圖1、圖2)。圖中的折線存在相似之處,學術型碩士和專業型碩士在2014年的第四季度借閱量最高,原因是新生入學后,圖書館也增加了一批新的讀者。之后,借閱數據處于波動狀態,在非畢業季借閱基本平衡,在畢業季借閱次數最少。
圖3是某高校2014級學術型碩士的圖書借閱種類分布情況。學術型碩士借閱工業技術領域的圖書次數最多,占比24.32%,且主要集中在自動化技術類、計算技術類(見圖4)。這主要因為學術型碩士偏向于科學研究,需要理論深度的創新和技術廣度的借鑒,而計算機科學與技術的學習是實現學科創新和研究創意的“基礎科學”。

圖1 2014級學術型碩士年度借閱次數

圖2 2014級專業型碩士年度借閱次數

圖3 2014級學術型碩士分類書籍借閱情況
圖5 是某高校2014級專業型碩士的圖書借閱種類分布情況,專業型碩士借閱藝術類圖書次數最多,占比38.83%,其次是工業技術類,占比12.37%,而交通運輸借閱次數為零,是因該校沒有此類專業。藝術類包括十個子類(見圖6),其中電影電視藝術、繪畫、音樂的借閱次數都比較大。

圖4 2014級學術型碩士T分類借閱分布

圖5 2014級專業型碩士分類書籍借閱情況

圖6 2014級專業型碩士J分類借閱分布
本部分以某高校2014級4,547名本科生的借閱數據為研究對象。本科學制一般為四年,故時間統計區間為2014-2018年,共產生了104,686次借閱行為(見圖7)。可以看出,四個年度的借閱走向波動明顯,高峰出現在大學一年級第二學期,大學二年級相對持平,大學三年級和四年級呈現下降趨勢。圖8為本科生借閱書籍的類型和次數,文學類書籍是大學生最喜歡借閱的書籍,共發生44,790次借閱行為,占借閱總次數的42.79%;其次是語言文字、工業技術方面。

圖7 2014級本科生年度借閱數據

圖8 2014級本科生分類圖書借閱情況
圖9 為借閱次數超過50次的文學類書籍,借閱次數位列前3名的文學書籍為“大秦帝國”(100次)、“紅樓夢”(83次)和“許三觀賣血記”(70次)。可以看出,中外經典文學、名著依舊是最受本科生歡迎的書籍。圖10是借閱量在四年內僅為一次的文學書籍的分布情況,其中中國文學占比最大(70%)。

圖9 2014級本科生借閱次數超過50次的文學書

圖10 2014級本科生借閱1次文學書的比重分布
(1)圖書管理模式。圖書館應根據學科專業需求或典藏要求,使圖書訂購有據可依,并指定專門部門完成。① 圖書館每月把各個出版社的新書書目分發給相關院系負責人,征求相關人員的意見;② 高校師生自愿填寫書目推薦單,圖書館定期收回;③ 從學生和教師中隨機選取樣本,由樣本推薦書目;④圖書館借助新書推薦系統進行線上推薦。這些方式可以滿足局部的借閱需求,但是忽略了借閱數據在圖書訂購中的引導和驅動作用。讀者在借閱書籍的過程中,會產生大量的用戶借閱數據,包括讀者的基本信息、讀者借閱書目偏好、同一專業內不同讀者在專業書籍借閱中的傾向等。圖書館可以使用這些數據實現偏好推薦和啟發式跟蹤,這比傳統離線方式的調查更具針對性和有效性。
(2)借閱業務流程。借閱流程分為“快”與“慢”兩個節奏。“快”的節奏體現為讀者目標性極強的情況,如讀者帶著書名和作者的意圖走進書庫,“慢”的過程有目的但并非是目標,讀者更希望用“慢”節奏去發現與“目的”相關的多個知識關聯體系。借閱過程是知識的探索、拼湊、關聯和整合的過程,這需要在進行書籍分類的基礎上,適當考慮知識的關聯性和近似性,更方便讀者借閱。高校圖書館除了給讀者提供“借”的環境,還需要給予“閱”的條件。如一些高校把自習區與閱覽室整合為一體,在書架周圍放置桌椅。此外,還可以提供在線書籍檢索、在線知識關聯和啟發式目標推薦等服務。
(3)學習行為。筆者針對學術型碩士和專業型碩士的借閱數據進行統計分析,檢驗這兩類研究生的借閱行為是否因培養方式、教學方式、科研要求的不同而存在差異。采取雙樣本異方差假設檢驗方法,設定H0:不存在差異,H1:存在顯著差異,檢測發現P值>0.05(見表3),說明這兩類碩士研究生的借閱行為不存在統計學差異,這與兩類碩士研究生不同的培養目標是不相符的。表4為本科生書籍借閱的離散程度,結果顯示方差很大,說明本科生的對分類圖書借閱不具趨向性,也不具備引導效用。從2014級本科生104,686次的借閱記錄中并不能夠將學生的閱讀行為和專業需求做到關聯,對于分析不同階段的學習行為需求與借閱書籍的關系難度較大,原因是現有的圖書管理平臺缺乏有效的用戶畫像,也缺乏相對準確完備的圖書特征描述。這種情況在碩士研究生的借閱行為中也存在,沒有做到學習行為、培養周期與圖書借閱需求的映射。

表3 碩士研究生分類書籍借閱差異性檢驗

表4 本科生分類書籍借閱離散度檢驗
(4)數據反饋。① 圖書管理系統。圖書管理系統能夠提供圖書、讀者和借閱數據,對這些數據進行統計分析,可以挖掘讀者的借閱行為特征。通常意義上,圖書管理系統是學校教育在線體系的一部分,它與整個學校教育所涉及的其他數據管理系統存在密切聯系。② 現階段圖書借閱在服務于學科交叉方面存在不足。如教育大數據,讀者會意識到教育和大數據兩個議題,但是它其中關鍵的問題是數理統計和概率預測,只有合適的模型,才可以得到有效的結論以供參考。反饋到圖書管理系統上,在與此研究方向相關的圖書興趣學習和啟發式引導上,需要建立不同學科、方向、理論、技術和實驗手段等關聯的知識網絡關聯體系。③ 學生在不同學年學習的課程不同,學生的學習水平、興趣偏好不同,學習方法也千差萬別,需要考慮相同專業讀者間的鄰近偏好啟發和學習。過濾篩選學生的學習行為和社交行為,并引入到圖書推薦中,是現有圖書管理系統所欠缺的。
(1)用戶的“實體-關系”模型。圖書管理是為用戶服務的,用戶需求應驅動圖書業務需求,即“你需要什么,我就有什么”。圖書館應針對借閱過程的互動行為建立完備的用戶“實體-關系”模型,借助用戶的行為特征、在線痕跡、社交行為等,為用戶興趣和趨向提供數據分析和數據挖掘。在用戶的屬性特征方面納入專業和方向,對學年和學期進行有序的階段劃分,讀者的興趣偏好不再作為讀者的屬性,而是作為與用戶有關的實體存在。圖書館的新用戶注冊后,可以在第一時間標注自己的興趣偏好。隨著時間的推移,利用集成系統對用戶進行興趣偏好的分析和挖掘。圖11是讀者的“實體-關系”模型,右半部分是讀者關系的改進,包括新屬性和新參與實體的設計。區別于以往的圖書館集成系統,這里將借閱行為、專業交叉網絡、學習行為和社交行為作為參與實體。

圖11 讀者的“實體-關系”模型
(2)學習行為、社交行為與借閱行為的融合。圖書館的用戶行為一般分為學習行為和社交行為兩種。這兩類行為分布在不同的在線系統中,這些系統在用戶登錄成功之后可以提供服務。系統會保留著在線用戶的行為數據,這些數據的分析結果可以闡述用戶的興趣傾向或需求目標。將圖書館集成系統與其他用戶服務平臺對接,實現以用戶為核心的動態數據流通,可以為了解讀者獲取知識的習慣、興趣愛好和推薦書籍提供有針對性的依據。如基于用戶的在線選課情況的知識推薦、成績驅動下的圖書推薦等。
(3)興趣趨向的借閱行為學習機制。如同電子商務中的物品推薦,圖書推薦也是一個數據支持和算法驅動的服務。在實施中,根據用戶偏好和用戶不同階段的培養方案和專業目標,預測用戶的需求,并考慮用戶所屬專業的特點,在不同階段推薦相應的參考書目;通過接口訪問其他管理系統,獲取用戶的社交行為數據,挖掘用戶社交行為中可能的興趣趨向。通過合適的推薦算法驅動為每一位線上的用戶提供個性化的預期借閱定制表單,當新的借閱行為發生,都會影響推薦算法的學習結果,適時調整可借閱的表單目錄。倘若是一個新的用戶較少次使用圖書管理系統,則以他所屬的專業或學期開設課程為依據提供圖書推薦條件,以有效避免系統的“冷啟動”問題。[15]
(4)專業關聯和學科交叉網絡在線繪制和借閱驅動。新技術新理論的發展使得學科的發展不是孤立的,[16]兩個或者多個學科間的關聯延伸出許多交叉課題,許多新問題和新需求的出現促使了多重理論和技術的融合應用。如當一個專業的用戶在線訪問圖書館集成系統時,在進入專業學習之前,可以了解本職專業的前驅知識和后衍課程,以及與本專業相關的其他專業的知識;在進入專業學習狀態之后,也就慢慢地進入了自我發現問題和自我尋找答案的過程,查閱參考資料是其中重要的學習行為。[17]
在借閱業務建模中,在分級實現專業關聯建模、方向關聯建模和學科交叉網絡建模的過程中,需實現這幾個交叉方面的有向關聯拓撲關系,每個專業下面會關聯相關的基礎課程和基本技能需求,課程和技能的要求會把相應的書籍納入閱讀表單,為用戶提供推薦書目。圖書負責人從圖書分類角度將不同專業的圖書進行關聯,用戶在系統上可以根據自己的研究方向、興趣愛好定制自己需要的關聯體系,使得借閱過程的圖書推薦更具針對性和個性化。
(5)概率預測驅動的在線啟發式圖書推薦。通過歷史數據、歷史行為和階段目標的學習和預測,實現備選項推薦等級的自動RANKING和TOP序列,為用戶提供可參考的候選資源,對于圖書推廣和學習支持都具有重要價值。如,大量零借閱、一人次借閱和少人次借閱的書籍的價值僅通過一個讀者或者閑置書架無法有效體現,即出現了“冷”借閱現象,這與書籍的推廣度和認識度有直接關聯。
(6)圖書分類和館藏定位。圖書分類遵循規范和標準,有章可循,可根據此規范通過算法自動實現分類。基于分類,設計圖書的書架定位算法,實現分類書籍在相應書架上的定位。該算法通過對圖書編碼特征的考察,能較為準確地完成映射位置的選擇和歸檔。圖書館管理人員可以隨時掌握每一本圖書位置及典藏量。當書籍位置及存放地點變更時,可以做到批量變更,定義“圖書-關系”模型,將圖書所在的書庫、書架、是否具備學科交叉性等作為每一本書的屬性特征。通過該定位算法獲取圖書編碼,確保與專業的映射關聯,通過學科交叉性的標注,實現與專業關聯和學科交叉網絡的對應,圖12是自助定位算法設計需要的圖書實體-關系圖。同樣地,圖書也與興趣偏好、社交行為、學習行為和專業交叉網絡的實體存在關系,可將專業碼、書架和書庫設置為圖書的屬性特征。圖書自助分類和館藏定位,可以減少圖書管理人員的勞動力。通過在書庫適當位置設置自助借閱機,實現圖書的自助檢索和借還。

圖12 圖書的實體-關系圖
(7)借閱大數據分析反饋。啟發式借閱業務流程會產生大量的與借閱相關的數據。基于不同的目標,運用合適的數據挖掘技術,可以得到不同的數據分析結果,方便不同的系統角色參考。[18]隨著業務的開展,通過平臺數據的有效分析,可為師生提供有意義的反饋,從而適當調整教育教學策略,為良性引導用戶的借閱行為和學習行為提供幫助,為圖書管理提供有效決策。通過啟發式算法的自主分析,可以實現借閱環境的動態性調整和適應性變更,以此提供更人性化的借閱服務。
運用軟件工程結構化數據流的分層設計思想描述啟發式借閱流程,通過頂層設計表示啟發式借閱平臺的模型化架構。圖13是該平臺的頂層數據流圖,表示了平臺相關的實體,以及實體與實體、實體與平臺的數據傳遞關系。其中,矩形表示實體,有向線表示數據流向,線上的內容為系統與實體、實體與實體間傳遞的數據。將興趣偏好、社交行為、學習行為及專業關聯交叉分析部分分別定義為獨立的系統構件,可以實現借閱業務過程的“高內聚低耦合”系統構件特性。通過向借閱系統提供相關數據,運用啟發式挖掘和分析算法得到反饋結果,驅動借閱過程。

圖13 啟發式圖書借閱系統頂層數據流模型

圖14 啟發式圖書借閱系統零層數據流圖功能模型
基于頂層數據流模型,遵循數據守恒的原則,對圖13的“啟發式圖書借閱系統”進行分層設計,實現系統主干業務的零層數據流(見圖14)。藍色背景的圓角矩形表示圖書管理員權限范圍內的業務,棕色背景的圓角矩形表示算法驅動的業務層,該層對于系統用戶是不可見的,社交行為、學習行為、專業關聯交叉邏輯等數據由圖13的幾個子系統生成;灰色背景的圓角矩形表示提供給注冊用戶的業務功能。有向線上是傳遞的數據,圖中的整體輸入和輸出數據與圖13保持一致,經過功能點時,也將產生一定的內部新數據,并且會有相應的數據轉化。通過算法驅動圖書的有效推薦和借閱是該架構的創新。