劉穎



摘? 要: 針對在數字圖書館用戶畫像模型建構工作中用戶數據分類效果較差的問題,提出基于大數據的數字圖書館用戶畫像模型建構策略。通過運用大數據網絡與圖書館系統全面性獲取用戶操作信息;利用關鍵詞抽取技術完成信息抽取,并采用分類技術實現用戶分類,以此提升模型構建信息抽取分類能力;依據用戶畫像模型格式,設定用戶畫像標簽體系,完成模型構建工作。通過與采用策略前構建方法的對比實驗結果可以看出,采用所提策略后得到的用戶人群區分人數與樣本人數相同,而采用此策略前結果與樣本人數相差較大。由此可以得出,此策略可有效解決用戶數據分類效果較差的問題。
關鍵詞: 圖書館用戶畫像模型; 大數據技術; 用戶畫像標簽體系; 關鍵詞抽取; 數字圖書館; 圖像分析
中圖分類號: TN911.73?34; G250.76? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)09?0055?03
A construction strategy for library users′ portrait model based on big data technology
LIU Ying
(Changchun Normal University, Changchun 130032, China)
Abstract: For the poor classification effect of user data in the construction of digital library user portrait model, a big data based construction strategy of digital library user portrait model is proposed. The operation information of the library users is comprehensively obtained by means of big data network and library system. The keyword extraction technology is used to complete information extraction and the classification technology is used to achieve user classification, so as to improve the competence of information extraction and classification in the model construction. The user portrait label system is set up according to the format of user portrait model to complete the model construction. A contrast experiment was performed to compare the effect of the construction method before using the proposed strategy with that after using the proposed strategy. The experimental results show that the number of user group classification obtained after using the proposed strategy is the same as the number of samples, while that obtained before using the proposed strategy is quite different from the number of samples. Therefore, it is concluded that the proposed strategy can effectively deal with the poor classification effect of user data.
Keywords: library user portrait model; big data technology; user portrait label system; keyword extraction; digital library; image analysis
0? 引? 言
隨著信息技術的進步,數字圖書館應運而生。這是一種利用數字技術完成文獻處理與存儲的電子圖書館。實質來講,數字圖書館是一種利用多媒體制作的分布式信息系統[1]。通過將不同載體、不同地址位置的信息資源利用數字技術存儲,完成跨越區域、面向大眾的網絡查詢與傳播。在數字圖書館的應用中,對用戶畫像的研究與構建是其日后發展的基礎[2?3]。用戶畫像是理解目標用戶、具象化用戶形象、明確服務目標的重要表達形式之一。用戶需求是數字圖書館的基礎,數字圖書館構建用戶畫像需獲取用戶的體征數據,精準了解用戶的需求,以可視化的方式顯示用戶的喜好,從而實現數字圖書館用戶服務提供方式由粗放走向精細的目標。就目前數字圖書館用戶畫像模型構建中存在分類效果較差的問題,本文提出用戶畫像模型構建策略。
在此次提出的策略中,采用大數據技術完成用戶畫像模型構建改進。大數據技術對于用戶畫像模型中的數據處理具有重要作用,綜合運用定性與定量方式實現模型的精準構建,以此保證數字圖書館服務內容精準化、服務定位精準化、服務功能用戶化、服務系統智慧化。
1? 基于大數據的數字圖書館用戶畫像模型建構策略設計
針對原有用戶畫像模型構建過程中發現的問題,提出相應的用戶畫像模型構建策略。為提升用戶畫像模型構建結果的分類效果,從用戶信息獲取、信息分析方法以及信息過濾處理方法方面提出對策,以此完成模型構建的優化提升工作。將此次設計的策略分成幾個方面,具象化顯示其內容,采用圖像體現,具體內容如圖1所示。
在策略提出的過程中,對用戶信息的處理為策略的核心部分。采用大數據技術增強對用戶信息的整合處理能力,用戶信息是用戶畫像模型構建的基礎,通過上述部分提升模型構建的分類效果,為數字圖書館服務。
1.1? 全面性獲取用戶操作信息
使用數字圖書館的用戶都有自己特定的背景知識與個人愛好。構建用戶畫像可以幫助數字圖書館將用戶喜愛設定為計算機可以理解的形式[4],實現信息化處理。在獲取用戶操作信息時,需要對用戶的信息展開全面的采集。為保證采集結果的可靠性與全面性,設定采集內容如表1所示。
采用上述設定完成對用戶操作信息的獲取。將獲取到的信息采用統一數據項名稱存儲至數據庫內,以便于數據信息的抽取。基于用戶數據信息過于龐大,在信息獲取的過程中,應用大數據網絡完成信息的部分采集工作,其余部分通過數字圖書館自身的信息記錄完成。采用此方法可保證數據來源的多樣性,為模型構建提供充分的數據來源[5?6]。
1.2? 引用大數據技術實現信息精準分類
應用采集到的信息數據完成信息抽取工作。采取關鍵詞抽取技術結合文本挖掘技術的形式,從數據樣本內容中挖掘用戶的個人信息,并采用關鍵詞的形式體現。在文本挖掘的過程中,直接獲取到的數據不能直接作為模型構建的源數據。一方面,獲取到的數據中存在較多的重復數據;另一方面,數據易出現不完整的情況,造成模型組成缺失的問題[7?9]。因而,將獲取的數據應用大數據技術中的分布式處理技術,得到處理結果,使其可以更好地適用于分類算法。數據信息的抽取流程如圖2所示。
采用上述流程完成數據抽取過程。在數據抽取中引入更新機制,將抽取后的本體數據與用戶興趣不斷地匹配與修正,最終獲得數據抽取結果。基于抽取處理結果,使用大數據技術中的分類算法完成用戶畫像模型的數據分類。設定完成預處理以及抽取后的用戶數據樣本集合為[W={w1,w2,…,wn}],[wn∈Rn],其中,[R]為自然數,[n=1,2,…,n]。綜上可知,[W]的類別劃分為[{A1,A2,…,Am}],[m∈n]。則有:
[Ai≠?,? ? i=1,2,…,m] (1)
[A1?A2?…?Am=W] (2)
[Ai?Aj=?,? ? i,j=1,2,…,m且i≠j] (3)
式中[i,j]表示分類的序號。通過式(1)完成集合分類,確保集合結果不為空。將式(1)獲取到的集合展開進行交集處理,保證處理后的集合為樣本數據,最后通過式(3)完成信息的分類。通過多次計算保證數據分類的精準度。
1.3? 設定用戶畫像標簽體系
在模型構建的過程中,除對原始數據的采集與處理外,還需建立相應的畫像標簽體系。據研究可知,用戶畫像是真實用戶的虛擬代表,是一種建立在真實數據上的目標用戶模型[10?12]。因而,在構建中將模型體現為一種多元化多因素的畫像,具體格式如圖3所示。
通過上述格式可知,用戶畫像就是一種將用戶信息標簽化的技術,將用戶通過標簽顯示,便于數字圖書館實現對用戶科學管理。標簽體系是模型構建的標準之一,因而設定標簽內容如表2所示。
采用上述標簽,結合分類處理后的基本屬性信息,完成用戶畫像模型的構建。至此,針對模型分類效果較差的問題,基于大數據的數字圖書館用戶畫像模型建構策略提出完畢。
2? 仿真實驗
根據現有數字圖書館用戶畫像模型存在的問題,提出相應的畫像模型構建策略。為保證提出策略的有效性,構建測試環境,完成策略使用效果研究。在測試中,采用與傳統用戶畫像模型對比的方式得出相應的測試結果,完成研究。
2.1? 設定實驗環境
此次實驗的硬件環境為Windows 7操作系統,內存為10 GB。大數據技術以C語言開發工具為基礎,大數據計算使用Python2.7編碼實現。實驗目標設定為某數字圖書館,其中部分用戶為數據源,共包含10 000條用戶行為數據,具體內容如表3所示。
由于用戶畫像具有其自身的特殊性,只能表示用戶的個人畫像與組群畫像。此次實驗僅對用戶的群組畫像展開研究,采用大數據平臺對數據分組處理。將處理后的數據通過本文提出的策略二次加工,得出實驗結果,并對比其分類效果。將實驗樣本中的特征數據通過表格形式顯示[13?14],具體如表4所示。
以信息樣本為實驗指標,設定在此次實驗以來,自北部地區的1999年后出生的男性用戶、來自中部地區1979—1999年的女性用戶以及來自中部地區的1979年前出生的女性用戶為用戶畫像模型的構建目標,并采用本文策略后的用戶畫像分類效果作為實驗對比對象,通過按要求劃分用戶人數與樣本人數差異體現。
2.2? 實驗結果
采用上述設定完成實驗過程,將實驗結果通過數據形式顯示,具體如圖4所示。
通過實驗結果可以看出:在使用本文提出策略前,用戶畫像分類結果與樣本人數相差較大,由此,可以斷定在使用策略前,采用原有用戶分類結果獲得的用戶畫像模型精度較差。采用這種用戶畫像對于數字圖書館而言,是具有較大弊端的,不易于數字圖書館對用戶群體的分析與自身的內部優化。采用本文提出的策略展開模型構建工作,所得到的分類結果與樣本人數一致,不存在誤差,與采用策略前的結果相比,采用策略后的分類結果明顯優于原有結果[15]。由此可知,本文提出的針對原有的用戶畫像模型構建具有顯著的作用,可有效提升用戶畫像模型構建的精度與用戶群體區分效果。
3? 結? 語
本文通過使用大數據技術完成對數字圖書館用戶畫像模型構建工作。通過實驗結果可知,此次研究中提出的策略可有效改善原有模型構建中的問題。此次設計結果有效利用大數據技術,保證數字圖書館中海量的用戶數據得到良好的應用,并以此服務于用戶畫像工作,保證數字圖書館日后的信息化發展。在此次研究中,仍存在一些不足,例如,數據處理方面的設定較為簡單,不能充分體現大數據技術的應用過程等。在日后的研究中,對上述問題仍需改進。
參考文獻
[1] 陳艷,李君亮.大數據技術的詮釋學分析[J].學術探索,2018(7):7?12.
[2] 鄭正廣,馮必成,趙明月.基于大數據技術的騰訊王卡用戶畫像構建研究[J].郵電設計技術,2017(9):52?56.
[3] 王憲朋.基于視頻大數據的用戶畫像構建[J].電視技術,2017,41(6):20?23.
[4] 楊潤佳.大數據驅動下主動防御網絡安全性評估技術[J].計算機測量與控制,2018,26(10):304?308.
[5] 張鈞.基于用戶畫像的圖書館知識發現服務研究[J].圖書與情報,2017(6):60?63.
[6] 劉速.淺議數字圖書館知識發現系統中的用戶畫像:以天津圖書館為例[J].圖書館理論與實踐,2017(6):103?106.
[7] 李恒超,林鴻飛,楊亮,等.一種用于構建用戶畫像的二級融合算法框架[J].計算機科學,2018,45(1):157?161.
[8] 張海濤,崔陽,王丹,等.基于概念格的在線健康社區用戶畫像研究[J].情報學報,2018,37(9):912?922.
[9] 王樂,倪維健,林澤東,等.基于模型堆疊的上網行為日志用戶畫像方法[J].山東科技大學學報(自然科學版),2018,37(5):70?78.
[10] 萬倩,歐陽峰,趙明.知識圖譜在廣電網絡運營大數據分析中的應用[J].廣播與電視技術,2018,45(12):79?86.
[11] 劉丹,張興剛,任淑敏.基于用戶畫像的高校圖書館閱讀療法模式[J].中華醫學圖書情報雜志,2018,27(7):68?71.
[12] 張海旭,胡訪宇,趙家輝.基于話單數據的移動通信用戶畫像研究[J].計算機系統應用,2018,27(11):271?277.
[13] 單曉紅,張曉月,劉曉燕.基于在線評論的用戶畫像研究:以攜程酒店為例[J].情報理論與實踐,2018,41(4):99?104.
[14] 周景.基于商業智能WLAN的用戶畫像分析系統的設計及應用[J].微型電腦應用,2019,35(8):143?145.
[15] 洪芳林,邢文明.基于大數據平臺的圖書館利用有聲閱讀平臺開展用戶服務研究[J].四川圖書館學報,2019(4):33?37.