崔興文 肖廳



摘要:為了明確用戶畫像研究熱點和趨勢,文章運用CiteSpace軟件定量化分析知網1496篇用戶畫像文獻。研究結果表明,國內對用戶畫像研究呈現增長態勢,總體經歷了研究萌芽、快速發展和質量提升三個階段,雖然研究機構和作者群體穩定,但尚未形成核心作者群和跨專業領域的合作。研究趨勢方面,大數據、數據挖掘、圖書館、機器學習、人工智能、精準營銷、知識服務、協同過濾等是主要研究熱點;前沿研究聚焦于信息服務、融媒體、數據采集、媒體融合和聚類。
關鍵詞:Cite space,用戶畫像,知識圖譜,聚類
中圖分類號:TD723
文獻標識碼:A
文章編號:1674-9545(2023)03-0052-(07)
DOI:10.19717/j.cnki.jjun.2023.03.011
2008年大數據概念在科技領域中被提出,歷經十幾年的發展,全球進入了大數據時代[1]。政府單位、私營企業、事業單位儲存了大量的數據。如何使用好這些數據成為一個挑戰。在這樣的背景下,用戶畫像技術誕生了。如今,用戶畫像運用在各行各業。電子商務企業根據消費者在網上的行為(搜索、購物、社交、瀏覽記錄)可以實現精準營銷;大學圖書館利用用戶畫像技術,為學生提供精準的信息服務;醫院使用用戶畫像技術,為患者提供個性化醫療照顧。在這些互聯網平臺,用戶的行為、興趣點、關注度、觀點等各種數據形成了用戶畫像。用戶畫像是基于多個數據源獲取和處理的,具有普惠性和可迭代性,可以幫助企業和個人更好地了解和服務于用戶。用戶畫像是一個十分精準的工具,能及時洞察消費者的需求。
美國工程師Alan Cooper最早在1999年提出用戶畫像(persona)[2],他認為Persona側重于探索用戶的動機,是描述目標用戶的用戶原型而非真實存在的用戶。用戶畫像最早應用在電子商務上,網站通過分析用戶的數據,形成用戶標簽,從而把網絡中虛擬的人具體化,以此為用戶提供針對性的服務[3]。國內用戶畫像相對于國外研究較晚。最早國內研究用戶畫像是2014年期刊《信息通信》提出對手機用戶進行畫像,從而向用戶進行有針對性地營銷[4]。隨后幾年學者分別在電子商務領域[5-6]、醫療健康領域[7]、旅游行業[8-9]、圖書館領域[10]和短視頻行業[11]對用戶畫像進行了研究。目前,已有部分學者分析了用戶畫像的知識圖譜。例如,徐芳[12]采用文獻調查的方法,發現國內模型單一且模型構建缺乏評價和反饋機制、應用領域發展不均衡;劉海鷗[13]通過綜述文獻得出我國理論研究與實踐薄弱,給出了用戶畫像對圖書情報學的啟示;趙雅慧[14]分析國內外文獻得出我國理論研究薄弱,整體研究偏向實踐,缺乏多源用戶數據融合、用戶隱私保護、用戶畫像更新及質量評估。已有文獻僅是在研究現狀和大致方向上做了定性的分析總結,研究結論存在一定的局限性,不能有效反應最新研究進展和前沿熱點,也未能對文獻所體現的深層信息進行挖掘和展示,缺乏定量的分析。用戶畫像知識圖譜分析是基于citespace技術和知識圖譜技術,對用戶畫像進行分析的一種新方法。citespace是一種通過對文獻引用關系進行分析的可視化工具,在科學研究、學術領域中得到廣泛應用。知識圖譜是一種用圖形符號表示真實世界中知識單元(實體、概念、事件等)及其屬性、聯系的圖形數據庫。用戶畫像知識圖譜分析作為一種基于多維度數據和多源數據構建的知識圖譜,可以實現對用戶畫像的更為全面的分析,為個人和企業提供更為準確的用戶服務。用戶畫像知識圖譜分析是基于構建好的用戶畫像知識圖譜,對圖譜進行分析和解釋的過程。用戶畫像知識圖譜分析可以幫助個人和企業更好地了解和服務于用戶,提高用戶體驗和用戶滿意度。。
基于此,筆者擬通過覆蓋全知網的用戶畫像文獻數據對用戶畫像知識圖譜分析進行研究。通過分析文獻的基本特征、發文作者、發文機構、高被引文獻來揭示目前國內研究現狀;然后以關鍵詞為主題路徑的知識圖譜,通過關鍵詞聚類、關鍵詞共現分析出國內研究熱點;最后通過關鍵詞突現來探查未來研究方向。文章希望通過數據分析出用戶畫像的研究方向和熱點,同時發現過去研究的不足,以期助推國內用戶畫像的研究和進步。
1研究方法和數據準備
1.1共詞分析
共詞分析是通過對文獻中共同出現的關鍵詞次數分析,來分析出該領域研究熱點。關鍵詞是作者在寫論文時,提取的能代表論文的主題和熱點,因此關鍵詞雖然占篇幅較小,但十分重要。因此選擇關鍵詞共現來分析研究熱點較為合適。
1.2引文分析
引文分析是通過統計學的方法對引用與被引用文獻進行數量特征和內在規律的文獻計量方法。一般地,一篇文獻被引次數多就被認為在該領域越重要,被關注度就越高。通過分析引用較高的文獻可以快速把握當前這個領域內的主流研究方向和熱點。
1.3知識圖譜法
知識圖譜法就是將學科發展進程、演變機理及其內在邏輯關系可視化。它以科學知識為計量研究對象,運用計算機、統計學、數學等多個領域知識,將科學發展規律繪制成二維圖形,即知識圖譜。citespace是目前國際上知識圖譜較為成熟的分析軟件。由陳超美博士和大連理工大學WISE實驗室聯合開發的科學文獻分析軟件。cite space創建了從“知識基礎”到“知識前沿”的理論,特別適合研究某個主題的演進歷程。通過分析研究作者機構來分析國內研究情況,其次對關鍵詞時區視圖、關鍵詞共現來分析國內研究的熱點,最后后通過關鍵詞突現來探究未來研究的方向。
1.4數據來源
作者在中國知網上檢索主題詞為用戶畫像,選擇范圍為全部文獻,得到中文文獻1834篇。在數據采集后,需要對數據進行預處理,包括數據清洗和特征提取等。通過數據清洗,刪除無效數據和冗余數據,確保數據的質量。通過特征提取,將數據轉換為可用于構建知識圖譜的形式。刪除與主題無關、重復、報告文獻,得到1496篇,導出格式為Reworks。詳細情況如表1所示。
2用戶畫像和知識圖譜基本概念
2.1用戶畫像
用戶畫像是指基于用戶行為、興趣點、觀點等數據,對用戶進行描述和歸納的過程。用戶畫像是數據挖掘、機器學習、深度學習等技術領域的學術工作,與個性化推薦、廣告精準投放、內容篩選等眾多領域密切相關。在數字廣告行業,術語“人群定向”通常用來描述這種定制服務。
用戶畫像通常包含以下幾個方面的內容:
(1) 用戶基本信息。該類信息包括用戶的年齡、性別、職業、所在地、語言、文化程度等基本信息。
(2) 用戶行為數據。用戶行為數據包括用戶在平臺上的點擊、評論、分享、觀看視頻等行為。
(3) 用戶興趣點。用戶興趣點是指用戶對某些事物或現象產生的興趣。這些興趣點可以通過用戶在平臺上的交互、觀看、搜索等行為進行挖掘。
(4) 用戶社交數據。用戶社交數據包括用戶在平臺上的好友、關注、粉絲等數據。
2.2知識圖譜
知識圖譜是一個基于分布式圖數據庫的知識庫。它由億萬個名詞、動詞、副詞、形容詞、名詞短語、和邏輯關系等組成。這些語言單元構建起一個多層次、深層次的知識關系網絡,幫助人們更好地理解和組織知識,也為機器學習和自動化推薦等領域提供了很好的基礎支持。
知識圖譜主要由三部分組成:
(1)實體。實體是知識圖譜中的基本元素,可以是任何事物,如人物、組織機構、地點、產品等。每個實體都有一個唯一的標識符,可以用來區分不同的實體。
(2)屬性。屬性是實體的特征,描述不同實體之間的差異。例如,人物的屬性可能包括姓名、性別、年齡、出生地等。
(3)關系。關系是實體之間的連接,描述它們之間的聯系和依賴關系。例如,人物之間的關系可能包括親戚關系、工作關系、朋友關系等。
3數據基本分析
3.1年度發文量分析和預測
發文量的數量反映出該領域被關注的程度。發文數量隨時間變化如圖1。
由圖1可知,有關用戶畫像的研究始于2014年,2014—2021年發文量一直增加。這其中又分為兩個階段。第一階段2014—2016年發文量呈現一個穩定態勢,第二階段2017—2021年開始爆發性增長,增量明顯,增速較快。以2017年為轉折點,用戶畫像研究急劇增多,這在很大程度上與2017年國家實施《大數據產業發展規劃》有關。說明政府政策對用戶畫像的研究有很大的影響。對變量年份和發表的文章進行相關分析,相關系數為0.976顯著相關,說明發表的文章與年份相關性顯著,可以進行擬合分析。使用軟件SPSS進行回歸擬合分析,得出變量之間的數學關系式為y=-26.8+11.6x+5.2x2(y表示篇數x表示時間)根據方程預計未來研究會越來越多。目前,用戶畫像的研究仍然是一個熱點,處于一個由淺入深的階段。
3.2核心作者
對發文作者進行統計,根據普賴斯定律,核心作者計算公式為:
MP為核心作者最少發文數,NPmax為最大發文數[15]。
根據統計結果,最大發文數是16,因此MP約等于3。即發表文章在3及以上可以認為是核心作者。由普萊斯定律可知當核心作者發表論文數超過一半時,可以認為該領域形成了核心作者群。由統計結果計算得核心作者發文量占27.4%。顯然沒有形成核心作者。
3.3作者共現
分析作者合作網絡,可以展示用戶畫像領域內核心作者及其團隊合作情況。從中國知網獲取用戶畫像的數據,導入數據,勾選關鍵詞點擊運行得到如圖2。在圖2中,作者的名字越大表示該作者發的文章越多;作者名字之間的連線表示雙方有合作發文。分析高產作者,由圖二可知劉海鷗(16篇)張亞明(6篇)張海淘(6篇)黃文娜(5篇)等為主要發文作者,是該領域的主力軍。劉海鷗、張亞明、黃文娜、張艷豐、徐海玲等與其他作者連線較多,表明他們與其他作者合作發文情況較多。但從整體來看整個研究團隊多為松散點狀,合作情況不多。作者和作者之間合作發文有利于加深學術交流和發揮各個學科的優勢,因此,國內用戶畫像文獻雖多,但還僅僅處于發展階段。
3.4研究機構分析
運行軟件對研究機構進行分析,勾選機構點擊運行得到如圖3。機構名稱越大表示發文量越多,連線表示機構之間存在合作關系,且線越粗表示合作發文量越多。從發文量來看吉林大學管理學院(30篇)發文量最多,其次是武漢大學信息管理學院(23篇)、南京大學信息管理學院(13篇)、燕山大學經濟管理學院(11篇)、華中師范大學信息管理學院(10篇)。從地理位置上看,研究機構地理范圍覆蓋廣,說明用戶畫像引起了國內各地學者高度關注。從研究機構來看,主要是國內頂尖高校說明用戶畫像熱度較高且存在一定的門檻。
圖3 機構共現圖
3.5高被引文獻
論文的質量往往是通過被引次數來體現的。往往那些被引次數高的文獻在本領域內起著非常重要的作用。讀者可以關注高被引文獻作者和期刊來快速了解用戶畫像。因此分析高被引文獻具有重要意義。通過知網檢索用戶畫像,被引降次排序得到了五篇高被引文獻,提取了作者、題名、期刊名、發表年份、被引頻次和主要的研究成果。
4研究現狀與演進趨勢
4.1研究熱點分析
研究熱點是指最近一段時間,出現數量較多的文獻討論某一科學問題。通過關鍵詞共現可以知道當前學者研究的熱點問題。圖4表示的是關鍵詞隨時間的變化,節點名稱越大表示出現的次數越多,研究的熱度越高。由圖4可知,用戶畫像研究與精準服務、大數據、情感分析密切相關。由表3可知當前研究的熱點有用戶畫像、大數據、精準營銷、圖書館、精準服務、數據挖掘。由關鍵詞共現圖譜,可以將用戶畫像的研究分為萌芽—快速發展—質量提升三個時期。2014—2015年為萌芽時期。2014年國內提出用戶畫像用于在移動用戶中進行精準營銷。這一時期多為介紹國外的概念或者提出用戶畫像在某個領域中應用的設想。2016—2019年為快速發展階段。國內學者應用用戶畫像在各行各業,這一時期學者研究較多的在于如何構建用戶畫像,采用新的算法列如機器學習、人工智能運用到用戶畫像。這一時期國內學者應用研究最多的是圖書館用戶畫像研究。2020—2022年這一時期為質量提升。從以往靜態的用戶畫像提出動態的用戶畫像,將時間因素地理位置考慮進去。這一時期用戶畫像的模型更復雜,數據來源更加廣泛,對用戶畫像更加精準。
在關鍵詞共現分析基礎上,利用Cite Space軟件,對關鍵詞進行聚類分析,得到關鍵詞聚類圖5。由聚類結果得到以用戶畫像、大數據、精準服務、推薦系統、數據挖掘、情感分析、用戶體驗、精準營銷、機器學習、數據采集等10大方面的聚類主題。
4.2研究前沿分析
突現詞是指最近一段時間內突然出現的詞,并且呈現出熱度很高的趨勢。通過分析突現詞我們可以識別出某一領域近期研究的熱點和未來的趨勢。圖6為突現詞譜。由圖6可知共出現六個研究前沿信息服務、服務模式、融媒體、數據采集、媒體融合、聚類。由此推斷國內用戶畫像呈現以下發展態勢。國內當前注重實踐,理論研究較少,未來理論研究將是一個重要方向。當前產業界的實踐應用遠超前于學術界的理論研究。用戶畫像的理論研究需要進一步加深。當前用戶畫像的數據來源單一,雖然有部分學者融合行為內容數據對用戶畫像,但是數據整體上仍然呈現單一。未來數據如何能實現來源多、融合好需要學者進行研究。當前國內學者構建好一個用戶畫像模型,缺乏評價反饋機制,無法判定模型的好壞。
5結論
用戶畫像知識圖譜分析是一種基于citespace和知識圖譜技術的新方法,可以幫助個人和企業更好地了解和服務于用戶,提高用戶體驗和用戶滿意度
通過上述分析得出如下結論:
(1)國內對用戶畫像的研究一直處于增長狀態,且在2017年開始出現爆發性增長。預計未來用戶畫像會繼續成為學者研究的熱點。
(2)國內對用戶畫像的研究主要是國內知名高校,研究機構和作者較為穩定且機構間的合作穩定,但是還沒有形成核心作者群,作者和作者之間發文較少,研究團隊分布多為點狀或星狀說明用戶畫像研究中團隊主體之間合作力度還遠遠不夠,缺少跨領域跨專業的合作。
(3)用戶畫像的研究經歷了萌芽—快速發展—質量提升三個階段。用戶畫像、大數據、精準營銷、圖書館、精準服務、數據挖掘為當前研究熱點。當前國內注重實踐研究,缺乏理論研究,且產業界研究遠超理論界。學者構建用戶畫像缺乏反饋和評價機制,有時直接忽視需求。
(4)信息服務、融媒體、數據采集、媒體融合和聚類是未來的研究方向。數據來源的類型多樣性,多樣性數據的融合好與壞,這是未來能否實現更加精準的用戶畫像的關鍵,也是未來研究的熱點。
(5)國內學者對用戶畫像的研究應用較多的是圖書館用戶畫像,研究對象單一。雖然學者提出的用戶畫像模型很多,但是模型僅僅是提出設想,缺乏應用實踐和反饋。
參考文獻:
[1]徐宗本,馮芷艷,郭迅華,等.大數據驅動的管理與決策前沿課題[J].管理世界,2014,30(11):158.
[2]姚望.基于用戶畫像的新媒體精準營銷研究[J].商場現代化,2022,41(8):54.
[3]張慷.手機用戶畫像在大數據平臺的實現方案[J].信息通信,2014,28(2):266.
[4]劉蓓琳,張琪.基于購買決策過程的電子商務用戶畫像應用研究[J].商業經濟研究,2017,36(24):49.
[5]于寶君,韓磊,周昕.基于在線評論的低幼兒閱讀群體用戶畫像研究[J].情報科學,2021,39(8):112.
[6]滕春娥,何春雨.在線醫療社區用戶畫像構建與應用[J].圖書情報工作,2021,65(12):147.
[7]崔春生,王雪,李文龍.情境環境下基于用戶畫像的旅游產品推薦算法研究[J].數學的實踐與認識,2019,49(20):122.
[8]劉海鷗,孫晶晶,蘇妍嫄,等.基于用戶畫像的旅游情境化推薦服務研究[J].情報理論與實踐,2018,41(10):87.
[9]李曉敏,熊回香,杜瑾,景紫薇.智慧圖書館中基于用戶畫像的圖書推薦研究[J].情報科學,2021,39(7):15.
[10]徐立萍,何丹,陸元文.基于用戶畫像的智能推薦研究——以抖音APP為例[J].傳媒,2022,24(12):53.
[11]徐芳,應潔茹.國內外用戶畫像研究綜述[J].圖書館學研究,2020,31(12):7.
[12]劉海鷗,孫晶晶,蘇妍嫄,等.國內外用戶畫像研究綜述[J].情報理論與實踐,2018,41(11):155.
[13]趙雅慧,劉芳霖,羅琳.大數據背景下的用戶畫像研究綜述:知識體系與研究展望[J].圖書館學研究,2019,30(24):13.
[14]王一. 基于Cite Space的移動圖書館知識圖譜構建研究[D].長春:吉林大學,2016.
[15]張婉麗,盛武.我國綠色煤炭知識圖譜構建與分析[J].華北科技學院學報,2022,19(2):63.
User Portrait Knowledge Graph Analysis Based on Cite Space
CUI Xingwen,XIAO Ting
(School of Economics and Management,Anhui University of Science and Technology,
Huainan,Anhui 232000,China)
ABSTRACT In order to clarify the hot spots and trends of user portrait research, CiteSpace software was used to quantitatively analyze 1496 user portrait literatures on CNKI.The research results showed that the domestic research on user portrait presents an increasing trend, which had experienced three stages: research germination, rapid development and quality improvement.Although research institutions and author groups were stable, core author groups and cross-professional cooperation had not yet been formed.In terms of research trends, big data, data mining, library, machine learning, artificial intelligence, precision marketing, knowledge service and collaborative filtering were the main research hotspots,Cutting-edge research focused on information services, financial media, data collection, media convergence and clustering.
KEY WORDS cite space;user portrait; mapping knowledge domain;data analysis
(責任編輯 寧樊西)