999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA的大學(xué)一卡通學(xué)生行為特征分析研究

2022-05-25 04:48:08馮健文
現(xiàn)代計算機 2022年6期
關(guān)鍵詞:語義特征用戶

馮健文

(韓山師范學(xué)院教務(wù)處,潮州 521041)

0 引言

人工智能時代,通過挖掘信息系統(tǒng)中用戶的行為數(shù)據(jù),發(fā)現(xiàn)其蘊含的社會發(fā)展規(guī)律和趨勢成為可能。在物聯(lián)網(wǎng)技術(shù)應(yīng)用中,用戶行為數(shù)據(jù)為移動對象時空軌跡(spatio-temporal trajectories,STR)數(shù)據(jù),軌跡數(shù)據(jù)挖掘主要包括模式挖掘和語義分類兩種。模式挖掘側(cè)重軌跡路徑,研究成果較多,但不易解釋用戶行為。語義分類則同時關(guān)注路徑和語義,是新興的研究分支,受到廣泛關(guān)注。主要方法有動態(tài)貝葉斯網(wǎng)絡(luò)、隱馬兒可夫模型、條件隨機場、高斯混合模型、主題模型、聚類等。Nascimento等和Sun等提出了改進的隱馬兒可夫模型,處理人類活動認(rèn)知。Santos等提出使用動態(tài)貝葉斯網(wǎng)絡(luò)作為分類器推理。狄利克雷分布模型(latent Dirichlet allocation,LDA)是重要的文檔分析模型,本質(zhì)上是一種貝葉斯網(wǎng)絡(luò),近年開始應(yīng)用于用戶特征提取和語義軌跡分類。起源于文本處理的LDA主題模型具有提取興趣主題的多樣性和簡單性、數(shù)據(jù)降維、異構(gòu)數(shù)據(jù)建模、語義歸納等優(yōu)點。張宏鑫等采用LDA主題模型從手機日志數(shù)據(jù)提取人群特征。Ferrari等應(yīng)用LDA模型從社交位置數(shù)據(jù)提取城市日常活動模式。Chu等采用一種基于LDA主題模型的語義轉(zhuǎn)換方法,以出租車行駛軌跡為文檔,經(jīng)過的街道名字為單詞,映射GPS坐標(biāo)為軌跡數(shù)據(jù),提取出租車行駛軌跡特征。蔡文學(xué)等通過LDA模型分析出租車軌跡得到熱門城市區(qū)域,有效解釋用戶行為。雖然現(xiàn)有的LDA模型軌跡分類應(yīng)用取得了較好效果,但是很少面向RFID軌跡數(shù)據(jù),非業(yè)務(wù)特征軌跡數(shù)據(jù)分析鮮見,因此相關(guān)研究需要更多探索。

本文以大學(xué)一卡通學(xué)生行為特征分析為案例,根據(jù)一卡通RFID應(yīng)用場景和數(shù)據(jù)特征,提出基于LDA的RFID數(shù)據(jù)軌跡框架,通過RFID應(yīng)用標(biāo)簽的表示和分類方法、詞袋模型構(gòu)建、主題模型建立和聚類分析,最終提取學(xué)生群體特征知識,用于指導(dǎo)管理部門改進服務(wù)質(zhì)量。

1 基于LDA的學(xué)生行為特征挖掘框架

本文研究目的是基于一卡通RFID-SIR數(shù)據(jù)提取學(xué)生用戶群體特征知識,發(fā)現(xiàn)數(shù)據(jù)隱含的信息,對一卡通業(yè)務(wù)應(yīng)用服務(wù)改進提供建議。如圖1所示,研究基本流程為:①獲取一卡通RFID-SIR數(shù)據(jù)并生成語義軌跡數(shù)據(jù);②建立語義軌跡與LDA主題模型的關(guān)聯(lián),通過分析一卡通業(yè)務(wù)點特征來定義應(yīng)用類型標(biāo)簽,該標(biāo)簽作為單詞集,接著基于使用次數(shù)或交易金額等語義打分機制建立詞袋模型,語義軌跡作為文檔,利用LDA主題模型學(xué)習(xí)分析得到主題與應(yīng)用類型標(biāo)簽的關(guān)聯(lián);③通過聚類分析得到主題特征用戶群體;④分析結(jié)果并提出業(yè)務(wù)改進建議。

圖1 學(xué)生行為特征挖掘框架

1.1 問題分析

為了挖掘一卡通學(xué)生用戶的行為習(xí)慣,需要把原始軌跡數(shù)據(jù)預(yù)處理,得到語義軌跡作為軌跡特征知識挖掘的數(shù)據(jù)源。原始數(shù)據(jù)來源于多個一卡通RFID業(yè)務(wù)應(yīng)用,存在數(shù)據(jù)格式、語義等差異。經(jīng)過數(shù)據(jù)清洗、整合、壓縮等校準(zhǔn)操作,并根據(jù)業(yè)務(wù)應(yīng)用主題建立數(shù)據(jù)集市。一卡通用戶軌跡大多是單點軌跡,即軌跡中只包含單個業(yè)務(wù)點數(shù)據(jù),不同的軌跡間沒有明顯的關(guān)聯(lián)和約束,即無業(yè)務(wù)流程特征。可采用過程發(fā)現(xiàn)(process discovery)技術(shù)結(jié)合時間閥值參數(shù)法,從數(shù)據(jù)集市中提取用戶的業(yè)務(wù)活動過程軌跡,即得到語義軌跡,其中不僅包含用戶在某個時間段內(nèi)的軌跡,還蘊含了用戶的活動特征。例如,以一天為時間閥值,可得到某學(xué)生語義軌跡:食堂A(7:30)—實驗室B(7:50)—圖書館C(10:00)—食堂B(12:00)—圖書館C(15:00)—熱水D(22:00)。

可以看到軌跡業(yè)務(wù)點是屬于某個業(yè)務(wù)應(yīng)用類型,如食堂屬于“餐飲類”。當(dāng)把全部業(yè)務(wù)點分類到多個集合后,每一個集合可定義為一個主題。顯然每個學(xué)生的活動特征實際上就是多個主題的聚合模型。因此,需要建立語義軌跡與LDA主題模型的關(guān)聯(lián),通過LDA方法得到主題模型的種類,用于學(xué)生用戶群體聚類分析。

1.2 主題模型建立

要建立語義軌跡與LDA模型文本描述之間的映射關(guān)系,就需要通過RFID應(yīng)用領(lǐng)域“語義軌跡-主題-業(yè)務(wù)應(yīng)用類型標(biāo)簽”到LDA“用戶-主題-單詞”三層貝葉斯模型的語義轉(zhuǎn)換,最后通過模型的生成實現(xiàn)軌跡特征知識的提取。定義一個學(xué)生用戶語義軌跡對應(yīng)一篇文檔,用戶軌跡中的業(yè)務(wù)應(yīng)用類型標(biāo)簽對應(yīng)文檔中的單詞,全部學(xué)生用戶就形成語料庫,學(xué)生行為軌跡提取就轉(zhuǎn)為LDA方法從語料庫中提取主題模型。LDA主題模型可以幫助在聚類前對數(shù)據(jù)進行降維操作,把學(xué)生用戶軌跡中幾十個業(yè)務(wù)點提取為學(xué)生與主題的相關(guān)度。

1.2.1 建立應(yīng)用標(biāo)簽的詞袋模型

在一卡通RFID應(yīng)用標(biāo)簽對應(yīng)單詞后,進一步從RFID應(yīng)用業(yè)務(wù)名稱文本集合中提取出詞頻大于某個閥值的業(yè)務(wù)應(yīng)用名稱集合;主題采用主題重要度確定,即軌跡出現(xiàn)次數(shù);將語義軌跡看作文檔,軌跡中涉及多個RFID應(yīng)用主題區(qū)域,好比文檔包含多個主題,這樣將軌跡集合類比文檔集合,對其進行主題推斷,就可以得到多個主題區(qū)域,而這些主題區(qū)域通過應(yīng)用標(biāo)簽來表示,所以反映了語義軌跡的特征知識。因此,使用一卡通應(yīng)用類型分類標(biāo)簽作為單詞,建立每個學(xué)生用戶的詞袋模型,如表1所示。

表1 一卡通學(xué)生用戶應(yīng)用標(biāo)簽詞袋模型

詞袋模型采用了業(yè)務(wù)點重要度來衡量,業(yè)務(wù)點重要度指應(yīng)用標(biāo)簽單詞在某個語義軌跡中出現(xiàn)的次數(shù),次數(shù)越高說明該單詞越能代表該語義軌跡特征。考慮業(yè)務(wù)點太多,采用業(yè)務(wù)點類型與校區(qū)結(jié)合的方式定義應(yīng)用標(biāo)簽類。采用單個業(yè)務(wù)點刷卡次數(shù)與LDA模型的詞頻對應(yīng),通過打分機制提高單詞的文檔代表性。一個業(yè)務(wù)點在所有主題中出現(xiàn)概率為1,設(shè)置一個閥值篩選主題中的業(yè)務(wù)點。

1.2.2 一卡通學(xué)生行為主題特征模型

在一卡通RFID應(yīng)用領(lǐng)域,根據(jù)LDA主題模型,得到公式(1):

每個軌跡與個主題的一個多項分布對應(yīng),每個主題又與個標(biāo)簽的一個多項分布對應(yīng)。因此LDA模型求解如圖2所示,首先要求解與和參數(shù)相關(guān)的狄利克雷先驗分布參數(shù)和,然后推理出和參數(shù),最后使用Gibbs抽樣法求出軌跡在主題上的分布和主題在標(biāo)簽上的分布,就能得到軌跡與標(biāo)簽的分布。

圖2 LDA主題特征模型[5]

經(jīng)多次實驗,選取3個有實際代表意義的主題進行本文分析,分別為自習(xí)類、生活類、實驗類,每個主題下包括多個一卡通應(yīng)用分類標(biāo)簽,如表2所示。每個學(xué)生用戶與每個主題都有相關(guān)度,如某學(xué)生主題相關(guān)度為:自習(xí)=0.7,生活=0.5,實驗=0.1,表明該學(xué)生有良好的自習(xí)學(xué)習(xí)習(xí)慣,可能是文科類專業(yè),使用校內(nèi)生活服務(wù)應(yīng)用頻次一般。

表2 一卡通學(xué)生用戶應(yīng)用主題構(gòu)成

1.3 特征聚類

在得到學(xué)生用戶語義軌跡與主題的相關(guān)度后,每個學(xué)生都可用3個應(yīng)用標(biāo)簽維度向量來表示。采用主流的聚類算法如K-means將具有相近主題特征的用戶軌跡聚集,形成代表性學(xué)生一卡通用戶群體。本文實驗采集2萬名左右學(xué)生用戶一年數(shù)據(jù)、一卡通業(yè)務(wù)點38個,統(tǒng)計每個用戶和3個主題的相關(guān)度,采用K-means算法將學(xué)生聚類為4類主題用戶群體,其中心點如表3所示。

表3 一卡通學(xué)生用戶群體的特征分析

從表3可以看出,學(xué)生群體3用戶數(shù)最多,其行為特征是生活類相比其他主題較多,但總體上使用一卡通業(yè)務(wù)應(yīng)用不突出,也沒有自習(xí)行為。結(jié)合其他群體特征分析,從校內(nèi)生活服務(wù)頻率看,只有學(xué)生群體2的不足2000人,蘊含信息是學(xué)生對校內(nèi)餐飲、小賣部、熱水等生活類服務(wù)滿意度一般,這可能受該大學(xué)周邊外賣和超市、餐館林立的情況影響,說明后勤部門應(yīng)對生活服務(wù)類應(yīng)用進行調(diào)查,加強服務(wù)質(zhì)量。從自習(xí)行為看,只有群體1有自習(xí)習(xí)慣,蘊含信息可能是:一方面有自習(xí)習(xí)慣但沒有列入統(tǒng)計的學(xué)生可能在宿舍或不需要校園卡的場所學(xué)習(xí);另一方面有一部分學(xué)生確實沒有良好的自習(xí)習(xí)慣,學(xué)生管理部門可進行相關(guān)的調(diào)查,在學(xué)風(fēng)建設(shè)上開展有針對性的措施。

2 結(jié)語

本文以大學(xué)一卡通學(xué)生行為特征分析為案例,介紹從日常信息系統(tǒng)用戶原始數(shù)據(jù)中,經(jīng)過數(shù)據(jù)預(yù)處理、語義軌跡提取、行為主題建模,有效獲得一卡通學(xué)生行為群體特征知識,為大學(xué)管理部門加強一卡通應(yīng)用服務(wù)和學(xué)生管理、提升人才培養(yǎng)質(zhì)量提供幫助。研究發(fā)現(xiàn),軌跡數(shù)據(jù)挖掘必須附加語義分析才能增強研究的實際指導(dǎo)作用,其中數(shù)據(jù)預(yù)處理、主題類定義、聚類結(jié)果分析幾個環(huán)節(jié)值得關(guān)注,研究團隊?wèi)?yīng)引進具有業(yè)務(wù)應(yīng)用領(lǐng)域知識的專家,在上述幾個關(guān)鍵環(huán)節(jié)提供應(yīng)用知識。本研究會進一步將結(jié)果進行可視化,并把數(shù)據(jù)范圍擴大至5年以上,探索大數(shù)據(jù)下挖掘算法的效率和實用性。

猜你喜歡
語義特征用戶
語言與語義
如何表達“特征”
不忠誠的四個特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認(rèn)知范疇模糊與語義模糊
如何獲取一億海外用戶
主站蜘蛛池模板: 国产欧美自拍视频| 91在线丝袜| 日本一区二区不卡视频| 99热免费在线| 中文字幕波多野不卡一区| 国产成人盗摄精品| 亚洲精品手机在线| 国产精品亚洲精品爽爽| 亚洲一区二区黄色| 在线观看亚洲精品福利片| 91在线无码精品秘九色APP | 手机精品福利在线观看| AV天堂资源福利在线观看| 国产91精品最新在线播放| 91亚洲视频下载| 新SSS无码手机在线观看| 污污网站在线观看| 欧美国产日韩另类| 国产毛片基地| 国产微拍一区二区三区四区| 亚洲啪啪网| 丝袜国产一区| 欧美日韩国产一级| 国产激爽大片在线播放| 亚洲无线国产观看| 98超碰在线观看| 少妇精品网站| 国产一级视频久久| 一级全免费视频播放| 婷婷99视频精品全部在线观看| 午夜日b视频| 成人av专区精品无码国产| 九色综合伊人久久富二代| 国产精品成人观看视频国产| 欧美在线一二区| 国产精品美人久久久久久AV| 亚洲愉拍一区二区精品| 欧美精品不卡| 中文字幕在线看视频一区二区三区| 成人国产免费| 日本一本在线视频| 无码又爽又刺激的高潮视频| 老司机久久99久久精品播放| 精品欧美日韩国产日漫一区不卡| 欧美精品高清| 亚洲男人在线| 99久久免费精品特色大片| 国产成人在线无码免费视频| 欧美成人亚洲综合精品欧美激情| 国产情侣一区| 亚洲男人天堂网址| 91精品伊人久久大香线蕉| 91精品国产自产91精品资源| 欧美一级夜夜爽www| 日本在线欧美在线| 一级毛片高清| 国产剧情国内精品原创| 日本亚洲最大的色成网站www| 九色免费视频| 国产JIZzJIzz视频全部免费| 国产极品粉嫩小泬免费看| 人妻无码中文字幕第一区| 日韩高清中文字幕| 国产亚洲成AⅤ人片在线观看| 国产精品一区二区无码免费看片| 国内精品伊人久久久久7777人| 香蕉久久永久视频| 夜夜操国产| 日韩国产欧美精品在线| 欧美午夜小视频| 欧美综合中文字幕久久| 少妇露出福利视频| 日韩免费毛片| 在线观看视频99| 久久黄色视频影| 2021国产乱人伦在线播放| 中国一级毛片免费观看| 日韩人妻无码制服丝袜视频| 国产视频入口| 日韩欧美一区在线观看| 国产成人精品高清在线| 青青久久91|