999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于美食互動(dòng)社區(qū)的用戶飲食行為模型研究

2016-02-23 12:12:08越,曹
關(guān)鍵詞:用戶模型研究

李 越,曹 菡

(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710062)

基于美食互動(dòng)社區(qū)的用戶飲食行為模型研究

李 越,曹 菡

(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710062)

隨著大數(shù)據(jù)、“互聯(lián)網(wǎng)+”時(shí)代的到來,互聯(lián)網(wǎng)美食互動(dòng)社區(qū)的用戶原創(chuàng)內(nèi)容呈爆發(fā)式增長,從海量飲食數(shù)據(jù)中發(fā)現(xiàn)自己希望尋找的內(nèi)容越來越不容易,同時(shí)該部分?jǐn)?shù)據(jù)沒有得到廣泛的利用和深度的挖掘;傳統(tǒng)的對于飲食行為的研究多采用問卷調(diào)查等形式,耗費(fèi)了大量人力、物力、財(cái)力。針對以上問題,提出了基于LDA的用戶飲食行為模型:利用LDA模型的思想,分析互聯(lián)網(wǎng)美食互動(dòng)社區(qū)的用戶原創(chuàng)內(nèi)容,根據(jù)困惑度確定主題數(shù),構(gòu)建用戶飲食行為模型,進(jìn)而可以計(jì)算用戶飲食行為相似度,以此為美食社區(qū)用戶進(jìn)行好友和美食推薦提供模型基礎(chǔ),同時(shí)為飲食行為研究提供了一個(gè)新思路。以爬蟲技術(shù)獲取互聯(lián)網(wǎng)美食互動(dòng)社區(qū)上的用戶原創(chuàng)內(nèi)容作為數(shù)據(jù)集,通過實(shí)驗(yàn)驗(yàn)證了這種算法的可行性和有效性。

飲食行為;美食互動(dòng)社區(qū);用戶模型;數(shù)據(jù)挖掘;LDA模型

0 引 言

隨著人民生活水平的不斷提高,吃飽已經(jīng)不能滿足人們對飲食的需求,人們開始追求飲食的美味與健康。隨著互聯(lián)網(wǎng)技術(shù)和新的媒體形式的崛起,美食作為生活化互聯(lián)網(wǎng)的一項(xiàng)服務(wù),逐漸和網(wǎng)絡(luò)社區(qū)結(jié)合成一種互聯(lián)網(wǎng)美食經(jīng)濟(jì)產(chǎn)業(yè)鏈,由此催生的美食互動(dòng)網(wǎng)站的設(shè)計(jì)和運(yùn)營也變得越來越熱門[1]。美食互動(dòng)社區(qū)的快速成長與發(fā)展是互聯(lián)網(wǎng)持續(xù)向社會生活滲透的寫照之一,為人們獲取更多關(guān)于飲食方面的信息提供了支撐,為美食愛好者提供了一個(gè)在線交流平臺。人們通過美食互動(dòng)社區(qū)發(fā)現(xiàn)、分享和交流美食。美食互動(dòng)社區(qū)是典型的用戶原創(chuàng)內(nèi)容(User Generated Content,UGC)社區(qū),其中80%的內(nèi)容來自于用戶。人們在網(wǎng)絡(luò)中發(fā)布菜譜等這些線上行為一定程度上反映了用戶線下的飲食行為習(xí)慣,這部分?jǐn)?shù)據(jù)如果能得到充分的利用和挖掘,對于飲食行為干預(yù)[2]、疾病預(yù)防和控制[3]、食品推薦等問題的解決將起到很大的幫助。

傳統(tǒng)的飲食行為研究方法通常是采用膳食調(diào)查[4]的方法,通過問卷及24小時(shí)食物記錄表[5]的方式進(jìn)行,耗費(fèi)大量的人力物力不說,對于食物攝入量測量、食物成分多樣性等復(fù)雜問題也得不到有效解決;第二類是對研究對象的調(diào)查,需要對研究對象進(jìn)行跟蹤記錄,需要研究對象的主動(dòng)參與。但上述方法均忽略了用戶在互聯(lián)網(wǎng)上留下的信息。

文中對美食社區(qū)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,然后利用LDA模型構(gòu)建用戶飲食行為模型,以此模型為基礎(chǔ)計(jì)算用戶的相似度,為美食社區(qū)用戶推薦和食品推薦提供模型基礎(chǔ)。

1 LDA模型的基本思想

LDA(Latent Dirichlet Allocation)是目前應(yīng)用最廣泛的隱主題模型[6],具有扎實(shí)的概率基礎(chǔ)和可靠的擴(kuò)展性,被廣泛應(yīng)用于文本建模的各個(gè)領(lǐng)域。LDA是一個(gè)三層(文檔-主題-詞)貝葉斯模型,圖1為LDA圖模型表示。將文檔表示成隱主題上的分布,而每個(gè)主題又表示成詞的分布。

圖1 LDA的圖模型表示

其中,LDA模型采用Dirichlet分布作為概率主題模型中多項(xiàng)分布的先驗(yàn)分布。D為整個(gè)文檔集,Nd為文檔d的單詞集,α和β分別為文檔-主題概率分布θ和主題-單詞概率分布Φ的先驗(yàn)知識,Τ為隱主題數(shù)。

2 基于LDA模型的用戶飲食行為模型研究

2.1 基于LDA模型的用戶飲食行為模型

文中借助于LDA模型的思想,構(gòu)建用戶飲食行為模型(Author-Eating Behavior Model)將原本的文檔建模推廣到用戶飲食行為建模之上。假設(shè)數(shù)據(jù)集中的每個(gè)用戶對應(yīng)一個(gè)隱飲食行為的分布,而隱飲食行為則同樣由菜譜屬性詞的分布表示。

使用LDA模型構(gòu)建用戶飲食行為模型時(shí),需要將一個(gè)用戶下的所有菜譜合并成一個(gè)文檔進(jìn)行飲食行為生成,從而得到用戶飲食行為的概率多項(xiàng)分布,即用戶的飲食行為模型。該模型將文檔-主題-詞的三層關(guān)系變成了用戶-飲食行為-詞的關(guān)系。

其中,pzk,v為給定飲食行為z時(shí)生成詞w的概率。

2.2 用戶飲食行為相似性計(jì)算

相似用戶具有相近的飲食行為。計(jì)算用戶間的相似度,可以將其應(yīng)用于美食社區(qū)進(jìn)行用戶和食品的推薦。

KL(Kullback Leibler)散度,俗稱KL距離[7],常用來衡量兩個(gè)概率分布的距離,其計(jì)算公式如下:

(1)

KL散度是不對稱的,即:

DKL(P‖Q)≠DKL(Q‖P)

(2)

可以將其轉(zhuǎn)換為對稱的,如下所示:

D(P,Q)=[DKL(P‖Q)+DKL(Q‖P)]/2

(3)

在基于LDA的用戶飲食行為模型中,如用戶主題矩陣所示,用戶間的相似程度可以由各用戶飲食行為分布之間的KL距離表示,用戶相似度計(jì)算如下所示:

(4)

其中,sij為用戶ui和uj的相似度;Ui和Uj分別是他們的飲食行為概率分布。sij越大,表示兩個(gè)用戶越相似。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)準(zhǔn)備

應(yīng)用爬蟲技術(shù),從某美食互動(dòng)社區(qū)網(wǎng)站上隨機(jī)獲取2014年4月到2015年3月期間6 834篇美食博客數(shù)據(jù),數(shù)據(jù)概要如表1所示。

通過統(tǒng)計(jì)分析發(fā)現(xiàn):

(1)工藝為“炒”的菜譜最多,占總數(shù)的24.5%,其次為“煮”,占16.4%,“拌”占12%。在中國,大部分家庭蔬菜烹飪以炒菜為主[8],數(shù)據(jù)統(tǒng)計(jì)符合中國人的傳統(tǒng)飲食習(xí)慣。

(2)最多食類主料依次為豬肉、雞蛋、面粉、胡蘿卜、土豆、蝦、大米、西紅柿、豆腐、木耳、青椒、洋蔥、牛奶、低筋面粉、香菇。均為日常生活中常見食材,便于獲取,烹飪簡單。

(3)“兩人份”菜譜占49.2%,“三人份”菜譜占25%。與中國家庭結(jié)構(gòu)吻合。

表1 數(shù)據(jù)概要

(4)準(zhǔn)備時(shí)間在“15分鐘”以下的菜譜占78.9%,烹飪時(shí)間在“30分鐘”以下的占菜譜數(shù)的69.3%。說明人們傾向于簡單易烹飪的食物。

(5)口味方面:“家常味”占36.5%,“咸鮮味”占19.9%,“甜味”占15.1%。

以上統(tǒng)計(jì)分析結(jié)果均與實(shí)際相符合,說明了網(wǎng)絡(luò)數(shù)據(jù)的真實(shí)性、實(shí)用性,具有研究價(jià)值。

3.2 困惑度

困惑度[9]是用來評價(jià)主題模型的一個(gè)重要指標(biāo),主題模型用概率分布來描述一個(gè)文本的生成過程,因此理所當(dāng)然地會想到用熵的概念來評判主題模型是否有效。直觀的解釋即為:若詞表中所有的詞都具有統(tǒng)一的概率分布,即每個(gè)詞出現(xiàn)的概率都是一樣的,這種情況下是最難預(yù)測的,而由熵的概念知此時(shí)的熵最大。而概率分布越不均勻,熵值越小。

文中應(yīng)用LDA模型構(gòu)建的用戶飲食行為模型屬于主題模型的一種,故也選用困惑度作為衡量算法的標(biāo)準(zhǔn)。該模型中困惑度的公式如下:

(5)

(6)

(7)

其中,M為測試集D中的用戶數(shù);p(Wd)為用戶d的菜譜詞向量;Nd為該詞向量的長度;K為飲食行為數(shù);p(zn=k|d)為用戶d產(chǎn)生飲食行為z的概率;p(wn|zn=k)為飲食行為z生成詞w的概率;θ為飲食行為的概率分布矩陣(見2.1節(jié));φ為詞的概率分布矩陣(見2.1節(jié))。

LDA模型的求解過程使用基于吉布斯(Gibbs)抽樣的參數(shù)估計(jì)方法[10-11],模型參數(shù)根據(jù)文獻(xiàn)[12-15]選取經(jīng)驗(yàn)值。其中,α=50/K(K為主題數(shù),對應(yīng)文中用戶飲食行為模型中的隱飲食行為數(shù)),β=0.01。根據(jù)困惑度的結(jié)果確定最佳的K值。首先,嘗試設(shè)置K為10,20,…,110時(shí)的情況,如圖2(a)所示。模型的困惑度隨著K的增大而減小,當(dāng)K為40時(shí)困惑度最小,模型的效果最好。隨著K不斷增大,困惑度也隨之增大。因此認(rèn)為K的最優(yōu)值在40附近。為進(jìn)一步確定K的值,以1為間隔,選取K為30~50時(shí)計(jì)算困惑度,如圖2(b)所示。最終確定文中構(gòu)建用戶飲食模型時(shí)的K為47。

圖2 不同主題數(shù)下的困惑度

3.3 用戶相似度

對采集到的數(shù)據(jù)進(jìn)行隨機(jī)篩選,以30個(gè)用戶為例,應(yīng)用飲食行為模型分析用戶間的相似度,設(shè)置飲食行為K=47,得到相似度矩陣。隨機(jī)抽取一位用戶,列出與其相似度最高的十位用戶,如表1所示。可根據(jù)用戶之間的相似關(guān)系提供食品推薦服務(wù)、群體飲食行為研究等。

表2 與用戶1相似度最高的十位用戶

4 結(jié)束語

針對美食互動(dòng)社區(qū)中的UCG數(shù)據(jù),結(jié)合LDA模型的文檔-主題-詞分層模型的特點(diǎn),用UCG數(shù)據(jù)來代表用戶,進(jìn)而提出了用戶-飲食行為-詞的用戶飲食行為模型,為數(shù)據(jù)挖掘在飲食行為方面的研究提供了一個(gè)新思路。今后的研究工作可結(jié)合更多的社交網(wǎng)絡(luò)特征,通過數(shù)據(jù)挖掘,為解決飲食行為干預(yù)、疾病預(yù)防和控制、食品推薦等問題提供更大的幫助。

[1] 毛 茅,王 洋,趙妤婕,等.基于社交網(wǎng)絡(luò)的美食互動(dòng)網(wǎng)站設(shè)計(jì)與評估[C]//第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2011)論文集.出版地不詳:出版者不詳,2011.

[2] 楊正雄,趙文華,陳君石.飲食行為干預(yù)的研究進(jìn)展[J].中國學(xué)校衛(wèi)生,2008,29(6):573-576.

[3] 貢浩凌,戴莉敏,劉 媛,等.醫(yī)院-社區(qū)-家庭護(hù)理干預(yù)模式對2型糖尿病患者飲食控制的效果[J].中華護(hù)理雜志,2014,49(4):399-403.

[4] 張雅楠,丁 虹,杜玉萍.回顧性膳食調(diào)查輔助工具的應(yīng)用現(xiàn)狀與評價(jià)方法[J].職業(yè)與健康,2015(9):1294-1296.

[5] 安宜沛.慢性心衰患者膳食現(xiàn)況調(diào)查及中醫(yī)藥膳調(diào)養(yǎng)研究[D].廣州:廣州中醫(yī)藥大學(xué),2015.

[6]BleiDM,NgAY,JordanMI.LatentDirichletallocation[J].JournalofMachineLearningResearch,2003,3:993-1022.

[7] 孫昌年,鄭 誠,夏青松.基于LDA的中文文本相似度計(jì)算[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(1):217-220.

[8] 曾利明.中國民眾存在五大飲食“誤區(qū)”[N].光明日報(bào),2004-11-26.

[9]HofmannT.Unsupervisedlearningbyprobabilisticlatentsemanticanalysis[J].MachineLearning,2001,42(1-2):177-196.

[10] 張 斌,張 引,高克寧,等.融合關(guān)系與內(nèi)容分析的社會標(biāo)簽推薦[J].軟件學(xué)報(bào),2012,23(3):476-488.

[11]GriffithsT,SteyversM.Probabilistictopicmodels[M]//Latentsemanticanalysis.Hillsdale,NJ:LaurenceErlbaum,2006.

[12]AsuncionA,WellingM,SmythP,etal.Onsmoothingandinferencefortopicmodels[C]//Proceedingsofthetwenty-fifthconferenceonuncertaintyinartificialintelligence.[s.l.]:AUAIPress,2009:27-34.

[13] 石 晶,胡 明,石 鑫,等.基于LDA模型的文本分割[J].計(jì)算機(jī)學(xué)報(bào),2008,31(10):1865-1873.

[14] 劉振鹿,王大玲,馮 時(shí),等.一種基于LDA的潛在語義區(qū)劃分及Web文檔聚類算法[J].中文信息學(xué)報(bào),2011,25(1):60-65.

[15] 李文峰.基于主題模型的用戶建模研究[D].北京:北京郵電大學(xué),2013.

Research on User Eating Behavior Model Based on Food Interactive Community

LI Yue,CAO Han

(School of Computer Science,Shaanxi Normal University,Xi’an 710062,China)

As the time for big data and "Internet+" era is coming,user generated content of Internet food interactive community is experiencing the explosive growth.It is becoming more and more difficult for users to find the content of interest.And this part of the data has not been widely used and deeply mined.Traditional eating behavior research normally uses questionnaire,which spends a lot of manpower,material and financial resources.To solve the above problem,it presents user eating behavior model based on LDA.In order to build this model,the ideas of LDA model is used to analyze user generated content of Internet food interactive community,determining the subject number of model according to the perplexity,then calculating the user similarity of eating behavior,which can provide a basis of recommending friends or food for community users.It also provides a new way of eating behavior research.The user generated content from a Internet food interactive community is collected as data set.The experiments verify the feasibility and effectiveness of this method.

eating behavior;food interactive community;user model;data mining;LDA model

2016-01-20

2016-05-18

時(shí)間:2016-10-24

國家自然科學(xué)基金資助項(xiàng)目(41271387)

李 越(1991-),女,碩士研究生,研究方向?yàn)樵朴?jì)算、高性能計(jì)算、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘;曹 菡,教授,研究方向?yàn)椴⑿杏?jì)算、大數(shù)據(jù)處理、空間數(shù)據(jù)挖掘、智慧旅游。

http://www.cnki.net/kcms/detail/61.1450.TP.20161024.1113.040.html

TP39

A

1673-629X(2016)12-0156-04

10.3969/j.issn.1673-629X.2016.12.034

猜你喜歡
用戶模型研究
一半模型
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 国产三级毛片| 欧美a在线| 香蕉精品在线| 呦系列视频一区二区三区| 亚洲福利视频网址| 久热中文字幕在线观看| 亚洲欧美国产视频| 美女免费黄网站| 91区国产福利在线观看午夜 | 亚洲一区二区成人| 国产十八禁在线观看免费| 综合色婷婷| 亚洲看片网| 五月天综合婷婷| 国产激情无码一区二区免费| 亚洲中久无码永久在线观看软件| 亚洲品质国产精品无码| 91极品美女高潮叫床在线观看| 精品国产网站| 中文字幕色站| 在线观看欧美精品二区| 青草视频网站在线观看| 正在播放久久| 国产特级毛片aaaaaa| 国产激情无码一区二区三区免费| 欧美成人免费| 亚洲国产成人自拍| 伊人久久福利中文字幕| 国产精品女主播| 色综合成人| 免费看一级毛片波多结衣| 97在线国产视频| 国产第八页| 欧美精品亚洲精品日韩专区va| 91福利国产成人精品导航| 波多野结衣在线一区二区| 亚洲人成在线精品| 国产精品深爱在线| 无码久看视频| 欧美激情首页| 国产小视频免费观看| 国产精品一区二区国产主播| 在线另类稀缺国产呦| 日韩a级片视频| 国产特一级毛片| 国产在线无码av完整版在线观看| julia中文字幕久久亚洲| 亚洲中文字幕日产无码2021| 国产高清在线精品一区二区三区| 亚洲欧美精品日韩欧美| 波多野结衣中文字幕一区二区| 国产主播在线一区| 无码日韩人妻精品久久蜜桃| 久久精品人人做人人爽电影蜜月| 国产人成网线在线播放va| 亚洲欧美一区二区三区蜜芽| 日日摸夜夜爽无码| 国产91蝌蚪窝| 国内精自视频品线一二区| 四虎影视永久在线精品| 精品视频免费在线| 欧美国产综合色视频| 中文字幕在线日本| 最新亚洲人成无码网站欣赏网| 伊人天堂网| 噜噜噜久久| 真人免费一级毛片一区二区| 成年人国产视频| 亚洲乱码精品久久久久..| 强奷白丝美女在线观看| 最新国产网站| 国产va欧美va在线观看| 日韩a级片视频| 亚洲成年人片| 国产一区二区精品高清在线观看| 欧美高清三区| 国产99在线观看| 亚洲精品无码AV电影在线播放| 欧美a在线| 亚洲精品爱草草视频在线| 亚洲欧洲一区二区三区| 亚洲欧美一区二区三区蜜芽|