999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社交媒體的用戶消費能力研究

2018-10-31 07:31:28實,
智能計算機與應用 2018年6期
關鍵詞:用戶能力模型

裘 實, 劉 挺

(哈爾濱工業大學 計算機科學與技術學院, 哈爾濱 150001)

引言

近年來,隨著互聯網技術的快速與蓬勃發展,社交網絡、網上購物等已經成為人們日常不可缺少的互聯網應用。作為社交網絡的衍生結果之一,微博以其易操作、傳播快等特點[1]在社交媒體中脫穎而出。越來越多的人將個人信息公布在微博上,并且通過發表少于140字的短文本來陳述自己的觀點[2]。微博極大地促進了信息的傳播和共享,其中所包含的隱性商業價值正日益突顯。通過觀察微博用戶微博文本信息后,研究發現活躍用戶所發表的微博文本信息與用戶的消費能力之間可能存在某種聯系。在微博引發的強大推介態勢背景下,通過用戶的微博信息研究用戶在某一產品類型的消費能力這一課題將非常有意義。

本文主要對微博用戶所發微博文本與用戶的消費能力之間的關系展開研究。通過用戶鏈指的方式獲取到微博用戶的京東賬號信息,以京東賬號會員等級將消費能力分為高、中、低3個層次。然后將微博文本向量化處理后與用戶屬性聯合在一起,經過特征選擇后作為輸入以訓練模型,預測用戶的消費能力。

1 基于傳統分類模型的消費能力模型

隨著社交網絡的興起,基于短文本的用戶屬性的研究得到學者的廣泛關注。Rao等人[3]基于國外社交網絡Twitter上的文本進行了包括性別、年齡、生活地區等屬性的識別,并取得了70%以上的準確率。Sun[4]提出了一種基于微博用戶簽到地點的消費能力的預測。文中將簽到地點分成數個等級,根據微博用戶的簽到地點判斷用戶消費能力,但并未對用戶基本屬性和文本信息與消費能力之間的關系提供后續分析。付博等人[5-6]基于跨社交媒體檢索對微博消費對象、消費意圖做出了評判識別。Zhao等人[7]基于微博用戶信息統計研發了一個產品推薦系統METIS,根據用戶的性別、年齡、婚戀狀況、教育程度、職業和興趣(微博標簽)等用戶信息,通過Learning to Rank進行產品推薦;Hollerit等人[8]通過Twitter檢測商業意圖來連接賣家和買家。

本文用Uni-Gram單詞模型和Bi-Gram二元模型作為傳統分類模型的詞向量輸入。其中,Uni-Gram指單詞模型,即探究每個用戶的用詞與消費能力之間是否存在某種關系;Bi-Gram是指二元模型,即探究每個用戶的連續用語習慣是否和消費能力相關。數據集中已經存儲了每個用戶發布的所有微博,先將每個用戶的文本分隔為一個單獨的文檔,全局文本中共有4 630個文檔。然后把每個文檔中的文本用LTP進行分詞、去停用詞,作為每個用戶的詞典。接下來計算每個單詞的TF-IDF值,并建立無重復詞的詞典,總共統計出333 523個詞。最后依次選用IG、CHI和WLLR的特征選擇方法進行特征選擇。將IG、CHI和WLLR這3種特征選擇方法擷選出來的前10 000個詞和前50 000個詞分別作為特征項,作為模型訓練的輸入,進行對比實驗。

在分類器的選擇上,選擇了支持向量機(Support Vector Machine, SVM)[9]。這是一種二元分類模型,其基本模型定義為特征空間上的間隔最大的線性分類器[10],學習的策略是間隔最大化,最終可轉化為一個凸二次規劃問題的求解,運行求解設計可如圖1所示。

本文中,分類器的特征項達到了10 000維,甚至50 000維,而研究中的訓練數據只有4 630個。所以選擇了對維數大于訓練數據個數的最優化SVM分類器作為分類模型。

圖1 支持向量機模型

2 基于LDA主題模型的用戶消費能力模型

通過觀察用戶所發微博文本信息,發現各個用戶所關注以及樂于發表觀點的主題存在很大區別。因此,研究擬通過抽取每個用戶喜愛談論的主題來考查其是否與消費能力相關。本文的主題詞模型的構造采用LDA的方法來實現。

LDA(Latent Dirichlet Allocation)是離線數據集合的生成概率模型,也可以稱為3層貝葉斯概率模型[11]。LDA的3層結構分別是詞、主題和文檔。在本文中,每個用戶的微博文本分詞結果都是一個文檔,且認為每個文檔中的詞是通過一定概率選擇了某幾個主題,并從這些主題中以一定概率選擇某個詞語。文檔與主題之間服從多項式分布,主題與詞之間服從多項式分布,模型設計則如圖2所示。LDA屬于機器學習中的非監督學習類型,一般用來通過非監督的方式生成文檔的主題。研究通過使用詞袋方法向量化每篇文檔中的詞,這樣每篇文檔就有了某些主題構成的概率分布。本文將這種主題概率的分布作為預測消費能力的特征項,探究不同消費能力用戶文本信息主題概率分布的改變是否存在規律性。

圖2 LDA主題模型

用LDA方法選出了200個主題,每個主題下有20個詞。通過觀察這200個主題以及屬于主題的詞語,發現有些詞語集合主題比較明顯,但也存在一些完全無規律詞語集合,研究從200個主題中選出了包括足球、母嬰、股票、購物等57個具有明顯主題的詞集,舉例中的分類劃定可見表1。

表1 LDA選擇出的主題及主題下的詞語舉例

3 評價指標與實驗結果

3.1 評價指標

本文采用有監督的學習方法,將消費能力分為高、中、低3個等級,因此選取文本分類中常用的評價指標,即:準確率、精確率、召回率、以及精確率和召回率的調和平均值作為評價的標準。論述詳情可見如下。

(1)準確率(accuracy)。是指對于給定的測試數據集,分類器正確分類的樣本數與總樣本數的比值;另外3個評價指標在本文中分別針對不同的類別,每一類別中以該類別為正類,其它2個類別為負類,分類器在測試數據集上的預測可判為正確或不正確,4種情況出現的總數分別設定為:TP表示將正類預測為正類數;FN表示將正類預測為負類數;FP表示將負類預測為正類數;TN表示將負類預測為負類數。

(2)精確率P。數學定義可表示為:

(1)

(3)召回率R。數學定義可表示為:

(2)

(3)精確率和召回率的調和平均值F。數學定義可表示為:

(3)

所以對于3個類別,每種方法將會得到一個準確率和3個不同的精確率、召回率和調和值。

3.2 實驗結果與分析

研究選用Uni-Gram—單詞模型研究的是用戶的用詞習慣和消費能力之間是否存在關聯,實驗結果可見表2。

表2 Uni-Gram模型實驗結果

如表2所示,研究中用CHI方法選出特征值為前50 000個詞作為特征項具有較好的預測結果,準確率為62.33%,3個消費等級的F值分別為31.20%、53.57%和62.94%。

接下來,將再次選用Bi-Gram—二元詞組模型研究用戶的用語習慣和消費能力之間是否存在關聯,實驗結果可見表3。

從表3可以看出,Bi-Gram的預測正確率明顯高于Uni-Gram,CHI方法選出的特征值前10 000個詞具有較好的實驗結果,準確率達到了70.33%,3個消費等級的F值達到了45.11%、62.73%和69.07%。由此則可推斷得出:用戶的用語習慣較用詞習慣與消費能力的關聯關系更為密切。

最后,主題模型探究的是用戶喜歡談論的主題與消費能力之間的關系。研究選擇了用LDA方法得出的主題中具有明顯特點的57個主題,以每個用戶在這57個主題上的概率分布作為特征項進行訓練和預測,最終結果可見表4。

表3 Bi-Gram模型實驗結果

表4主題模型實驗結果

Tab. 4 Experimental results of topic model%

從表4中可以看出主題模型的預測結果并不好,由此可以得出結論,即:用戶喜愛談論的主題和消費能力之間的關聯度不大。

4 結束語

本文研究的主要內容是基于社交媒體的用戶消費能力。目前,基于短文本社交媒體的用戶畫像工作已經成為自然語言處理領域研究的熱點。但已有工作主要是對用戶未公開的基本屬性進行預測和對消費意圖進行識別,而本文研究的重點是社交媒體中用戶所發文本和基本屬性與消費能力之間的關系。在此任務中,利用用戶鏈指的方式建立了社交網絡—微博與購物網站—京東的映射途徑,以京東的級別信息作為消費能力的判定標準。以用戶所發微博與用戶基本信息作為輸入,預測用戶的消費能力。本文通過對比Uni-Gram模型、Bi-Gram模型和主題模型的實驗結果,探究用戶的習慣用語和個人基本信息與消費能力之間的關聯。結果表明,用戶的用語習慣與消費能力之間的關聯度最大,其次是用詞,最后是主題,且主題與消費能力關聯度非常小。因為本文中獲取到的數據較少,且存在比例不平衡的問題,所以后期工作中可以在用戶鏈指的方向上實現進一步研究,比如通過用戶名相似度匹配來獲取更多用戶,減少數據不平衡所造成的偏置;用戶屬性的信息還有繼續挖掘的可能性,未來針對特征的選擇還可以加大研究力度等。

猜你喜歡
用戶能力模型
一半模型
消防安全四個能力
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
大興學習之風 提升履職能力
人大建設(2018年6期)2018-08-16 07:23:10
你的換位思考能力如何
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 韩日午夜在线资源一区二区| 国产精品女主播| 国产尹人香蕉综合在线电影| 日韩视频福利| 久久福利网| 97国产精品视频自在拍| 亚洲动漫h| 亚洲国产精品日韩欧美一区| 国产精品三级专区| 欧美午夜在线播放| 99久久国产综合精品2023| 尤物国产在线| 亚洲国产精品日韩欧美一区| 亚洲成A人V欧美综合天堂| 99久久精品视香蕉蕉| 伊人AV天堂| 高清无码一本到东京热| 国产免费自拍视频| 成人福利在线免费观看| 欧美劲爆第一页| 制服丝袜国产精品| 久久国产精品夜色| 亚洲午夜国产精品无卡| 国产福利一区二区在线观看| 免费一级毛片在线观看| 亚洲第一av网站| av在线无码浏览| 18禁不卡免费网站| 国产成人综合日韩精品无码首页| 国产乱子伦视频三区| 精品国产一二三区| 欧美a在线| 色精品视频| 国产成人精品一区二区三区| 亚洲区欧美区| 青青草原国产| 乱系列中文字幕在线视频| 丁香五月激情图片| 香蕉eeww99国产在线观看| 人人妻人人澡人人爽欧美一区| AV无码无在线观看免费| 91探花国产综合在线精品| 美女内射视频WWW网站午夜| 久久 午夜福利 张柏芝| 欧美色视频日本| 精品久久蜜桃| 亚洲不卡网| 亚洲精品无码不卡在线播放| 亚洲无码不卡网| 久久频这里精品99香蕉久网址| 欧美成人亚洲综合精品欧美激情| 国产免费好大好硬视频| 毛片基地视频| 狠狠v日韩v欧美v| 久久综合色88| 国产午夜看片| 99热国产这里只有精品无卡顿"| а∨天堂一区中文字幕| 少妇高潮惨叫久久久久久| 亚洲美女一区| 国产三级成人| 欧美狠狠干| 亚洲精品午夜天堂网页| 99视频在线看| 在线无码av一区二区三区| 精品国产aⅴ一区二区三区| 国产欧美精品午夜在线播放| 国产成人精品免费视频大全五级| 国产激情第一页| 在线看片免费人成视久网下载| 国产亚洲欧美在线中文bt天堂 | 国产成年女人特黄特色大片免费| 朝桐光一区二区| 国产三级国产精品国产普男人 | 丁香婷婷久久| 1769国产精品视频免费观看| 99热精品久久| 国产精品亚洲va在线观看| 午夜福利在线观看入口| 国产小视频免费| 国产精品白浆在线播放| 欧美一区二区三区不卡免费|