999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的B2B電子商務平臺產品排名研究

2016-09-26 08:39:16王晗璐
網絡安全與數據管理 2016年11期
關鍵詞:特征提取分類文本

王晗璐,夏 斌

(上海海事大學 信息工程學院,上海 201306)

?

基于機器學習的B2B電子商務平臺產品排名研究

王晗璐,夏斌

(上海海事大學 信息工程學院,上海 201306)

隨著互聯網的發展,電子商務已經成為一種新的商業活動模式。商品在電子商務平臺的排名,直接決定了產品的銷量。如何優化產品的排名,是所有電子商務公司關注的問題。從商品的文本信息角度出發,利用機器學習方法來研究文本信息與產品排名之間的關系。從特征提取方法和分類算法兩個角度進行了比較研究。首先比較了TFIDF和詞頻法(WF)兩種特征提取方法,進一步又比較了樸素貝葉斯、支持向量機(SVM)以及隨機森林(RF)三個分類算法。研究結果表明,在該文的數據集上進行文本分類排名分析,詞頻法結合隨機森林取得了最好的分類效果。

產品排名; 詞頻法; 隨機森林; 文本分類

引用格式:王晗璐,夏斌. 基于機器學習的B2B電子商務平臺產品排名研究[J].微型機與應用,2016,35(11):45-47.

0 引言

電子商務的概念起源于1995年,阿里巴巴國際站(簡稱:阿里國際站)是一個主要的電商平臺[1],它為小型商家的國際貿易提供良好的平臺。商家們通過在平臺上展示商品,從而獲得商機[2-3]。為了獲得更多的商機,改善產品在阿里平臺上的排名十分重要。平臺中產品展示的信息包括產品標題、屬性、圖片等,還有一些無法看到的信息,如產品關鍵詞。當用戶輸入關鍵詞后,阿里平臺會根據相關產品的信息進行打分,然后生成一個產品列表,得分越高的產品排名越靠前,被用戶瀏覽到的可能性越大,反之,產品分數越低,排名越靠后,產品銷量越小。

如今,有很多人討論如何做好阿里平臺產品的信息優化,從而改善產品排名,但大多是更換產品關鍵詞、更新標題、增加屬性、多使用熱搜詞、展示更清晰精美的圖片等。這些都需要大量的手動工作,而且效果也不盡人意,可行性較低。

根據阿里國際站的官方白皮書介紹,商品的標題及相關的商品屬性描述,是影響商品排名的重要因素。在本文中,考慮利用商品的標題和屬性特征進行分析,研究這類文本信息與商品排名之間的關系。假設產品標題及屬性的組合,在排名靠前的商品中有一些共同的特性。為了分析這樣的共性,結合自然語言處理技術和機器學習方法,擬利用文本分類的方法來研究,如果排名相近的產品在標題和屬性的組合上存在一些共性,則它們應該會被分到同一類別中。

1 方法

1.1特征提取

本文中,使用的產品標題和屬性屬于文本數據,首先要對其進行特征提取,轉化為數字樣本。本文應用了兩種自然語言處理中常用的特征提取方法[4]。

(1)TFIDF

假如一個詞語在一篇文檔中頻繁出現,但在其他文檔中極少出現,則可用這個詞語去區分這篇文檔。其中TF和IDF分別計算如下:

(1)

(2)

式(1)中,nij表示第i個詞在文檔dj中出現的次數,分母表示文檔dj中包括詞語的總數。式(2)中,|D|表示數據集中的文檔總數,|{j:ti∈dj}|表示包含詞ti的文檔數。于是TF-IDF計算如下:

TFIDFi,j=TFi,j*IDFi

(3)

(2)WF

對文檔中出現的詞語進行計數。如果單詞在文檔中出現,計數加1,本文還應用了2-gram方法,即每兩個相鄰的詞語,也記為一項。

1.2分類器

(1)樸素貝葉斯

在短文本分類問題中,x=(x1,x2,…,xn)表示一篇文檔,每篇文檔均表示為一個類似于x的向量,樣本集合記作X。對應地,類別集合記作C={c1,c2,…,cm}。樸素貝葉斯分類器的原理是:假設每個特征之間是相互獨立的,通過比較后驗概率值的大小,把該樣本判別為后驗概率值最大的那一類。后驗概率的計算公式為:

(4)

(2)支持向量機

SVM是基于間隔最大化的一種分類算法[5-6]。對于線性數據而言,它希望空間中的樣本點盡可能地遠離分類超平面。對于非線性輸入,SVM可以應用核函數,將其映射到高維空間轉換輸入為線性的。SVM具有良好的泛化能力,在各種文本分類問題中表現良好。

(3)隨機森林

隨機森林是BreimanLeo和AdeleCutler于2001年提出的, 它是一種基于決策樹的機器學習算法[7]。其訓練模型的方法是訓練多棵決策樹,并綜合每棵樹的分類結果進行最終的決策。在該算法中,需要考慮的參數有兩個,一個是決策樹的數量,另一個是分裂節點輸入的特征數,通常設置為總特征數的開方,文本也是使用這種方法。

隨機森林的分類結果取決于每個決策樹的分類結果[8]。本文應用對每棵樹判別為每個類別的概率取平均值,將概率最大的那類判別為樣本的類別。

2 實驗

2.1實驗數據

本文使用10個類別(包括:服裝、運輸、電子產品、工藝品、玩具、箱包、食品、鞋子、家具和照明)的100個詞,在阿里國際站平臺抓取產品信息。每個類別選取了10個詞,每個詞選擇前三頁和后三頁的產品信息作為數據集。移除了首頁前5個付費(P4P)產品。綜上,共有100個關鍵詞,每個有6頁產品信息,每頁有38個產品。因此,數據集中共有22 800個樣本。其中前三頁的產品被記為正類樣本,后三頁記為負類樣本。整個數據集按照7 ∶3劃分為訓練樣本集和測試樣本集,并以5次實驗得到的分類準確率的平均值作為最終的結果。

2.2實驗結果

(1)特征提取方法比較結果

為了尋找適合表示產品信息的方法,本文采用了WF和TFIDF兩種文本特征提取方法。應用這兩種方法對文本信息進行特征提取后,應用RF分類算法進行分類模型的訓練和驗證。表1是測試準確率的對比結果。結果很顯然,不論森林中決策樹的數量為多少,WF在分類準確率方面始終優于TFIDF。但是使用相同的分類器模型時,TFIDF擁有較少的特征數,所以計算時間要比WF短。

表1 不同特征提取方法的測試準確率對比

表2 使用WF特征提取,三種分類器的測試準確率對比

表3 使用TFIDF特征提取,三種分類器的測試準確率對比

(2)分類器比較結果

為了找到適合本課題的分類算法,分別采用了樸素貝葉斯、SVM以及RF三種分類算法。應用WF和TFIDF進行特征提取,并輸入到上述三種分類器中,測試準確率結果對比分別如表2和表3。結果很顯然,在三種分類器的分類效果對比中,RF表現最好。

2.3實驗分析

首先,采用RF作為分類器,分別應用WF和TFIDF,結果顯示WF的分類效果始終優于TFIDF。這應該是由阿里國際站中產品的信息結構決定的,因為產品標題主要由產品核心詞以及部分屬性構成。因此同類產品中出現近似詞匯的可能性極大,這樣TFIDF算法中的IDF將無法發揮出有效區分文檔的作用。而WF方法很好地表現了產品標題和屬性包含哪些詞。因此WF是更適合對產品標題進行特征提取的方法。

其次,可以看到RF表現最好,準確率達到了86.88%。因為SVM的缺點是不適合大數據集。樸素貝葉斯的缺點是,當特征維數較高時表現較差。

3 結論

本文利用機器學習方法研究了商品文本信息對排名的影響。研究結果表明,排名相近的商品在文本屬性上也有相似性,在分類問題中表現為可以被分到同一類中。根據本文的比較分析,針對本文應用的數據集,WF與RF結合的方法在分類性能上表現最佳,也有最好的計算效率。

[1] Hu Yongquan, Zhao Shukun. A case study of online retail innovation system on alibaba Taobao[C]. E-Business and E-Government(ICEE), 2010: 224-227.

[2] Bai Ou. Governance of innovation network in services: The case of alibaba[C]. International Symposium on Management of Technology (ISMOT), 2012: 81-86.

[3] Guo Jingzhi, LAM J H, LEI J, et al. Alibaba international: building a global electronic marketplace[C].IEEE International Conference on e-Business engineering (ICEBE), 2006:545-548.

[4] Li Shengdong, Lv Xueqiang, Zhou Qiang, et al. Study on key technology of topic tracking based on VSM[C]. IEEE International Conference on Information and Automation (ICIA), 2010: 2419-2423.

[5] Thorsten Joachims. Text Categorization with support vector machines: learning with many relevant feature[C]. Proceedings of ECML-98, 10th European Conference on Machine Learning, Chemnitz,Germany, 1998.

[6] Li Tianbing. On KNN and SVM text classification technology in knowledge management[J]. Electronic and Mechanical Engineering and Information Technology (EMEIT), 2011, 36(3):3923-3926.

[7] 李航.統計學習方法[M].北京:清華大學出版社,2012.

[8] BERNARD S, ADAM S, HEUTTE L. Using random forests for handwritten digit recognition[J]. Document Analysis and Recognition, 2007, 12(10):1043-1047.

Research on the ranking of products of B2B e-commerce platform based on machine learning

Wang Hanlu,Xia Bin

(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)

With the development of the Internet, e-commerce has become a new business model. The ranking of products in the electronic commerce platform directly determines the products’ sales. How to optimize the ranking of products is the problem which is concerned by electronic business company. In this paper, from the perspective of the text information of products, we use machine learning methods to study the relationship between text information and product ranking. We make a comparative study from the point of feature extraction methods and classification algorithms. Firstly, we compared two feature extraction methods, which are TFIDF and word frequency(WF). Further more we compared three classification algorithms, which are Naive Bayes, Support Vector Machine(SVM) and Random Forest(RF). The research results show that the method of text classification and ranking analysis which is carried on the data set in this paper, WF combined with RF obtained the best classification results.

ranking of products; word frequency; random forest; text classification

TP391.9

A

10.19358/j.issn.1674- 7720.2016.11.015

2016-03-11)

王晗璐(1992-),女,碩士研究生,主要研究方向:機器學習與智能信息處理。

夏斌(1975-),通信作者,男,博士,副教授,碩士生導師,主要研究方向:腦-機接口,云計算及人工智能。E-mail:xawen267@gmail.com。

猜你喜歡
特征提取分類文本
分類算一算
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 九九九国产| 国产黄在线观看| 欧美另类视频一区二区三区| 狠狠做深爱婷婷综合一区| 毛片一级在线| 97国内精品久久久久不卡| 青青草综合网| 美女被操91视频| 麻豆国产在线观看一区二区 | 婷婷亚洲天堂| 亚洲AⅤ综合在线欧美一区 | 久久久噜噜噜| 天天综合色网| 亚洲日韩久久综合中文字幕| 欧美成人免费一区在线播放| 永久免费AⅤ无码网站在线观看| 亚洲男人在线| 日韩精品一区二区深田咏美| 香蕉国产精品视频| 午夜视频在线观看区二区| 成人国产三级在线播放| 亚洲欧美日韩天堂| 亚洲综合国产一区二区三区| 欧美精品高清| 国产精品深爱在线| 手机精品福利在线观看| 在线国产91| 国产精品一区二区国产主播| 免费观看男人免费桶女人视频| AV不卡无码免费一区二区三区| 国产一在线观看| 中国一级特黄视频| 亚洲最猛黑人xxxx黑人猛交| 四虎成人免费毛片| 无码一区18禁| 天天做天天爱天天爽综合区| 欧美翘臀一区二区三区| 色色中文字幕| 亚洲午夜福利精品无码不卡 | 国产女人喷水视频| 亚瑟天堂久久一区二区影院| 日韩在线第三页| 亚洲无线一二三四区男男| 精品无码国产一区二区三区AV| 欧美一级特黄aaaaaa在线看片| 国内嫩模私拍精品视频| 天天综合亚洲| 国产欧美精品一区aⅴ影院| 天堂av综合网| 国产情侣一区| 999国产精品| 色婷婷亚洲综合五月| 亚洲一区第一页| 免费女人18毛片a级毛片视频| 在线视频97| 欧美无专区| 久久永久视频| 中文字幕天无码久久精品视频免费 | 青青青国产免费线在| 国产sm重味一区二区三区| 亚洲男人天堂久久| 波多野结衣中文字幕一区二区| 国产噜噜在线视频观看| 亚洲日韩国产精品综合在线观看 | 久久鸭综合久久国产| 九九这里只有精品视频| 色呦呦手机在线精品| 国产欧美高清| 成人小视频网| 国产精品亚洲综合久久小说| 久久这里只有精品23| 亚洲精品卡2卡3卡4卡5卡区| 欧美性精品不卡在线观看| 久久综合伊人77777| 一区二区三区国产精品视频| 亚洲视频在线观看免费视频| 综合亚洲色图| 国产在线一区视频| 成人免费网站久久久| 欧美午夜精品| 亚洲天堂.com| 国产黄在线观看|