999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的電子商務市場表現研究

2017-05-09 17:46:34陳皓琰
科學中國人 2017年12期
關鍵詞:融資文本

陳皓琰

四川城市軌道交通職業學院籌備中心

基于文本挖掘的電子商務市場表現研究

陳皓琰

四川城市軌道交通職業學院籌備中心

大數據轉變成可視化數據依靠的是計算機領域中的文本挖掘技術。文本挖掘中最重要且最基本的應用是實現文本的分類和聚類,前者是有監督的挖掘算法,后者是無監督的挖掘算法。本文重點講述如何利用文本挖掘技術對當前的電子商務市場表現進行研究。

文本挖掘;電子商務;數據分析;爬蟲

1 引言

文本挖掘指的是從文本數據中獲取有價值的信息和知識,它是數據挖掘中的一種方法。數據挖掘[1]也稱知識發現(KDD),是從數據庫中便捷地抽取出未知的、隱含的、有用的信息。

本文的研究背景是基于大數據下進行的,而對電子商務市場表現進行研究,采用的技術是本文挖掘技術。文本挖掘技術是一項非常重要的挖掘和展示數據結論的技術。通過本文的研究,希望能對電子商務的市場表現有一個更加清晰的認識。

2 文本挖掘流程

數據挖掘中的文本挖掘與我們的生活息息相關,比如,搜索引擎上的新聞熱點推送,雖然少不了編輯人員的工作,但是在繁雜網絡信息中,脫離電腦僅靠人工是幾乎不可能完成的。最近一款流行的APP,<<頭條>>,它其實也是文本挖掘技術應用的一種展現。本文挖掘的一般流程如圖2-1所示:

圖2 -1文本挖掘一般流程

2.1 文本獲取

一般情況下,我們通過網頁的形式,獲取網絡文本,再將得到的文本建成文本數據庫(數據集)。在這個過程中,可利用爬蟲程序來爬取網絡中的信息。爬取的策略有廣度和深度爬取,根據用戶的需求,爬蟲也可分為主題爬蟲和通用爬蟲。主題爬蟲主要是在相關站點進行爬取或者爬取特定主題的文本,而通用爬蟲則一般對此不加限制,所以得到的文本量和內容更多。現在網絡上已經存在很多開源的爬蟲程序,也可根據獲取對象的情況自行編寫。

2.2 文本預處理

通過執行爬蟲程序,我們獲取了大量的原始數據和相關資料,但網頁中存在很多我們不感興趣的信息,比如廣告、導航欄、html、js代碼、注釋等等。所以,我們還需要對文本中的信息進行篩選。這個步驟相當于做飯中洗菜的過程,沒有清洗過的食材,廚藝再好的人,我想也很難做出佳肴吧。

2.3 分詞系統

我們知道,文本中起到關鍵作用的是往往是一些關鍵詞,這些關鍵詞決定了文本取向。比如說一篇文章介紹的是體育相關的內容,我們只需要對文章中的關鍵詞進行分析就能得到想要的結果了。那么怎樣才能找到那些能夠影響主題的詞語呢?

在找出關鍵詞之前,要先獲取文本中所有的詞語。這個步驟需要用到一個分詞系統或者分詞工具。現在針對中文分詞,出現了很多算法,有最大匹配法、最優匹配法、機械匹配法、逆向匹配法、雙向匹配法等等。這里推薦使用中科院的分詞工具ICTCLAS[2],該工具是以北京大學計算機語言學研究所加工的《人民日報》語料庫為訓練語庫,基于層疊隱馬爾可夫模型的漢語分詞方法,是一個基于統計方法的、集成的一體化漢語詞法分析解決方案。

2.4 特征選擇

通過分詞工具的輔助,我們已經把所有的詞進行了分類。但是這些詞中,并不都是所需要的,比如語氣詞、形容詞、標點符號。這些詞和字符在文中都大量存在,與文本關鍵詞無太大關系,所以可以刪除。

經過處理,我們能夠得到一個文本集。有的詞會在這個文本集中大量出現,有的只出現幾次而已。出現頻率低的詞通常不能決定文章的主題,而且文本集中內容越大,維度會越高,矩陣稀疏度隨之成比,嚴重影響到挖掘結果。國內外許多學者已經在關鍵詞抽取領域中做了大量研究工作,簡立峰[3]使用PAT樹結構,利用詞與詞的聯系來對中文關鍵詞進行搜索,但是PAT樹模型的成本太大,本文引用權重計算方法TF-IDF(term frequency-inverse document frequency),該模型的主要思想是[4]:關鍵詞在文檔中權重為關鍵詞在文檔中出現的頻數反比于包含該特征詞的文檔書目。TF表示關鍵詞m在文檔D中出現的頻率,IDF表示所有文檔中出現關鍵詞m的文檔數目。

3 文本挖掘在電子商務市場表現研究方面的應用

文本挖掘技術可以應用到各個領域當中,電子商務領域尤為廣泛。做過電商應用的朋友就會發現,在工作過程中,業務的需求基本來源于數據,這些數據主要靠文本挖掘來獲取。比如唯品會,其網站上商品的價格及展現形式都不是隨意設定的。唯品會的大數據部門,無時無刻不在運行著爬蟲程序,然后進行數據分析,尋找自己想要的商務數據。

3.1 數據爬蟲

本文中使用了Python開發的PyRailgun,它是一個簡潔、輕量、高效的網頁抓取框架。本人在其開源代碼的基礎上,加入了研究所需要的成分,然后設定好需要爬蟲的關鍵詞:電子商務、網購、商務公司、網購評價、商品評價、商品質量、公司融資、融資金額。這八個關鍵詞是程序重點爬蟲的對象,爬蟲程序執行以后會將與其相關的數據保存下來。本次爬蟲程序不做深度爬蟲處理,以三級爬蟲為最多爬蟲層數,數據量以10萬條為準,多于10萬條以上的數據,不再存儲,避免數據量過大,處理周期冗長。

3.2 數據預處理

在數據預處理階段,本人設定了一些文本規則,將不相關的文本數據清除,只保留和預期目標相關的數據。數據預處理的規則如下:

(1)去除含廣告類的數據,這部分數據與研究目標無直接聯系且數量巨大。

(2)數據分類:將與本文目標一致的數據劃分為一類。使用聚類分析算法,將其劃分為三類數據:電子商務公司名稱數據、網購評價數據、公司融資數據。

(3)數據精簡去重,一個主題相關詞只保留一條。

3.3 數據細分

經過數據預處理后,三種目標數據的純凈度大幅度提升。因為本文主要研究的是數據反應出的趨勢,所以要對數據再進行細分,規則如下:

(1)電子商務公司名稱數據

以公司名稱為重點關鍵詞,通過聚類分析算法進行數據分類。

(2)網購評價數據

數據相對零碎,比較難處理。本次實驗數據以天為單位,分好評與差評。

(3)公司融資數據

數據也是以公司名稱為重點關鍵詞:通過聚類分析算法,將各公司的融資數據情況劃分為一類,便于下一步的數據分析中挖掘重點融資情況。

3.4 數據分析

把分類好的數據進行匯總,即可得到所需的數據報表。

(1)電子商務公司名稱數據

匯總與電子商務有關的公司個數。

(2)網購評價數據

匯總好評和差評的頻次。

(3)公司融資數據

把各公司的每一輪融資結果,匯總成報表。

3.5 研究結論

(1)我國的電子商務公司一直處于增長的趨勢,由于文本程序每個季度執行一次,數據量偏少,因此得到的結論是:從2015年10月份到2017年2月份期間,2016年4月份的新增公司數量最多。

(2)客戶對網購評價好壞的趨勢。客戶對網購評價情況,在2015年10月份,網購給予差評的比例較大,基本占到了43%左右,但是隨著時間的推移,網購差評的比例越來越少,到了2017年1月份,已減少到了18%左右。說明客戶網購體驗的發展趨勢越來越好。

(3)電子商務創業型公司融資情況趨勢。在實驗范圍內,2016年4月的融資情況和融資數量最佳。

4 結束語

通過使用文本挖掘技術對電子商務市場表現展開應用,主要對一定時間內新增公司的數量趨勢、客戶對網購評價好壞的趨勢、電子商務創業型公司融資情況三個方面進行分析。

因為本次實驗的樣本有限,tf-idf方法也有不足之處[5],所以結論僅提供參考,期望有更好的云服務技術,對更多的數據進行專業級文本挖掘,進行更深層次的分析。

[1]JiaweiHan,Micheline Kamber.范明,孟小峰,等譯.數據挖掘概念與技術[M].北京:機械工業出版社,2001.

[2]劉群.漢英機器翻譯若干關鍵技術探究[M].北京:清華大學出版社,2008.

[3]Chien Lee Feng,PAT-tree-based Keyword extraction for Chinese information retrieval[C].Proceedings of the ACM SIGR InternationalConference on Information Retrieval,1997:50-59.

[4]Aizawa A.An Information-theoretic Perspective of tf-idfMeasures[J].Information Processingand Management,2003,39(1):45-65.

[5]徐建民,王金花,馬尾瑜.利用本體關聯度改進的TF-IDF特征詞提取方法[J].情報科學,2011,29(2):279-283.

猜你喜歡
融資文本
融資統計(2月7日~2月13日)
融資統計(1月17日~1月23日)
融資統計(1月10日~1月16日)
融資統計(8月2日~8月8日)
融資
房地產導刊(2020年8期)2020-09-11 07:47:40
融資
房地產導刊(2020年6期)2020-07-25 01:31:00
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 91av成人日本不卡三区| 亚洲欧美日韩精品专区| 精品第一国产综合精品Aⅴ| 69免费在线视频| 日本人又色又爽的视频| 免费三A级毛片视频| 亚洲精品无码人妻无码| 国产av一码二码三码无码| AV无码无在线观看免费| 在线精品自拍| 在线观看国产网址你懂的| 鲁鲁鲁爽爽爽在线视频观看| 四虎精品黑人视频| 国产成人毛片| 亚洲人成在线免费观看| 国产午夜精品鲁丝片| 亚洲国产系列| 久久成人免费| 亚洲视频在线观看免费视频| 国产精品成| 青草视频久久| 久久一色本道亚洲| 91亚洲影院| 麻豆精品在线视频| 夜夜拍夜夜爽| 国产永久在线观看| 欧美精品在线观看视频| 天天躁日日躁狠狠躁中文字幕| 久热精品免费| 亚洲欧美另类视频| 成人免费网站在线观看| 在线观看无码a∨| 亚洲av无码片一区二区三区| 久久中文字幕2021精品| 国产人成午夜免费看| 色婷婷啪啪| 99久久精品免费看国产免费软件| 伊人久久大线影院首页| 欧美成人午夜在线全部免费| 成年人久久黄色网站| 欧美一级黄片一区2区| 日本高清免费不卡视频| 特级精品毛片免费观看| 日韩a级毛片| 亚洲av无码成人专区| 美女内射视频WWW网站午夜| 国产白浆视频| 欧美国产日韩在线| 露脸一二三区国语对白| 国产在线拍偷自揄观看视频网站| 久久永久免费人妻精品| 欧美一级专区免费大片| 91po国产在线精品免费观看| 欧美成一级| 亚洲国产午夜精华无码福利| 熟女视频91| 国产永久无码观看在线| 日韩欧美国产区| 在线日本国产成人免费的| 国产午夜福利片在线观看| 小13箩利洗澡无码视频免费网站| 四虎永久在线精品影院| 亚洲中文在线视频| 一级毛片中文字幕| 欧洲一区二区三区无码| 在线欧美国产| 欧美日韩精品综合在线一区| 国产成人高清精品免费| 国产精品视频猛进猛出| 亚洲精品777| 亚洲精品视频免费看| 婷婷六月激情综合一区| 亚洲中文字幕97久久精品少妇| 另类欧美日韩| 国产无码高清视频不卡| 91精品福利自产拍在线观看| 91精品国产综合久久香蕉922| 欧美成人精品在线| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产精品污污在线观看网站| 免费毛片网站在线观看| 日本草草视频在线观看|