金里 對外經濟貿易大學
我國近年來互聯網、大數據技術從普及逐步走向縱深發展,推動了人工智能的覆蓋率,大數據存儲量逐年上升,同比增速保持40%左右,由于我國人口基數大,互聯網覆蓋率高,數據產生量居全球之首,且數據增幅高于全球平均水平,市場規模不斷擴大。大數據技術在國際市場價值日益提升,數據分析服務應迎合市場需求和國家有關政策,對相關門戶網站的數據信息進行收集,并根據個人數據以及小型數據的需求、服務反饋等,對二者的優缺點及發展趨勢做分析。
淘寶是我國電商領軍網購平臺之一,用戶注冊量和瀏覽量是電商網站之首,淘寶依靠自身的流量提供數據分析服務,但目前存在以下問題。首先,人工成本估算不準確,數據收益機制運作不成熟,商品沒有統一參考價格,同品類服務價格差異較大,客戶不能準確找到與自身需求相契合產品。其次,平臺與客戶之間缺乏基本信任,數據把控和使用流量無法控制。淘寶注冊費用較低,商家所承擔信用風險較低,很難保證個人權益。最后,電商銷售存在刷單行為,對交易的評價真偽難以辨別,存在誘導消費風險。
首先,采用火車采集器可以對商品明確定價,適合數據處理不需要太深入的客群使用,客戶可以根據自身的需求選擇相應的版本,借助在線客服做服務指導。八爪魚采集器操作便捷,市場應用廣泛,采集教程圖文并茂,更有視頻指導,客戶短時間內易于掌握。采集軟件根據功能不同價位也有所區別,客戶選擇空間較大。其中包括電商采集、市場洞察、數據采集等,為不同客戶需求量身打造針對性方案。再次,前嗅采集器定價較火車采集器和八爪魚采集器定價更加詳實,前嗅可以自主選擇數據代采,還可以根據ForeSpider 采集引擎自行爬取數據,實現客戶數據的情感分析和語義識別。最后,集搜客有專門的爬蟲軟件,可以自行抓取數據和內容分析。這些數據處理軟件與鳳凰網、中國電信等國內大型門戶網站保持合作,提高行業影響力。
針對淘寶電商網站的有關圖片、郵費、商品名、銷量、發貨地等字段采用爬蟲技術做數據分析,并去除掉不符合主題的噪聲數據,確保數據的有效性。
1.火車采集器
互聯網應用最廣泛的是火車采集器,其數據處理和分析能力較強,配置靈活,在數據采集領域性能較為突出,供客戶選擇的版本氛圍物種,基礎功能可免費試用,根據功能區分付費版本的付費金額也不盡相同,客戶購買后可終身試用,贏得了眾多企業和個人用戶認可。
2.八爪魚采集器
數據采集器是否受到客戶認可,首先應考核其是否操作方法是否便捷。八爪魚采集器使用者及時不懂網絡爬蟲技術,通過數據采集器輕松獲取相應數據信息。目前八爪魚采集器有免費和付費兩種形式共七個版本,付費版本價格區間跨度較大,根據客戶要求可有針對性制定節點,數據服務沒有固定價格,應根據客戶需求制定相應方案來確定價格。
3.前嗅智能大數據專家
前嗅是我國唯一具有自主知識產權的Web 服務器,可以實現數據采集、自然語言處理,制定和研究可視化報告等功能,服務起步價低廉,價格更加明確,劃分較多功能板塊,并根據客戶需求衍生多種服務。
4.集搜客GooSeeker
集搜客是可以把互聯網裝進表格里的數據庫軟件,可以對網頁實現抓取和內容分析,目前網絡爬蟲軟件除了免費版本以外還有三個定制服務版本,根據功能不同,價格區間在49 元-20000 元之間。
每個門戶網站服務方所輻射客群有所不同,功能需求存在本質區別。其中以數據采集為主打的軟件有火車采集器和八爪魚采集器,由于受眾客群不同、功能不同,價格差別也有所區別,火車采集器價格相對更加低廉。前嗅智能大數據專家功能更加齊全,包括大數據衍生服務等。集搜客重點服務文本的處理和情感分析需求的客群,市場定位是網頁抓取和內容分析。以上門戶網站根據市場客戶需求,逐步擴大自身技術優勢,提高市場核心競爭力。
隨著近年來爬蟲技術的深入發展,針對當前小型數據和個人數據分析服務,對銷量、價格、客戶評分、大型電商網站服務質量、種類和價格等做深入分析。
通過爬蟲軟件獲得的爬蟲價格信息價位多樣,單價金額較為隨機,淘寶電商零售平臺沒有明確分析標準,存在一定差異。商品標價不是真實交易金額,交易價格存在一定彈性,經過供需雙方交流后確定的。如果商品價格沒有明確標準,客戶在交易之前心理預期價格與實際價格不符,很難敲定實際交易價格,客戶難以做出快速選擇。
爬蟲軟件爬取付款信息進行分析(見圖1),單項付款人數最多為757 人,單項付款人數最少為0 人,月銷售量大于100 單的占爬蟲獲取付款信息的10%,通過分析付款信息無法判斷交易人數,由于每個交易人數同時可以拍下數單,例如單價200 元商品,客戶同時拍下3 單,實際付款為600 元。

圖1 月銷售數量占比
由圖2 可見,爬蟲軟件爬取信息中,高頻詞匯有spss 出現61 次,可視化出現63 次,stata 出現31 次,爬蟲出現32 次,python 出現28 次,統計出現20 次,其中統計分析工具包括spss、stata、python,其中可視化出現頻次最高,表明客戶趨于對可視化功能的需求,所處領域不同,對數據分析工具要求也有所區別。

圖2 高頻關聯詞出現次數
由圖3 可見,爬蟲軟件爬取發貨地信息具體為,北京40 次,上海32 次,南京16次,深圳12 次,四大城市累計100 次,占比達到50%,表明上述四大城市數字發展領先國家其他城市。

圖3 發貨地分析
分析高頻詞出現次數、銷量、發貨地址等,其中小型數據服務方銷量高低不一,沒有明確定價標準,價格界限不清晰等,無法判斷實際銷量。其中從高頻詞出現次數的數據分析來看,其中可視化出現率最高,足以說明當前客戶對可視化迫切需求;發貨地點占比較高的多為北京、上海等一線城市,表明數據經濟與地方經濟關系成正向發展關系。
電商數據分析服務通過前沿的科學技術手段進行研判,獲取了以淘寶電商為代表的小型數據分析服務,證實目前結構體系不完善,商品標題應添加關鍵詞,商品詳情界面缺乏相關服務的名稱、價格、范圍等,還需進一步與客服溝通才能全部掌握。其中大型門戶網站的數據分析服務,其體系清晰明確,產品分類詳實,定價標準,明確服務的范圍,可以根據客戶需求推出主打產品,滿足不同客戶體驗需求。我國數據資源發展起步較晚,面對技術瓶頸沒有能力轉化為商品化和資產化,質量、定價、權屬等界定和評估能力不夠,無法形成有效流通。根據當前狀況建議如下:首先,數據商品體系應不斷走向商品化、資產化發展,并建立數據監督機構,過期和錯誤等沒有實際應用價值數據摒棄,監督機構可以控制數據的可靠性和可用性。其次,小型數據分析服務應將所提供的服務價格和范圍界限劃定清晰,為客戶提供更加便捷、高效的數據服務,明確自身基本框架。最后,完善數據收益機制和人工成本核算機制。針對當前淘寶和大型門戶網站的數據服務價格參考,各品類之間價格差異較大,構建成熟的人工成本估算,可以避免客戶認為價格高的就是好得心理,規避部分客戶為了節約成本而購買到假的數據信息。
我國數據化發展速度加快,引領市場經濟發展,數據經濟已經覆蓋眾多領域。本文重點研究了數據電商服務框架、服務對象等,針對不同類型做出相應的策略,表明,不同定價的數據電商服務,在數據獲取和定價上存在一定模糊因素,隨著大數據技術的進一步開展,數據電商服務體系將逐步完善和成熟。