【摘要】針對當(dāng)前網(wǎng)絡(luò)零售業(yè)在線商品品種繁多、同質(zhì)化嚴(yán)重、競爭情報(bào)收集困難的現(xiàn)狀,利用當(dāng)前流行的主題爬蟲技術(shù),建立網(wǎng)絡(luò)零售競爭情報(bào)系統(tǒng)。系統(tǒng)能自動(dòng)搜集指定競爭對手和指定領(lǐng)域內(nèi)在線商品的實(shí)時(shí)信息,并能智能擴(kuò)展或縮小收集范圍。系統(tǒng)為商家提供及時(shí)準(zhǔn)確的競爭情報(bào),并起到很好的輔助決策作用。
【關(guān)鍵詞】競爭情報(bào);網(wǎng)絡(luò)零售;主題爬蟲;在線商品;輔助決策
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心的研究數(shù)據(jù),2010年網(wǎng)絡(luò)零售市場上用戶比例(存在重復(fù)選項(xiàng))第一的是服裝鞋帽,為70.1%;第二的是電腦數(shù)碼產(chǎn)品,為31.6%;第三的是圖書音像制品,為31.4%。當(dāng)前,網(wǎng)絡(luò)零售商家收集競爭情報(bào)的途徑主要為手工使用各種搜索引擎(如百度),或購買網(wǎng)絡(luò)零售平臺提供的分析工具(如淘寶的“數(shù)據(jù)魔方”)。手工使用搜索引擎效率較低,分析工具對大部分零售商家來說價(jià)格較貴,且只能獲取單個(gè)平臺的銷售數(shù)據(jù)。主題爬蟲是一個(gè)能自動(dòng)從網(wǎng)頁中提取指定相關(guān)內(nèi)容的程序,它從一個(gè)或若干初始URL開始,不斷獲取當(dāng)前頁面上的新URL,循環(huán)深入進(jìn)行相關(guān)內(nèi)容抽取,直到達(dá)到停止條件。當(dāng)前有很多免費(fèi)的爬蟲程序,例如Java開源的Heritrix。針對網(wǎng)絡(luò)零售業(yè),完全可以通過借助這些比較成熟的爬蟲程序,為商家量身定制競爭情報(bào)系統(tǒng)。
一、系統(tǒng)的基本構(gòu)成
系統(tǒng)分為兩大部分,第一部分為接受商家指定主題和范圍,然后在基本資料庫中抽取關(guān)鍵詞(含URL)推薦。基本資料庫由系統(tǒng)在空閑時(shí)利用主題爬蟲檢索并智能生成,盡量涵蓋常用網(wǎng)絡(luò)零售領(lǐng)域和商品種類,可以增加檢索準(zhǔn)確度和提高效率。第二部分為商家確定關(guān)鍵詞后,由系統(tǒng)利用主題爬蟲深入全面地檢索競爭情報(bào),并將結(jié)果匯總為按時(shí)間排序的詞條呈現(xiàn)。結(jié)果的呈現(xiàn)可以分為商家隨時(shí)查看,以及定時(shí)自動(dòng)匯總兩種模式。商家還可以隨時(shí)在基本資料庫中進(jìn)行關(guān)鍵詞調(diào)整或者手工加入新的關(guān)鍵詞,以改進(jìn)情報(bào)搜集效果。系統(tǒng)整體結(jié)構(gòu)如圖1所示。
圖1 系統(tǒng)的功能結(jié)構(gòu)圖
二、系統(tǒng)的主要功能實(shí)現(xiàn)
1.主題爬蟲的整合。以現(xiàn)有的Heritrix作為抽取指定URL內(nèi)容的工具,抽取出來的內(nèi)容則需進(jìn)行主題分析、過濾,相關(guān)度足夠高的內(nèi)容中包含的URL才能放入隊(duì)列,等待下一步抽取。(1)主題的表示。主題可以概括為關(guān)鍵詞(不含URL)的向量組合。設(shè)主題共有n個(gè)關(guān)鍵詞,則主題的關(guān)鍵詞集合表示為T={t1,t2,...,tn},ti為主題的第i個(gè)關(guān)鍵詞。設(shè)ti的權(quán)重為wi(ti的重要性),則主題向量α表示為:ω=(w1,w2,...,wn), wi=1。(2)相關(guān)性的概念。URL中內(nèi)容與主題的相關(guān)性,可以利用主題的向量表示來衡量。設(shè)關(guān)鍵詞ti在內(nèi)容中出現(xiàn)的次數(shù)為ci,則整個(gè)URL與主題的相關(guān)性γ可表示為:γ=wici,ci=0,1,2...。可以根據(jù)已知的確定相關(guān)的若干URL計(jì)算出γ的平均值作為閾值M,γ值超過M的URL認(rèn)為相關(guān),小于的則過濾掉。主題相關(guān)性γ可用來確定主題爬蟲每層抽取URL的廣度。主題爬蟲每次利用Heritrix抽取URL內(nèi)容的深度固定為1,通過循環(huán)調(diào)用Heritrix來逐層深入。當(dāng)某層次所有URL中與主題相關(guān)的比例低于某個(gè)值(比如50%)時(shí),結(jié)束抽取。主題爬蟲的抽取深度也可以由每層URL的主題相關(guān)性γ來綜合決定。
2.基本資料庫的創(chuàng)建。基本資料庫是為了提高情報(bào)搜集效率,也是為了提升系統(tǒng)智能化水平而特意創(chuàng)建的一個(gè)關(guān)鍵詞庫,也包含URL在內(nèi)。因?yàn)橐粋€(gè)情報(bào)主題所含關(guān)鍵詞很難完整而準(zhǔn)確地被描述,系統(tǒng)會先利用主題爬蟲收集商家提交的主題關(guān)鍵詞在常用搜索引擎(如谷歌、百度)和零售平臺(如淘寶)中的檢索結(jié)果,統(tǒng)計(jì)其中的關(guān)鍵詞和URL,將其中相關(guān)性高的放入基本資料庫中,充實(shí)主題內(nèi)涵。
以“手機(jī)”情報(bào)主題為例:將其百度檢索結(jié)果URL“http://www.baidu.com/swd=手機(jī)”作為Heritrix起始URL,抽取內(nèi)容。統(tǒng)計(jì)內(nèi)容中的關(guān)鍵詞,其中“行情”、“價(jià)格”以及各大手機(jī)資源網(wǎng)站URL均相關(guān)性(伴隨“手機(jī)”出現(xiàn)的次數(shù))較大,可以將這些放入基本資料庫,作為“手機(jī)”主題的關(guān)鍵詞候選項(xiàng)。同樣,可以將谷歌、淘寶檢索結(jié)果中的一些關(guān)鍵詞,比如銷量最大的手機(jī)店鋪URL,放入基本資料庫,作為“手機(jī)”主題的關(guān)鍵詞候選項(xiàng)。商家可以自由更改基本資料庫,刪除不想要的關(guān)鍵詞和URL,添加特殊關(guān)鍵詞和指定URL(比如競爭對手網(wǎng)站)等。基本資料庫的創(chuàng)建可以極大的提升系統(tǒng)的易用性,商家無需高深的行業(yè)知識和經(jīng)驗(yàn),也能選好主題關(guān)鍵詞,為下一步的情報(bào)收集打下良好的基礎(chǔ)。
3.競爭情報(bào)的收集。在基本資料庫的幫助下,主題關(guān)鍵詞可以相對較完善地給出,其中的URL作為主題爬蟲的起始URL,其他詞匯作為分析URL主題相關(guān)性的依據(jù)。(1)將主題關(guān)鍵詞中所有初始URL放入待抽取隊(duì)列S。(2)從隊(duì)列S中取出第一個(gè)URL,利用Heritrix抽取其內(nèi)容,深度固定為1。(3)對抽取出的內(nèi)容分段(依據(jù)HTML的
符號定位)進(jìn)行主題相關(guān)性γ計(jì)算。如果γ超過閾值M,則將該段內(nèi)容歸入情報(bào)序列Q,同時(shí)將該段中的URL放入待抽取隊(duì)列S尾部,繼續(xù)計(jì)算下一段;如果γ小于閾值M,則直接計(jì)算下一段。(4)如果隊(duì)列S非空,則轉(zhuǎn)到(2);否則結(jié)束情報(bào)收集,將情報(bào)序列Q按時(shí)間排序反饋給商家。這種利用隊(duì)列S來進(jìn)行的主題收集,是廣度優(yōu)先,將每一層的URL內(nèi)容收集完畢,才會進(jìn)入下一層收集。當(dāng)所有的URL下一層都不相關(guān),則隊(duì)列S中不會加入新URL,主題爬蟲就在此深度停止。
三、結(jié)語
針對中小型網(wǎng)絡(luò)零售商家,本系統(tǒng)可以為其提供成本相對較低,且非常簡便實(shí)用的競爭情報(bào)收集服務(wù)。不足之處在于主題相關(guān)性分析與過濾,考慮得不夠全面,算法比較粗糙。下一步的研究方向就是進(jìn)行主題相關(guān)性的精化分析,力求系統(tǒng)的智能化水平更進(jìn)一步。
參考文獻(xiàn)
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心.2010年中國網(wǎng)絡(luò)購物市場研究報(bào)告[R/OL].http://www.cnnic.cn/research/bgxz/dzswbg/201106/t20110602_
21245.html.2011(6)
[2]鐘原勝.淘寶的“魔方”[J].互聯(lián)網(wǎng)天地.2010(5):72~73
[3]王芳,陳海建.深入解析Web主題爬蟲的關(guān)鍵性原理[J].微型電腦應(yīng)用.2011(7):76~78
[4]李丹,顧保磊.基于Heritrix的內(nèi)容搜索引擎系統(tǒng)[J].軟件導(dǎo)刊.2010(4):121~122
[5]陳飔.企業(yè)競爭情報(bào)系統(tǒng)和競爭情報(bào)工作體系研究[J].中國信息界.2010(3):31~33