姚 凱,涂 平,陳宇新,蘇 萌
1 中央財經大學 商學院,北京 100081 2 北京大學 光華管理學院,北京 100871 3 上海紐約大學 商學部,上海 200122 4 北京百分點信息科技有限公司,北京 100101
探究基于多源大數據的個性化推薦系統對消費者購物行為的影響。為了建立推薦系統與消費者購物行為之間的因果關系,采用實地實驗有效地避免傳統研究方法存在的內生性問題,并具有較好的外部有效性。一方面,基于內部數據和外部數據構造解釋性變量,探究內部數據特征和外部數據特征與推薦效果之間的關系;另一方面,通過檢驗消費者特征與內外部數據的推薦效果間的交互效應,進一步分析外部數據和內部數據的推薦效果如何隨消費者的特征變化,幫助企業更好地利用多源大數據提升推薦效果。
研究結果表明,基于內部數據的推薦系統能夠顯著提升消費者點擊個性化推薦商品的概率,可以降低消費者決策時間,激勵消費者瀏覽更多的商品。外部數據的推薦效果不僅與外部公司網站的用戶數量相關,也會受到外部網站與當前網站的關聯程度的影響。消費者特征對基于內部數據和外部數據的推薦效果起調節作用,如果消費者是當前網站的老用戶,利用該消費者在當前網站的內部數據提供個性化推薦的效果更佳。
通過分析基于多源大數據的推薦效果對消費者購物行為的影響,進一步完善個性化推薦領域的理論框架。研究結果對如何利用多源數據構建更加有效的推薦系統具有重要指導價值,并為不同網站之間的數據共享機制提供重要的管理建議。
個性化推薦系統已成為各大電商平臺向消費者提供個性化購物體驗的重要工具之一,超過77%的電商平臺會對消費者的歷史信息進行分析,估計消費者購物偏好并提供個性化推薦服務[1]。電商通過個性化推薦系統,一方面可以提高消費者的轉化率,另一方面能夠提升消費者滿意度和忠誠度[2-3]。大數據時代,消費者除在當前網站上的消費信息外,可能在其他網站也存在大量購物信息。特別是當新的消費者在當前網站上沒有任何歷史信息時,他們在其他網站的偏好信息就顯得尤為重要[4]。即便消費者在當前網站沒有歷史數據,電商也可以利用他們在其他網站的數據估計消費者購物偏好,提高當前網站推薦商品的準確性。
然而,由于電商之間存在相互競爭或需要保護用戶隱私,外部電商通常不愿意將消費者的數據分享給當前電商。就本研究所了解的,目前還沒有利用消費者在其他電商的網購數據為當前電商網站提供個性化推薦的實證研究。本研究主要探討一種新型的推薦系統對消費者購物行為的影響效果,該系統能夠使用消費者在當前電商網站的內部數據(簡稱內部數據)和其他電商網站的外部數據(簡稱外部數據),為他們在當前網站購物過程中提供個性化商品推薦服務。本研究通過實地實驗探索該推薦系統對消費者購物行為的影響,可以有效地避免傳統研究方法存在的內生性問題以及缺乏外部有效性的缺點[5]。該研究基于消費者在當前網站和外部網站的多源大數據進行建模分析,不但能夠探究內部數據和外部數據中影響推薦效果的主要因素,而且完善了推薦系統如何影響消費者購買過程的理論體系,相關結論對電商的個性化營銷和公司間制定數據共享策略具有重要的指導意義。
本研究探討的個性化商品推薦屬于個性化營銷的研究范疇,已有大量關于個性化營銷的研究主要關注公司與消費者之間個性化互動的效果。ANSARI et al.[6]提出一種優化方法對郵件的布局和內容進行個性化變化,以提高消費者點擊郵件中鏈接的概率;SIMESTER et al.[7]研究發現,發送郵件的頻率對點擊率的影響隨消費者特征的不同而發生變化;SAHNI et al.[8]發現,促銷郵件確實能夠提高消費者的總消費金額,但大部分的收入不是來自促銷券,而是由于促銷郵件為公司產品起到了一種廣告效果,進而提高了消費者的消費金額。與個性化郵件類似,在線精準廣告也主要是通過分析消費者數據,為他們推送個性化的廣告,以吸引他們打開廣告鏈接并跳轉到對應的網站去購買產品或者服務[9-10]。廣告主可以將消費者的行為數據或者商品信息整合到個性化廣告系統中,提升廣告效果[11]。商家不僅可以通過在一個網站上打廣告提高營業收入,還能通過廣告聯盟的方式獲得新的消費者或保留現有的消費者[12]。本研究與個性化郵件或個性化廣告的最大區別在于,這兩種個性化營銷方式都是在消費者離開商家的網站后為消費者展示郵件或廣告。個性化郵件在消費者離開商家網站后,通過郵件中的鏈接將消費者重新跳轉到商家網站。在線精準廣告是消費者離開電商網站后,當他們訪問其他網站(如新聞網站、社交媒體網站)時為他們顯示之前在電商網站瀏覽的商品鏈接,以此跳轉回原電商網站[13]。而個性化推薦系統只為當前正在訪問電商網站的消費者提供決策支持服務,并且推薦的內容都是電商網站上自己銷售的商品[14]。
早期關于個性化推薦的研究主要關注對個性化推薦算法的改進,張莉等[15]對協同過濾算法進行改進,取得比傳統的基于用戶的協同過濾算法更優的推薦效果。為了深入了解推薦系統對消費者購物行為的影響,SENECAL et al.[16]通過實驗室實驗發現,推薦系統的有效性受到產品類型和網站間相對獨立性的影響。然而,這種實驗室實驗的方法得到的研究結果存在多方面的局限性,外部有效性較低,很難在實際應用環境中得到一致的結果。此外,部分研究在分析推薦系統的作用時,屏蔽控制組中消費者瀏覽網頁中的推薦欄,造成研究結果出現偏差,因為推薦效果可能是由于是否在推薦欄區域顯示商品導致,而不是個性化推薦系統產生的影響[17]。PASSANT[18]使用關聯數據(多源數據)提高消費者的購物體驗。但這種關聯數據需要采用統一的協議進行存儲,很少有商業公司采用這種協議[19],外部有效性較低。為了避免前人研究中存在的不足,本研究通過實地實驗探究個性化推薦系統對消費者購物行為的影響,提高研究結果的外部有效性。同時,利用消費者在當前網站的內部數據和其他網站的外部數據為消費者提供個性化推薦服務,結合消費者行為理論深入探究該類推薦系統對消費者購物行為的影響。
整個網購過程中,消費者會在多個階段響應電商網站上的個性化刺激,包括注意過程、認知過程、決策結果[20]。前人研究主要通過實驗室實驗探究推薦系統對消費者購物行為的影響,但在實際應用過程中外部有效性較低[17,21]。本研究基于消費者行為學相關理論,通過實地實驗對推薦系統的效果進行實證分析。自我是心理學的一個基本概念,并在該學科已被廣泛研究[22]。自我的一個重要性質是自我參照效果,主要指人們對信息進行編碼的結果取決于自我會多大程度在信息中得到暗示[23]。它有利于人們將記憶編碼得更加精細,并且更容易檢索出來。在本研究的個性化推薦中,自我參照指消費者以前在該網站的購物經驗,這類信息在消費者記憶中能夠長期被獲取。BARGH[24]通過研究發現,人的注意力會自發地關注與自我相關的信息。由于自我參照具有容易檢索的性質,使消費者對自我參照相關的回憶速度更快[25]。因此,如果網頁個性化內容與自我相關,將降低消費者的搜索成本,消費者花費在決策上的時間會較少。相對于普通的商品,個性化推薦系統推薦的商品主要基于消費者的歷史購物數據,與消費者的自我相關程度更高。為了研究推薦系統對消費者購物行為的影響,已有研究中將屏蔽推薦欄的實驗組設定為控制組[17],這樣無法判斷是否是由于推薦欄這一網頁元素導致不同組中消費者購物行為的差異。因此,本研究在控制組采用隨機推薦的方式,在網頁同樣位置顯示同樣數目的商品,避免結果出現偏差。基于自我參照理論,本研究提出假設。
H1a與隨機推薦商品的方式相比,利用消費者的內部數據推薦個性化商品可以達到更高的點擊率。
H1b與隨機推薦商品的方式相比,如果消費者看到的商品是基于內部數據推薦產生的,他們花費在決策上的時間更短,點擊推薦商品的速度更快。
除自我參照會影響消費者購物過程外,商品間的差異性也會影響消費者的決策過程[26]。如果消費者連續瀏覽的商品之間的吸引力差異越小,他們終止當前的搜索行為的可能性就會越低。本研究中,推薦系統利用消費者歷史數據推薦與消費者偏好相似的商品,這些商品之間的吸引力比較接近[27]。因此,消費者在存在個性化推薦商品的情況下,吸引力相似的商品會造成消費者搜索更多的商品。此外,已有研究表明,商品間差異性較小的情況下,消費者難以得到他們比較喜歡的商品,并造成選擇延遲[28]。因此,本研究提出假設。
H2與隨機推薦商品的方式相比,消費者在推薦系統協助下會瀏覽更多基于內部數據產生的個性化網站內容。
除了自身內部數據源外,如果公司能從其他公司獲取消費者的偏好信息,那么該公司將會獲得更全面的消費者偏好,并提供更好的精準營銷服務[29]。大量研究表明,不同公司間的營銷活動存在相互影響。以此為基礎,本研究主要探究利用外部數據在公司網站上提供個性化推薦服務如何影響消費者在當前公司的購物行為。CHEN et al.[30]的研究表明,如果公司與競爭對手之間共享消費者數據,將會同時提高兩個公司獲得消費者的能力,形成雙贏。消費者觸及能力較弱的小公司也能在分享數據的過程中獲利。JENTZSCH et al.[31]認為,外部數據的有效性取決于數據類型和消費者的偏好。本研究中,基于外部數據的推薦系統的效果與外部公司的自身特征以及當前公司與外部公司之間的關系密切相關。本研究利用公司擁有的消費者數量衡量公司的市場影響力,公司的市場影響力越大,消費者在網購過程中感知的風險越低,并且消費者對該公司的忠誠度也越高[32]。消費者對公司的忠誠度越高,購買該公司商品的概率也越高,即該公司的內部數據更能夠反映消費者偏好[33]。如果消費者來自市場影響力大的外部公司,由于他們對于外部公司的忠誠度較高,所以消費者點擊當前網站商品的概率較低。但消費者在外部公司的歷史數據能夠更好地代表消費者的購物偏好,如果當前網站利用這類消費者在外部公司的歷史數據來為他們提供個性化推薦服務,他們點擊個性化推薦商品的概率更高。因此,本研究提出假設。
H3根據外部公司市場影響力特征,如果消費者數據來自市場影響力較大的外部公司,那么消費者點擊當前網站上商品的概率較低。但如果利用他們在外部公司的數據提供個性化推薦服務,消費者點擊個性化推薦商品的概率較高。
外部數據的推薦效果,除與外部公司的特征緊密相關外,外部公司與當前公司之間的關聯度也會影響最終推薦效果。WANG et al.[34]認為,公司之間如果具有較強的網絡效應,消費者在不同公司間的購買行為會相互影響。本研究使用兩個公司之間的共同用戶數量表示公司間的關聯度,如果兩個公司之間的關聯度越高,即兩個公司之間存在大量共同用戶,那么兩個公司為消費者提供的商品或服務相似[35]。如果消費者來自關聯度較高的外部公司,由于當前網站提供的商品或服務與他之前瀏覽的網站內容相似,那么當前網站能夠提供與該消費者之前偏好接近的商品。在這種情況下,消費者點擊當前網站上商品的概率較高。但如果使用該消費者在外部網站的歷史數據提供個性化推薦服務,該消費者點擊由此產生的推薦結果的概率反而較低。由于消費者是離開關聯度高的外部網站后來到當前網站,表明該消費者并不滿意外部網站的商品。而當前網站與外部網站關聯度高,如果再用該消費者不喜歡的偏好信息推薦商品,消費者對推薦結果的點擊率會比較低。根據當前公司與外部公司間的關系,本研究提出假設。
H4如果消費者來自與當前網站關聯度高的外部公司,他們點擊當前網站商品的概率較高。如果利用他們在外部網站的數據提供個性化推薦服務,消費者點擊由此產生的個性化推薦商品的概率較低。
個性化推薦是過去20年中計算機科學領域發展出來的一個熱門研究話題。然而,已有推薦系統的研究工作主要集中在開發和評估不同的個性化推薦算法,以此為消費者產生個性化的商品建議[36-37]。考慮到各種個性化算法的有效性和流行程度,一種簡單而被廣泛使用的推薦系統分類方法是將推薦算法分為基于內容的推薦方法和基于協同過濾的推薦方法。基于內容(content based, CB)的推薦系統利用產品信息(如商品名、書籍作者等)推薦與消費者的偏好類似的其他商品。基于內容的推薦系統在媒體或音樂這類網站被廣泛應用,因為其中的商品具有大量的信息[38],如Reel.com。與基于內容的推薦方法相對立的是協同過濾方法(collaborative filtering,CF),該方法不依賴于產品的屬性信息,而是利用其他消費者的偏好信息識別當前消費者有可能購買的商品[39-40]。具體地,有兩種協同過濾方法,即基于商品的協同過濾和基于用戶的協同過濾[41]。本研究采用基于用戶的協同過濾算法提供個性化推薦服務,該方法的核心思想是利用消費者的購物歷史信息計算用戶間的相似度,然后根據與當前消費者比較相似的其他消費者的偏好信息估計當前消費者可能喜歡的商品,進而為當前消費者生成個性化推薦商品。考慮到推薦系統的推薦過程較為復雜,為了使讀者更好地了解推薦系統,本研究對個性化推薦產生過程和實驗設計進行簡要描述。

圖1 亞馬遜網站的推薦欄Figure 1 Recommendation Bar of Amazon
通常情況下,消費者在網站推薦欄內看到的個性化推薦商品主要通過3個階段得到。第1階段,推薦請求階段,當消費者打開網頁時,網頁中的腳本將為消費者發送個性化商品推薦請求到服務器端的推薦系統。第2階段,推薦商品產生階段,推薦系統接收到請求之后,根據消費者的偏好信息產生推薦結果并將結果返回剛才打開的網頁。第3階段,推薦曝光階段,推薦系統產生的個性化產品展示在網頁的推薦欄中。例如,圖1給出亞馬遜商品信息頁,消費者在瀏覽商品信息的同時,系統在商品下方會推薦消費者可能喜歡的其他商品。本研究中,受屏幕大小的限制,實驗中的消費者只看到產品的描述信息,而看不到推薦欄。只有當消費者向下滑動網頁時,推薦欄才會出現在消費者視野中。為了記錄消費者是否看到推薦欄,網頁中的JavaScript腳本會在推薦欄出現在消費者視野時發送一條信息到服務器,記錄推薦欄的曝光情況。如果消費者在購物過程中沒有看到推薦欄,那么推薦系統對消費者的購買行為不產生影響。最后是消費者響應階段,當消費者看到推薦欄中的商品后,他們可以選擇點擊喜歡的商品或瀏覽網頁中的其他商品。如果消費者點擊了推薦欄中的商品,他們將跳轉到商品介紹頁,并瀏覽該商品的詳細信息。消費者可以購買他們喜歡的商品或離開該網站,消費者的每個行為信息都會被記錄到服務器,每條記錄中包含了商品特征和時間戳等信息。
為了得到推薦系統影響消費者購物行為的因果關系,本研究采用實地實驗探究推薦系統對消費者購物行為的影響,避免實驗室實驗缺乏外部有效性等問題。本研究使用Cookie ID標識每個消費者,使用Cookie的好處之一是即便消費者沒有用自己的賬號登陸網站,推薦系統依然可以通過匿名的方式識別他們的歷史信息和偏好。此外,Cookie不包含消費者的任何人口統計學信息(如姓名、住址等),有利于保護消費者隱私。本實驗部署在一個賣包的電商網站,該網站在實施實驗前1個月平均每天有83 000位不同消費者在網站上產生20萬次的點擊行為。實地實驗部署在網站首頁,可以有效地控制內生性問題。因為實驗中的推薦系統實時為消費者提供個性化推薦商品,一旦消費者在當前購物過程中瀏覽過任何商品信息,消費者的偏好便會被更新,后面看到的推薦商品也會隨之發生改變。所以,本研究將實驗控制放在首頁,能夠在消費者還沒有看過任何商品信息的情況下就使用歷史數據為他們提供商品推薦。除了使用消費者在當前網站的內部數據提供個性化推薦服務外,本研究還使用消費者在其他8個賣包網站的數據為消費者在當前網站產生個性化推薦商品。由于外部網站數據量較多,為了保證推薦速度,實驗過程中,推薦系統只利用消費者最近一次購物的網站數據提供個性化推薦服務。圖2給出實驗期間在外部8個網站上存在消費歷史數據的消費者數量,縱軸用對數刻度表示不同網站的人數,可以看到,來自第7個網站的消費者最多,共1 851人,而來自第5個網站的消費者最少,僅有41人。
當消費者訪問網站首頁時,他們被隨機分配到不同的實驗組中,本研究通過設置不同組中推薦系統使用的推薦算法操控實驗。實驗中,消費者被隨機分為3組,每組中的推薦欄大小和位置相同,區別是推薦欄內顯示的商品是根據不同的推薦規則產生。圖3為實驗設計示意圖,第1組為隨機組,該組中消費者看到的推薦結果使用隨機算法產生,即不使用個性化推薦。第2組中展示給消費者的推薦結果由協同過濾算法產生,主要利用消費者在當前網站的內部數據。第3組中,消費者看到的個性化推薦結果通過基于內容的推薦方法產生,主要利用消費者在其他網站的外部數據。由于3個組中的推薦結果同時受數據源和推薦方法的影響,為了便于理解,下面對每個實驗組中使用的推薦規則和數據源進行詳細描述。
(1)隨機組。該組為實驗中的第1組,也是該研究的控制組,該組中的推薦系統隨機選擇10個熱門商品推薦給消費者,每次出現的商品和順序都不一樣。在正式開展實地實驗前,本研究做了1次準實驗,結果表明這種隨機推薦的方法比按照商品熱門程度推薦的方法效果好,而后者正是該網站以前推薦商品的慣用方式(按照商品熱門程度推薦,是按商品銷量排序,向消費者推薦前10個商品,短期內所推薦的商品和順序不變)。本研究將該組作為控制組,以此減少該實驗對公司造成的損失。與已有研究中屏蔽控制組推薦欄的方式不同[17],本研究將隨機組作為控制組能夠排除是否顯示推薦欄這個網頁元素導致推薦效果的差異,最終得到推薦系統的真實作用。
(2)內部數據組。第2個實驗組中,本研究利用消費者在當前網站的內部數據產生個性化推薦結果,采用協同過濾算法。首先根據消費者的歷史購物數據計算消費者之間的相似度,然后利用其他消費者的偏好信息估計當前消費者可能喜歡的商品,進而為當前消費者推薦商品。如果消費者是第1次訪問當前網站(即在當前網站不存在任何歷史數據)或協同過濾算法無法產生足夠的推薦商品,推薦系統將利用第1組中使用的隨機推薦的方法補充推薦結果,以保證不同實驗組中推薦欄內顯示的商品數量相等。
(3)外部數據組。第3個實驗組中,推薦系統主要基于消費者在其他網站的外部數據產生個性化推薦商品,采用基于內容的個性化推薦算法。由于不同網站間消費者不同,不能對消費者的外部數據使用協同過濾算法。因此,本研究利用消費者在外部網站的數據提供個性化推薦時,使用基于內容的推薦算法為消費者在當前網站提供個性化服務。基于內容的推薦算法利用消費者在外部網站瀏覽的商品屬性信息(如類別、品牌或名稱)推薦當前網站上類似的商品。如果當前網站上沒有找到相似的商品,借鑒第2組的解決方法,使用隨機推薦的方法對推薦結果進行補充,保證各組中推薦欄內顯示的商品數量相等。

表1 樣本描述性統計結果Table 1 Descriptive Statistics Results for Samples
本研究中的實地實驗由一家提供推薦服務的第三方公司配合完成,該公司為超過1 000家在線零售商提供過推薦系統服務。目前,已有約6億個Cookie和超過300 TB(1 TB=1000 GB)的數據存儲在基于Hadoop分布式文件系統服務器。由于本研究中的數據量很大,為了有效地節省構造變量的計算時間,使用數據倉庫管理工具Hive提取和構造分析中需要的相關變量,分布式地使用數百臺服務器同時完成計算任務,使需要很多天才能完成的計算任務縮減到幾個小時。
從2014年8月29日至2014年9月5日,實驗在網站首頁持續開展8天,為了減小實驗對電商造成的負面影響,實驗過程中將該網站總用戶的20%隨機分配到3個實驗組中,其他用戶繼續使用網站原有的推薦規則。如實驗設計中所述,每位消費者登陸到網站后會被隨機分配到3個實驗組中,以此避免樣本選擇偏差。如果消費者在試驗期間多次訪問網站,該消費者會被分配到之前的組中。然后,系統會記錄每位消費者在網站的所有行為信息,保存到Hadoop數據倉庫中。實驗中采集的數據主要由3個數據集構成,第1個是產品信息數據集,包含每個產品的詳細信息,如產品ID、類別、品牌、名稱和價格等。第2個是點擊流數據集,記錄消費者的每個在線行為,如瀏覽和購買行為。第3個是實驗控制數據集,包含每個消費者被分配到的實驗組的具體信息,以此保證消費者如果在實驗期間再次返回網站,仍然會被分配到之前的實驗組。在對消費者行為分析和建模過程中,可以使用每個數據集的關鍵字將3個數據集整合起來構造相應的變量。例如,假設想得到每次會話期間每位消費者的點擊行為,可以將實驗控制數據集和點擊流數據集通過消費者的Cookie ID和會話ID進行整合,這樣就可以知道消費者每次會話內的點擊行為。如果希望比較不同實驗組中每一位消費者瀏覽或購買了多少產品,可以將這3個數據集合并,以滿足分析需求。詳細的變量構建過程參考3.2。
盡管有些消費者向服務器發送了推薦請求,但他們的網絡購物行為存在異常,如果忽略他們的影響,對推薦系統效果分析將會出現估計偏差。首先,部分消費者雖然登錄了網站,但服務器上只有推薦請求的數據,而沒有推薦結果被展示的數據,因為這些消費者在網頁完全打開之前就關閉了瀏覽器。其次,很多消費者是通過搜索引擎登陸到當前網站,可能除了當前網站還有很多同類網站吸引消費者,導致部分消費者打開當前網站后,沒有點擊任何商品就離開了當前網站。最后,在實驗期間,有些消費者可能再次回到當前網站,但他們上一次的網購數據會影響下一次購物的推薦結果。從DIAS et al.[2]的研究可知,推薦系統不僅提高了電商的收入,同時也刺激消費者再次返回網站。如果忽略該影響,將會錯誤地估計推薦系統對消費者購物行為的真實影響。

然而,表1中的描述性統計結果無法清楚地解釋使用不同數據源的推薦系統與消費者的購物行為之間的因果關系。因此,本研究基于消費者在當前網站和8個外部網站的數據構建解釋變量,對消費者網購行為進行建模,深入剖析推薦系統如何影響消費者購買行為。
為了更好地了解本研究中的數據結構,圖4舉例給出消費者在購物過程中產生的點擊流數據。為了深入探究推薦系統對消費者購物行為的影響,本研究對點擊流數據進行處理,構建下列變量用于建模分析。

注: H為首頁,C為點擊推薦欄,P為產品頁,O為訂購,E為退出。
①顯示,0-1變量,表示消費者是否能夠看到推薦欄,如果消費者能看到推薦欄,取值為1,否則取值為0。
②點擊,0-1變量,用來測量推薦系統有效性的主要因變量,如果消費者點擊了推薦欄,取值為1,否則取值為0。
③老用戶,0-1變量,表示消費者是否為當前網站的老用戶,如果用戶是老用戶,取值為1,否則取值為0。
④商品數量,測量消費者在網購這段時間內瀏覽過多少個不同的商品。
⑤點擊速度,表示從消費者看到推薦欄到點擊它之間等待的時間,消費者可能在一次購物過程中多次看到推薦欄,點擊速度計算的是從消費者看到推薦欄開始至消費者最近一次點擊推薦欄的時間。因此需要對圖4中點擊數據流進行拆分,得到該變量精確的測量值,這也是本研究用Hadoop集群進行數據處理的重要原因之一。
為了判斷哪些因素影響推薦系統的有效性,本研究利用當前網站的內部數據和外部網站的數據構建以下解釋變量。
①外部用戶,0-1變量,表示消費者是否同時是外部網站的用戶。如果該用戶同時是外部網站用戶,取值為1,否則取值為0。
②最近訪問時間,表示消費者最近一次訪問當前網站到現在的時間長度。
③訪問頻率,用消費者訪問當前網站的天數表示訪問頻率。
④外部公司影響力,表示外部公司的市場影響力,本研究用外部網站的用戶數量測量,為了避免該變量的估計系數太小,統計結果為真實人數除以1 000。
⑤外部公司關聯度,表示當前公司與外部公司之間關聯程度,用兩個公司的共同用戶數量表示,為了避免該變量估計系數太小,統計結果為真實人數除以1 000。
⑥第i組,表示消費者被分配到第i個組中,本研究中的i取值范圍為1、2、3,分別對應隨機組、內部數據組和外部數據組。在建模過程中,分別用啞變量隨機組、啞變量內部數據組和啞變量外部數據組表示消費者屬于哪個組,用戶屬于該組取值為1,否則取值為0。
⑦星期幾,分類變量,用來指示當天是一周內的星期幾。
⑧小時,表示消費者在一天的具體訪問小時數。
表2給出相關變量的描述性統計結果,以消費者每次會話為單位統計消費者購買行為特征。由表2可知,消費者看到推薦欄的概率均值為0.637,并且所有消費者點擊推薦欄的概率均值為0.018,如果可以將消費者看到推薦欄的概率提高一點,相對于原來的情況,可以在很大程度上提高消費者點擊推薦欄的概率。平均只有0.156的用戶在當前網站存在歷史數據,即如果可以使用消費者的外部數據提供個性化推薦,將有很大一部分在當前網站沒有歷史數據的消費者可以從中受益。從消費者的購物特點可知,消費者平均瀏覽的商品個數為3.435個,停留795.680秒。其中,只有0.109的用戶存在外部數據,如果能夠獲取更多外部網站的數據,擁有外部數據的人數將更多。老用戶平均最近購買時間為34.731天,平均訪問4.137次。外部公司的平均用戶數量為1 385 945人,外部網站與當前網站的平均共同用戶數量為6 627人。

表2 變量描述性統計結果Table 2 Descriptive Statistics Results for Variables
推薦系統的主要作用是協助消費者購買,為他們推薦與之偏好相關的商品。BARGH[24]認為,人的注意力會自發地關注與自我關聯的信息。由于推薦系統的協助,消費者看到的推薦商品與他們的偏好緊密相關,這樣可以縮短消費者決策時間,他們會在較短的時間內給予反饋[17]。本研究中,消費者的點擊速度通過消費者看到推薦欄至消費者點擊個性化推薦商品之間的時間測量。由于在一次購物過程中,消費者可能多次點擊推薦欄,并且前一次點擊結果可能會影響下一次推薦結果。為了避免內生性問題,本研究僅測量消費者在一個購物會話中第一次看到推薦欄的反饋時間。
圖5給出隨機組和內部數據組中消費者看到推薦欄中商品后的響應速度,縱軸表示消費者從看到推薦欄到點擊推薦欄的時間,單位為秒。隨機組(控制組)的平均響應速度為106.024秒,比內部數據組的平均響應速度(84.469秒)更長,并且兩組之間的響應速度存在顯著差異,p<0.010。由于內部數據組中的個性化推薦系統根據消費者歷史數據推薦商品,與消費者自我相關程度高,使消費者點擊推薦欄的響應時間更短。因此,H1b得到驗證。

圖5 響應速度分析結果Figure 5 Analysis Results for Response Speed
商品間的差異性也會影響消費者的決策過程,如果連續瀏覽的商品之間的吸引力差異較小,消費者需要找更多的商品進行對比,終止搜索過程的概率更低。本研究中,與控制組中隨機產生的推薦結果相比較,內部數據組中使用個性化推薦算法產生與消費者偏好接近的商品,所以推薦商品之間的差異性較小。因此,消費者看到含有個性化推薦商品的推薦欄時,比較難選出自己最喜歡的商品,所以他們會比較更多的商品。圖6給出消費者瀏覽商品數量的分析結果,縱軸為消費者瀏覽商品的數量。由圖6可知,在沒有點擊推薦欄內商品的情況下,內部數據組消費者瀏覽的商品數量為2.503,隨機組消費者瀏覽的商品數量為2.597,且兩組均值差異不顯著。然而,當兩組消費者點擊推薦欄中的商品后,如果他們點擊的商品是相似度較高的個性化推薦結果,內部數據組消費者會顯著地比隨機組消費者瀏覽更多的商品,瀏覽的商品數量分別為7.455和6.572,p<0.010。因此,H2得到驗證。

圖6 商品數量分析結果Figure 6 Analysis Results for Number of Products
除了研究基于內部數據的推薦系統如何影響消費者的購物行為,本研究也分析基于消費者外部數據的推薦系統對他們在當前網站上購物行為的影響。表3給出基于外部數據的推薦系統對消費者購物行為的影響,因變量為消費者點擊推薦商品。模型1檢驗使用外部數據對推薦商品點擊率的影響,模型2檢驗外部公司特征對外部數據推薦效果的影響,模型3在模型2的基礎上加入外部公司特征與外部數據組的交互項,檢驗外部公司特征對消費者點擊率的影響。由模型1可知,外部數據組的系數為0.079,p<0.010,表明利用外部數據為消費者提供個性化推薦,能夠顯著提高消費者點擊推薦欄的概率。模型2中外部公司影響力的系數為-0.0003,p<0.100,即如果消費者來自市場影響力大的外部公司,他們點擊當前網站商品的概率較低。該結果可能的解釋是,若外部公司具有較高的市場影響力,消費者對該企業的忠誠度更高,即他們選擇外部公司商品的概率更高,而點擊當前網站上商品的概率較低。此外,外部公司關聯度的估計系數為0.064,p<0.100,表明如果消費者來自與當前網站的公司關聯度較高的外部網站,他們點擊當前網站商品的概率較高。該結果的一種解釋為,由于外部網站的公司與當前網站的公司關聯度高,當前網站提供的商品與之前瀏覽的外部網站內容相似。既然消費者對外部網站的內容感興趣,他們也很可能對當前網站的商品感興趣。因此,如果消費者來自與當前網站關聯度高的外部網站,他們在當前網站點擊商品的概率較高。

表3 外部數據推薦效果分析結果Table 3 Analysis Results of Recommendation Effectiveness for External Data
與模型2的結果相比,模型3中相同變量的估計系數符號保持一致。外部公司影響力與外部數據組的交互項系數為0.001,表示如果使用來自具有較高市場影響力的外部公司數據在當前網站為消費者提供個性化推薦服務,有利于提高推薦系統推薦的商品的點擊率。雖然該結果與假設一致,但統計指標不顯著,H3部分得到驗證。外部公司關聯度與外部數據組的交互項系數為-0.120,p<0.100,表明如果推薦系統使用消費者在關聯度高的外部網站數據產生個性化推薦商品,消費者點擊推薦的概率反而較低。導致該結果的一種解釋為,既然消費者已經離開了與當前網站相似的外部網站,說明外部網站的商品沒有滿足他們的偏好。倘若當前網站仍然使用消費者不滿意的商品信息推薦商品,他們點擊推薦欄的概率會較低。結合模型2中外部網站關聯度的估計結果可知,H4得到驗證。
為了深入探究個性化推薦系統效果的影響因素,本研究利用Probit模型對消費者的點擊行為進行建模,表4給出分析結果,因變量為消費者點擊推薦欄。模型4中僅包含消費者分組信息,檢驗使用不同數據對推薦效果的影響,可以發現,內部數據組和外部數據組消費者點擊推薦欄的概率顯著高于沒有個性化推薦服務的隨機組消費者。相對于隨機為消費者推薦商品這一常用的策略,利用消費者內部數據和外部數據都能顯著提高消費者點擊個性化推薦商品的概率。因此,H1a得到驗證。模型5控制了星期幾和小時的固定效應,與模型4相比發現,內部數據組的系數為0.228,外部數據組的系數為0.078,即內部數據組的推薦效果整體優于外部數據組。如表1所給出的,內部數據組與外部數據組的點擊率分別為3.724%和2.668%,p<0.010。從表2外部用戶的統計結果可知,僅有10%左右的用戶有外部數據。所以,盡管使用外部數據推薦的效果比隨機推薦的效果好,但比使用內部數據推薦的效果差。
模型6加入消費者特征變量(僅有老用戶的相關數據),檢驗推薦系統對不同消費者購物行為的影響差異,老用戶的系數為0.372,p<0.010,即老用戶比新用戶點擊個性化推薦商品的概率更高。該結果表明,老用戶在網站上存在歷史信息,可以用來估計他們的購物偏好,提供更準確的推薦結果。最近訪問時間的系數為-0.001,p<0.050,表明如果消費者離開網站很長一段時間,他們點擊推薦商品的概率較低。訪問頻率的系數為-0.002,表明如果消費者訪問頻次太高,點擊推薦欄的概率會更低。一種可能的解釋是,這類消費者對網站布局比較熟悉,能夠自己找到想要的商品,而不需要推薦欄,所以他們點擊推薦商品的概率較低。為了探究什么情況下內部數據與外部數據的推薦效果有所差異,模型7將內部數據組作為控制組進行建模分析,探究消費者異質性如何影響不同數據源的推薦效果。可以發現,外部數據組的估計系數為-0.093,p<0.010,說明外部數據組消費者比內部數據組消費者點擊個性化推薦欄的概率低;在模型中加入老用戶與外部數據組的交互項,其系數為-0.219,p<0.010,表明如果消費者是當前網站的老用戶,使用他們的外部數據提供個性化推薦服務,點擊推薦欄的概率較低。因此,公司在個性化實踐過程中需要考慮消費者異質性,結合數據源和用戶特征提供更精準的個性化推薦服務。
本研究通過實地實驗,探究基于內部數據和外部數據的個性化推薦系統對消費者購物行為的影響。一方面可以避免傳統實驗室研究中外部有效性低的問題,另一方面可以得到推薦系統與消費者購物行為之間的因果關系。
(1)根據消費者在網站的內部數據為消費者產生的個性化推薦商品與消費者自我相關程度高,因此消費者點擊由此產生的推薦商品的概率比隨機推薦的商品更高。由于消費者的注意力會自發關注與自我相關的內容,花費在決策上面的時間會更短,所以消費者點擊個性化推薦的速度會更快。

表4 消費者點擊行為分析結果Table 4 Analysis Results for Consumers′ Click Behaviors
(2)基于內部數據推薦的個性化商品之間差異較小,消費者需要對比更多的商品才會停止搜索過程。因此,為消費者提供個性化推薦的情況下,消費者會瀏覽更多的商品。
(3)外部數據對消費者的推薦效果與外部公司的市場影響力密切相關,如果外部公司的消費者數量比較多,這類公司的消費者在當前網站點擊商品的概率相對較低。
(4)基于外部數據的推薦系統的效果與外部公司網站與當前公司網站之間的相互關系有關,如果外部公司網站與當前公司網站存在大量共同用戶,來自這類外部公司的消費者在當前網站點擊的概率較高,但假如利用他們的外部數據產生個性化推薦,消費者點擊推薦商品的概率反而更低。
(5)消費者特征對基于內部數據和外部數據的推薦效果起調節作用。具體而言,不管是利用內部數據還是外部數據,消費者點擊推薦商品的概率都會高于采用隨機推薦的結果。但如果消費者是一位老用戶,利用該消費者在網站的內部數據提供個性化推薦服務取得的效果優于利用他的外部數據推薦個性化商品的效果。
大量的已有研究通過實驗室實驗探究推薦對消費者行為的影響,以此得到的研究結果外部有效性較低,實際應用中容易出現偏差。本研究在實地實驗過程中,將登陸網站之后的消費者隨機分配到不同的實驗組。即使消費者多次訪問網站,依然將該消費者分配在同一實驗組內,避免結果出現偏差。已有利用多源數據構造推薦系統的研究主要關注推薦算法的改進,沒有探索推薦系統對消費者購物行為的影響。并且外部數據必須滿足一定格式要求,很難在實際應用中推廣。本研究通過從內部數據和外部數據中構造變量,解釋基于不同數據源的推薦系統如何影響消費者的購物行為,一方面對前人實驗室實驗得出的結論進行驗證,另一方面通過分析外部公司特征如何影響基于外部數據的推薦系統的效果,填補個性化推薦研究在這方面的空白。此外,通過分析消費者特征對不同數據源的推薦效果的調節作用,進一步完善個性化推薦領域消費者行為的理論框架。
目前雖然很多電子商務公司都為消費者提供個性化推薦服務,但尚不清楚個性化推薦如何影響消費者的網購行為。依靠經驗或簡單的統計數字判斷個性化推薦的作用,很可能會高估或低估個性化推薦的真實作用。本研究通過解決分析中存在的估計偏差,可以使公司改進現有對推薦效果的統計指標,掌握推薦系統的真實效果。一方面,在評估推薦效果時,需要過濾異常用戶和沒有看到推薦欄的用戶,否則會低估推薦效果。另一方面,消費者多次訪問網站的情況會導致公司高估推薦系統的效果。此外,將消費者特征引入模型分析推薦系統對消費者購物行為的影響,可以幫助公司進一步完善個性化推薦算法。在設計推薦系統時考慮消費者訪問習慣,訪問網站頻繁的用戶點擊推薦欄的概率反而偏低,這類用戶對于網站內容比較熟悉,可以不用依靠推薦系統就能找到自己需要的商品。
當公司希望利用外部數據提升精準營銷的效果時,本研究結果可以為公司在選擇外部數據和利用數據兩方面提供重要的指導。一方面,本研究在分析外部數據如何影響推薦系統效果的過程中加入外部公司特征,可以幫助公司明確外部公司數據的哪些特征對于提升自己個性化推薦服務的效果更好。公司在選擇外部數據時,不僅要看外部企業消費者的規模,還要看外部公司與當前公司之間的共同用戶數量。另一方面,假如公司之間需要進行數據交易,本研究結果可以對數據交易過程中的定價策略提供指導,定價時要考慮公司自身的數據特點,還要參考公司間的相互關聯程度,即一個公司的數據對于不同的公司作用也不同。此外,本研究通過分析消費者對不同數據源推薦效果的調節作用,可以幫助公司進一步改進推薦系統,根據消費者特征選擇恰當的數據源,以為消費者提供個性化推薦服務。
雖然本研究有上述多方面的貢獻,但也存在一些不足,需要在未來研究中改進。①本研究在一家網上賣包的電商實施實地實驗,一定程度上限制了研究結果的外部有效性。未來研究可以部署該實地實驗到其他行業的網站,如服裝或餐飲行業的網站,并與本研究結果進行對比,以發現不同行業特點對研究結果的影響。②本研究只使用經典的算法以避免由算法的特殊性帶來的系統性偏差,在實際的商業環境中,電商可以結合業務需求,使用更為復雜的推薦算法以獲得更高的性能。③為了避免實地實驗對電商造成較大的損失,本研究的實地實驗只持續了8天。未來可以開展更長時間的實驗,研究結果的魯棒性會更高。④由于本研究使用Cookie ID識別同一消費者在不同網站的網購行為信息,如果用戶使用多個終端設備(如手機、電腦)或多個瀏覽器訪問網站,會存在用戶的數據缺失,盡管這類用戶數量很少,但未來可以結合用戶登錄ID等方式,將同一消費者在不同設備或渠道的數據進行統一,獲取更全面的數據,分析推薦系統對消費者購物行為的影響。