多源數據融合方法及其在市場調查中的應用

2024-01-08 05:29:08王霄王小寧柴青慧蘇磊付曉東

統計理論與實踐 2023年12期

關鍵詞：融合

王霄王小寧柴青慧蘇磊付曉東

（1.央視市場研究股份有限公司，北京 100032；2.中國傳媒大學數據科學與智能媒體學院，北京 100024）

一、引言

市場調查設計一般要實現三個相互制約的目標：數據質量、實施效率和花費成本。市場調查設計的現實發展趨勢是追求三個目標間的最優路徑規劃和可持續發展平衡。當前，市場研究利用的調查方式均面臨著一些難以突破的瓶頸與痛點。譬如，基于樣本招募的在線可訪問樣組（Web Access Panel），以及基于微信群、公眾號、調研類App等社會化媒體（SocialMedia）的抽樣調查，能夠較為快速、高效、低成本地獲取大量、多樣性的樣本，但面臨樣本逐漸固化、職業化，問卷數據質量下降，以及非概率樣本實質上難以進行統計推斷的挑戰。互聯網大數據的抽樣調查，是基于覆蓋人群更廣泛、更豐富的運營商數據的概率抽樣調查，調查數據能夠實現對目標總體特征較為精準的推斷，包括可以實現下沉城市、高低年齡段、低滲透率消費品等目標人群的抽樣，但其通過大數據推送問卷調查的單位成本高，答題存在一定隨意性，有不可忽視的短板。

為了充分發揮概率抽樣對目標總體的代表性優勢和非概率樣本網絡調查便捷、低成本的優勢，市場研究行業越來越普遍的運用混合調查模式進行數據采集和研究。探尋一種能夠帶來成本和效率相互平衡、相互彌補、更高數據質量的調查模式成為整個行業關注的焦點。本文針對在線可訪問樣組，微信群、調研社區等社會化媒體的非概率樣本，以及運營商大數據抽樣框的概率樣本等多種來源數據進行混合抽樣調查的模式進行較為深入地探索和研究，包括多重抽樣框的編制、具體抽樣方案設計，以及通過傾向得分匹配、校準估計等問卷數據融合算法，實現概率-非概率樣本融合推斷目標總體特征，提升調查數據使用效率和數據質量。

同時，在理論研究的基礎上積極進行產品化實踐，綜合數據質量、實施效率和花費成本等關鍵因素，基于機器學習的多目標規劃算法搭建“全域用戶調研智能引擎”產品，實現多源數據資源最優組合和執行策略的智能化推薦，利用數字化手段重構調研流程，在確保數據質量的基礎上達到降本增效目的，為混合調查模式的實際應用和行業內推廣積累了較為豐富的經驗。

二、多源數據融合數據采集方法

目前，大量的在線調查仍是基于傳統的非概率抽樣調查，利用其對目標總體特征進行統計推斷通常會出現涵蓋誤差、樣本選擇性偏差等問題。因此，基于網民總體數據構建一個完善的抽樣框是在線調查抽樣的重要基石。互聯網及大數據背景下，數據信息更新速度快，調查對象變化頻繁，僅僅依靠單一數據來源建立完善、實時的抽樣框成本較高，難度較大，而且很難涵蓋目標總體。多重抽樣框則可以通過融合多個單一抽樣框來提高對目標總體的覆蓋度，從而實現概率抽樣、節約成本、提高效率。在具體的抽樣過程中，對多個抽樣框的融合可以完善數據的多樣性，增加樣本，在解決樣本動態變化問題的同時讓新增加的樣本進入抽樣框，從而大大降低更新數據帶來的成本。

基于此，本文嘗試探索和研究在大數據背景下通過融合在線可訪問樣組、社會化媒體和運營商大數據源等構建多重抽樣框，依據多重抽樣框的估計方法對抽取樣本數據的因果關系進行分析，探索調研數據背后隱含的變量間深層因果關系，剖析大數據時代抽樣技術的必要性和重要應用價值。

圖1 多重抽樣框設計及應用

（一）概率抽樣框編制

大數據背景下，電信運營商掌握的海量數據資源幾乎100%覆蓋總體網民，基于運營商數據的抽樣調查本質上屬于概率抽樣。直接對全量數據的大規模挖掘和分析會耗費巨大的人力、物力，因此，引入編制大規模概率抽樣框的方法可以提升處理效率、降低成本。探索如何利用這些數據構建科學的抽樣設計進行網絡調查和總體信息推斷，以及如何分析挖掘消費者潛在的行為模式尤為必要。

國家統計局每5年進行一次1%抽樣調查，對應抽樣誤差為0.26‰，獲得了精確度非常高的人口、經濟等指標的估算結果。在市場研究中，考慮滿足各類網絡抽樣調查和數據挖掘項目的樣本量需求，本文大數據概率抽樣框的編制規模約為1000萬，約占目前全國總網民的1%，對1000萬樣本的抽樣調查本質上可以實現概率抽樣和推斷目標總體。

對于全國各個城市抽樣框樣本的分配方案，在確定抽樣框規模（總樣本量m）的基礎上，計算各個城市分配的比例。按照等概率抽樣的原理，通常根據城市人口比例形式分配樣本量，但是考慮到經濟因素，確定樣本量比例時須同時考慮城市總人口、GDP、人均GDP，最終采用多指標加權方案計算抽樣框城市分配人數占比，部分城市最終分配結果見表1。

表1 部分城市樣本分配占比

抽樣框在基本屬性特征如性別、年齡上的樣本分配方案，需要先進行假設檢驗，判斷運營商數據與實際網民結構之間是否存在顯著性差異。然后根據檢驗結果，從數據源中抽取性別、年齡等具有代表性的樣本構建抽樣框，同時考慮參數估計時的權數問題。

（二）非概率抽樣框編制

在線可訪問樣組是在線調查最為依賴的樣本來源，受訪者均是通過招募來自愿參與各類市場調查項目的人群，大致規模在幾十萬到幾百萬不等。為了激勵樣本加入在線可訪問樣組，常常會采取一些激勵措施，比如提供一定的現金、禮品兌換券、抽獎機會等。

社會化媒體經歷了近幾年的高速發展，目前已在市場調查領域展現出了潛在應用價值，其社會化特性能夠以更低的成本吸引更多外部效度更高的受訪者。而某些平臺的實名制特性也能夠增強受訪者的信任水平，使其更用心地進行作答。目前社會化媒體調查方式包括微信群、公眾號、手機App等。上述兩類市場調查的數據來源本質上均為非概率樣本集合，我們在編制抽樣框時通常需要嚴格參照網民總體在屬性結構上的比例分布情況，盡可能地接近網民總體的各類特征分布。

抽樣過程中，要充分利用輔助信息，例如常見的人口普查數據、行政區劃數據等。基于多重抽樣框的抽樣設計是借助多源數據增進抽樣方案的探索，使抽樣更為科學和有代表性。針對多重抽樣框，除概率與規模成比例抽樣、非概率配額抽樣、多階段分層抽樣等常規的抽樣方法外，目前較為前沿的抽樣設計方法包括鏈接跟蹤取樣、適應性集群抽樣、響應式調查設計等，在實際抽樣調查中均具有探索和嘗試價值。

三、多源調研數據的融合算法及實證研究

（一）基于模型和加權的目標總體推斷算法

傳統的抽樣推斷理論是依據隨機原則抽取樣本，樣本單元入樣概率的倒數是其權數，將觀測結果與樣本單元的權數結合實現對總體目標量的估計。從在線可訪問樣組、社會化媒體中抽取樣本單元的入樣概率本質上是非概率樣本，無法使用傳統的抽樣推斷理論進行統計推斷。目前基于概率-非概率多源數據融合推斷的方法主要包括傾向得分加權、校準加權、大規模插補和雙重穩健估計。

（二）模擬分析

為了評估雙重穩健估計的性能，同時比較不同方法的優劣，將基于邏輯斯蒂回歸構建傾向得分并得到逆概率加權估計量和大規模插補進行比較。本文中分別考慮兩個因素：一是樣本量的大小，二是生成有限總體的超參數模型。非概率樣本B的樣本量分別定義為500和1000，有限總體N=100000，輔助變量xi—N（2，1），同時誤差項ei—N（0，1），且分別是獨立同分布的。

目標變量y分別通過兩個不同的模型實現：

模型1：yi=2xi+1+ei

模型2：yi=2xi2+3+ei

通過使用隨機抽樣獲得樣本量為nA=500的概率樣本A，各抽取A、B樣本的50%進行融合，分別計算其簡單樣本、校準加權（Cal）、大規模插補（M）、雙重穩健估計（DR）的樣本估計偏差（Bias）及其方差（Var）和相對均方誤差（ReMSE），其定義為：

偏差及其方差具體結果通過1000次Bootstrap重復抽樣得到，相對均方誤差（ReMSE）越小表明估計的精度越高，其結果見表2。

表2 偏差、方差和相對均方誤差估計結果

從表2可看出，本文提出的方法在不同樣本量基礎上均表現出較好的性能，相對均方誤差（ReMSE）較概率樣本稍增加，較非概率樣本大幅下降，并且在非概率樣本量較大時得到的估計精度更好。

（三）實證研究案例

下面結合具體數據對多源數據融合進行估計。某電信運營商對受訪者進行包括傳統電視媒體、廣播、互聯網（PC端、移動端）、智能電視終端（電視盒子）等不同媒體類型接觸習慣的調查，采用基于運營商大數據抽樣獲得的概率樣本是380個，采用在線可訪問樣組和微信群共同抽樣獲得的非概率樣本是378個，2個目標變量分別是：

Y1：過去一周您是否看過陜西衛視？

Y2：過去一年，您的家庭收入在高端消費（教育培訓、旅游文化、休閑娛樂、奢侈品消費等）中所占的比例是多少？

第一個變量是二元變量，用來估計比例值，第二個變量是連續變量。首先，將概率和非概率樣本各自隨機抽樣50%的樣本進行融合，融合后總樣本量為379個，結合原始數據對兩個目標變量進行估計，結果見表3。

表3 目標變量的估計

多源數據估計的目的是為了盡可能多的利用輔助信息對目標變量進行更加精準的估計，因此本文考慮三種不同的融合方法并進行比較，采用的輔助信息（X）包括受訪者家庭年收入、最高受教育程度、是否本市常住三個月以上以及實際年齡。得到三種不同方法的估計結果如表4所示。

表4 三種不同融合方法的估計值比較

通過表4可看出，兩個目標變量的融合估計方法相對單一數據源的估計精度均有較大提升，尤其是結合了加權和插補的穩健估計方法，這為后續的多源數據融合估計提供了新的思路。

迄今為止，針對多源數據融合技術完成了各類場景下抽樣調查和數據挖掘的若干項目實踐。通過產品滿意度調查、消費者態度和行為研究、新產品上市研究等若干抽樣調查項目的模擬和實際測試，有效驗證了基于多源數據融合技術的抽樣調查相較于傳統網絡調查方式能夠提升目標總體推斷的準確性。這樣不僅提升了抽樣調查的數據質量，而且綜合了成本、效率因素，在實際的市場研究中可以表現出明顯的優勢。

四、多源數據融合技術產品設計

（一）全域用戶調研智能引擎的產品設計

以上述多源調研數據融合方法為理論支撐，以實現全域用戶調研資源最優化、智能化為導向，將問卷調研轉化為多渠道樣本資源立體化分配的解決方案。綜合數據質量、執行效率和成本費用等因素，利用智能優化算法自動為調研項目匹配最優資源組合和最佳執行策略。大體講，首先根據項目需求通過智能引擎產品進行多渠道抽樣問卷投放，其次完成多渠道樣本數據采集和數據融合，最終實現調研目標總體的精確推斷。基于數據融合技術的智能化產品顛覆以往依靠人工、固有經驗的傳統調研模式，通過數字化手段重構調研執行的全流程，實現樣本渠道資源的最優組合和合理調度，在確保數據質量的基礎上達到降本增效的目的（見圖2）。

圖2 全域用戶調研智能引擎

（二）多目標規劃算法推薦策略優化生成

全域用戶調研智能引擎底層集成的算法本質上屬于多目標規劃算法的范疇。多目標規劃通常記為MOP（Multi-objective Programming），指在一定約束下希望使多個目標都能達到最優，或者是妥協最好，就像是在多目標函數構成的多維曲面數不清的“山峰”中利用全局搜索能力，尋找海拔最高的“山峰”的過程。多目標規劃在資源分配、生產調度、計劃編制等問題上均有廣泛應用。例如，買車，要便宜，又要省油，還要速度快，那么對應市場研究領域則應是執行速度快、成本費用低，而且確保數據質量不打折扣。

實際上，智能推薦算法在追求實現多目標最優或妥協最優的過程中，需要考慮的影響因素和限制條件非常復雜而繁多，譬如各樣本渠道具有不同的問卷響應率、回答率和非抽樣誤差；對應到具體調研項目，各渠道能夠觸達調研目標人群的能力不同，例如不同城市級別人群、母嬰人群、汽車人群等垂直類人群。智能推薦模型最終要輸出的是考慮各類影響因素、滿足各類限制條件的約束下，具體某個調研項目個性化的最優執行推薦策略。算法的具體實現過程主要通過基于精英策略的快速非支配排序遺傳算法（NSGA-II）實現。

五、總結和展望

目前，國內學者關于多源數據融合在市場研究中的應用理論化、系統化的研究尚少，更未形成抽樣調查的標準化流程。本文提出在綜合考慮調研成本、效率、質量基礎上的數據融合技術，通過構建多重抽樣框和設計抽樣方法獲取混合隨機樣本進行問卷調查，借助校準估計、大規模插補、雙重穩健估計等專業數據融合算法實現目標總體特征的精確推斷。事實證明，多源數據融合方法的樣本代表性和總體推斷的準確性均優于近似樣本量的非概率數據來源，并且具有降本增效等多方面的優越性。

數據融合技術覆蓋了問卷調查從抽樣設計到最終推及總體的全流程，是理論研究的前沿課題，具有重要的應用價值。本文創新性地將相關研究成果落地為“全域用戶調研智能引擎”最優執行策略推薦類產品，利用多目標規劃算法為調研項目自動化匹配最優資源組合和合理調度策略，完成了理論方法到實踐應用的轉化。現階段有越來越多的市場研究公司與企業傾向于依賴多種來源數據進行內部或外部調查，本文研究成果能夠為其實踐調查提供借鑒與參考。

未來，我們將會更多關注和掌握不同調查方式間的數據差異，憑借類似隨機對照研究的方法來測量在線可訪問樣組、各類App、微信群等不同調研模式之間的異同。通過計算選項無差異程度、答題規范程度等指標來衡量，從而充分了解混合調查模式中運用不同類型調查方式產生的問題與偏差，考慮融合混合模式數據時所面臨的潛在風險，以獲取同質性更高水平的調查數據，提升數據利用效率，保證調研數據質量。◆