孫端


關鍵詞:大數據;網絡產品;眾包模型;聚類分析;Apriori算法
中圖分類號:C931 文獻標識碼:A 文章編號:1009 — 2234(2020)01 — 0077 — 03
隨著網絡經濟的崛起,新技術、新生產方式、新商業模式等不斷涌現,云計算、大數據、眾包等一系列新的生產技術、生產方式、新的商業模式逐漸成為企業市場創新的新寵。國家在“十三五”規劃綱要中明確提出要“拓展網絡經濟空間,牢牢把握信息技術變革趨勢,實施網絡強國戰略”。習近平治國理政思想中對網絡強國戰略思想有著深入和系統的論述,強調新時代發展網絡經濟具有重要意義和價值。如何貫徹國家網絡強國政策,把眾包等新技術、新生產方式、新商業模式利用好、發展好、維護好,成為學界和業界研究的新課題、新任務、新挑戰。采用眾包模式,利用大數據分析方法,識別網絡消費者網絡行為,挖掘網絡消費者的消費行為特征,在消費行為特征與消費者需求之間建立關聯關系,構建一個符合網民需求的網絡產品眾包模型,對指導企業面向網絡消費者,從事網絡產品設計與開發具有重要意義。
以“眾包”為主題詞,在中國知網上,選擇期刊頁面,設定CSSCI來源期刊類別,截至2019年6月25日,共計獲得417篇相關論文。從這些CSSCI來源期刊的論文看,國內學者們主要從眾包創新、眾包模式、眾包模式應用、眾包參與者行為等方面進行研究,其表現為:一是眾包創新研究。如孟慶良等(2017)從雙邊視角出發,構建了眾包創新模式的關鍵用戶知識源識別體系,提出基于BP神經網絡的關鍵用知識源識別方法。〔1〕二是眾包模式研究。如王謙等(2014)系統性地探討了網絡眾包模式的基本內涵、構建方法及現實效用〔2〕。三是眾包模式應用研究。如楊雪(2016)從參與門檻、預期收益和信任程度等方面總結了眾包生產中可能遇到的問題。〔3〕四是眾包參與者行為研究。如張雪峰等(2019)構建了綜合考慮參與者勝任度和接受度的任務推送模型,提出了參與者勝任度測量方法。〔4〕
國外眾包研究早于國內研究,其研究涉及范圍更廣、內容更深、與實踐結合更為密切。具體來看,國外眾包研究主要表現為:一是眾包內涵探討。美國《連線》雜志記者Jeff Howe(2006)首先提出眾包概念,并認為眾包是一個公司或機構將過去由員工執行的工作任務以自由自愿的形式外包給非特定的大眾網絡的做法〔5〕。二是眾包與創新關系研究。如開放式創新之父H W Chesbrough(2003)將“眾包”視為開放式創新的一種有效的方式,能夠充分利用外部資源,提高企業產品研發的創新性〔6〕 三是眾包主體研究。如 Guido Jouret(2009)認為眾包主體越廣泛,越有利于創新〔7〕四眾包驅動因素研究。如Brabham等(2012)提出大眾參與者的內在動機比外在動機更能影響參與者的行為。〔8〕五是眾包績效研究。如Blohm等(2011)認為參與者進行合作可以提高創意質量,并能顯著提高眾包競賽的績效水平。〔9〕
國內外眾包理論相當豐富,從基本概念和內涵、參與要素、模式模型、及其各個領域中具體應用都有豐富的研究成果,這為本文提供了重要的理論基礎。基于網民行為大數據,探討網絡產品眾包模型的研究文獻鮮見,特別是利用大數據聚類分析技術和Apriori算法,以網絡消費者在網絡平臺上的瀏覽、購買、評價等行為大數據為基礎,深度挖掘網絡消費行為背后的真實需求,把消費者需求前置到企業的網絡產品設計開發之中,則更為少見。
學術界對網絡產品概念存在著爭議。有學者把人與人之間通過網絡交往的信息產品和物質產品界定為網絡產品;有學者認為網絡產品是虛擬市場經濟中的數字產品和智能產品;還有學者將網絡產品定義為能夠在網絡上實現所有交易事項的產品;也有人認為網絡產品是以網絡信息作為載體的產品。這些概念在一定的條件下對其內涵進行了解釋,有一定的合理性,但也存在局限。網絡產品是網絡技術為基礎,直接面向網絡用戶提供的具有商品價值的信息或服務,該定義重點突出網絡的商品價值性質,弱化網絡的工具性質。
網絡產品眾包一種融合產品開發、設計、生產的工作任務以自由自愿的方式給非特定網絡用戶的新穎性生產開發模式。網絡產品眾包的本質是把原本由企業自己依據產品開發流程,進行產品研發,轉變為依據網絡,由無數網絡消費者自愿參加產品開發來完成。在網絡產品眾包過程中,企業支付的成本與企業自己開發成本相比具有比較優勢,因而,網絡產品眾包不僅能有效解決網絡產品創新問題,而且大大降低企業網絡產品開發成本,能夠有效挖掘消費者真實需求,增強網絡消費者對網絡產品忠誠度,提高企業銷售業績,進而增強企業市場競爭力。
(一)模型構建邏輯
對網民行為數據樣本進行Q型聚類分析本質上是把海量大數據按照親疏關系進行聚類,目的是把不同樣本中的同一變量劃分為一個簇,進而用準確的語言把這些簇的特征表達出來。對屬于同一簇的特征變量進行R型聚類分析,目的是降低特征變量的維數,減少特征變量的數量。采用Apriori算法,挖掘出特征變量的頻繁集。以頻繁集中頻繁項為自變量構建網絡產品眾包模型。總體來看,網絡產品眾包模型構建邏輯是依據網民行為大數據,經過Q型、R型二次聚類,從樣品中提取共性特征、降低特征變量維數,再利用Apriori算法找出特征變量的頻繁集,構建以頻繁項為自由變量,以網絡產品眾包需求為因變量的眾包模型。
(二)模型基本假設
1.網民對網絡產品核心利益具有顯著正向影響。無論是作為理性消費者,還是作為有限理性消費者,網絡消費者購買網絡產品最初的動機是來源于網絡產品的核心功能,網絡產品的核心功能是滿足網絡消費者需求的基本條件;網民作為網絡消費者,對網絡產品核心利益是有正向需求的,網民對網絡產品核心利益具有顯著正向影響。可見,網絡產品核心利益越大,網絡消費者的需求也越強。
2.網民對網絡產品消費偏好具有顯著正向影響。消費偏好是影響消費者行為的重要因素,消費偏好往往支配者消費者的消費習慣。在網絡市場中,網民往往會依據自身網上購買經驗、體驗以及對網絡產品的認知和判斷,對某種網絡產品產生某種傾向性的依賴,這主要是消費偏好在起著支配作用,網絡消費者對某種網絡產品消費偏好往往具有長期性依賴,這種依賴可能是來自感情體驗、技術性依賴或者其他消費需求。網民作為網絡消費者,對網絡產品擁有著某種偏好,從而影響著自己的網絡購買行為,網民對網絡產品消費偏好具有顯著正向影響。網民對網絡產品消費偏好越強,網絡消費者的需求也越強。
3.網民對網絡產品信用具有顯著正向影響。在網絡市場中,網上消費者購買網絡產品時,往往會關注網絡產品的各種評價以及商戶的網絡信用。當網絡信用較好時,促使網絡消費者對網絡產品及其商戶產生正向的心理傾向,認為該網絡產品及其商戶很注重自己的網絡信用,不會采取虛構或者欺詐的方式從事商業交易。網民作為網絡消費者,對網絡信用有著內在的需求,網民對網絡信用有著顯著正向影響。網絡產品信用越好,網絡消費者的需求也越強。
4.網民對網絡產品正面情感需要具有顯著正向影響。網絡市場是一個虛擬的市場,網絡消費者情感釋放比現實中更為直接、自由和真實,受外界因素的干擾相對較小,一旦網絡消費者對某種網絡產品產生情感需求,會更加直接及真實地釋放自己對某種網絡產品的感情,當然這種情感需要可能是正面的,也可能是負面的。我們只篩選正面的情感需求,剔除負面的情感需要。網民作為網絡消費者,對網絡產品正面情感需求有著內在的一致性,網民對網絡產品正面情感需要有著顯著正向影響。網民對網絡產品正面情感需要越強,網絡消費者的需求也越強。
(三)網民行為大數據聚類分析
依據不同分類對象,聚類分析可以分為Q型聚類分析和R型聚類分析。基于Q型聚類的特征,本研究以清洗整理后的網民行為大數據為樣本,如對品種、規格、款式、質量、特色、包裝、商標、品牌、服務等等各種網絡評價相關數據,進行Q型聚類分析,并對聚類結果進行解釋,用準確詞描述各個類別的特征,設定A1,A2,A3,……,An(n∈N且n31,N為自然數)參數表示樣品類別特征。
R型聚類分析是研究變量之問的相關關系,即把同一樣本中的不同變量進行比較,以確定不同變量間的親疏關系,進而對變量進行分類。本研究是把Q型聚類后的各個類別特征作為變量,進行R型聚類分析,并對聚類結果進行解釋,用準確詞匯表述各個類別特征,設定B1,B2,B3,……,Bm(m∈N且m31,N為自然數)參數表示變量類別特征。R型聚類分析過程如下:
Q型聚類和R型聚類都是基于數據的聚類方法,一般要求是數字型數據,但是隨著聚類技術的發展,文本聚類近年來也取得了長足的進步,在大數據分析中也實現了聚類功能。文本聚類是一種基于自然語言的文檔作為數據進行聚類分析的方法,它處理的數據是文本數據。因此,上述采用的Q型聚類分析和R型聚類分析都是以網絡消費行為的文本數據作為分析對象的,這是進行Apriori運算的基礎和條件。
(四)Apriori算法分析
Apriori算法是Rakesh Agrawal等人1994年提出來的一種經典的大數據挖掘方法,其核心思想是利用重復迭代法找出數據中最多項的頻繁集,具體實現分為兩個步驟。首先,利用迭代法在數據庫中搜索出支持度不低于用戶設定閥值的項集,目的是通過迭代找出數據的候選項集,這在數據挖掘中較為關鍵,直接影響著數據挖掘的質量。其次,利用頻繁項集構造出滿足用戶最小信任度的規則,目的是根據候選項集找出頻繁項集。在網民大數據中,經過Q型聚類和R型聚類之后,網民大數據得到了恰當的特征變量表述和降維,但是大數據的復雜性決定了仍然無法構建模型,這就需要進行深度挖掘,找出大數據的頻繁項集,目的是讓復雜的大數據再次降維,找出與網絡產品眾包高度關聯的頻繁項,為有限項特征變量構建網絡眾包模型奠定基礎。
Apriori算法看起來很完美,但是因為采用迭代搜索,大大限制了運行速度,因此,可以先將候選項集進行分類,然后逐個對候選項集進行Apriori運算,最后將運算后的候選項集合并,再進行Apriori運算,這樣可以在一定程度上提高Apriori運算效率。根據以上Apriori算法分析,我們可以將經過Q型聚類和R型聚類之后的特征變量集設為L,將L分為N類,逐個對向量集進行Apriori運算,最后將頻繁項集進行合并,再采用Apriori算法進行運算,從而挖掘出最多項頻繁集。
(五)眾包模型構建
在上述假設條件下,將Apriori算法挖掘出的各個頻繁項分別設為自變量X1,X2,X3,X4,……,Xn,n為自然數,將網絡產品眾包目標設為因變量F(X),考慮到網民行為受網絡質量影響,比如出現斷網、網速、網絡設備等等不可控因素,在因變量和自變量之間建立數學表達式如下:
F(X)=F(X1,X2,X3,X4,……,Xn)+μ
(X1,X2,X3,X4,……,Xn表示特征自變量,n為自然數;μ為不可控因素)
由于并不清楚自變量與因變量之間的關系屬性,我們分別從線性關系、二次曲線關系兩個維度分別構建網絡產品眾包模型,再根據各個具體模型的具體評價指標,分別對模型進行評估和驗證,最后從兩個模型選中一個較為優質的模型作為網絡產品眾包模型。
模型1:假設特征變量與眾包模型因變量是線性關系,網絡產品眾包模型可以具體表示為:

在此模型中,Xn為自變量,即Apriori運算處理后的頻繁項,Kn為對應自變量的系數,即對應的頻繁項系數,Xi、Ki分別為第i個自變量及其系數,即第i個頻繁項及其系數,μ為其他不可控因素。該網絡產品眾包的線性關系模型可以利用多元線性回歸法確定該模型的系數,進而對模型進行驗證和評價。
模型2:假設特征變量與眾包模型因變量是二次曲線關系,網絡產品眾包模型可以具體表示為

在此模型中,Xn為自變量,即Apriori運算處理后的頻繁項,a、b為其對應的二次項和一次項系數,n為自然數,μ為不可控因素。該網絡產品眾包的多元二次曲線關系模型可以利用序列二次規劃算法求解該模型的系數,進而對模型進行驗證和評估。
模型1和模型2是在相應的假設條件下構建的網絡產品眾包模型,具體那種模型更為優質,可以通過兩種方法來比較。第一是利用各自的評估指標,對擬合度進行評估,可以判斷出哪個模型更有。第二是對模型進行優化,利用數據條件,挖掘數據背后的邏輯,對其進行優化,然后再進行比較模型1和模型2的擬合度,這樣可以判斷哪個模型更優質了。
通過大數據挖掘方法,對網民行為進行聚類分析,識別出具有顯著影響網絡產品價值的要素,從而構建網絡產品眾包理論模型,從而豐富產品生產開發理論。網絡產品價值創造離不開網絡用戶參與,企業在網絡市場競爭中需要主動引導網民群體參與其產品過程來優化和創新產品,實現企業與網民的協同發展。本文的創新之處在于,從大數據的視角,利用大數據聚類技術,先把網民行為數據進行關聯分析,然后利用Apriori算法找出網民行為的頻繁項集,從而把無線的變量問題變成有限變量問題,再以有限的頻繁項為因變量,構建具有因果關系的數學統計模型。當然,在研究過程中,因為缺乏大數據的支撐,只進行理論的合理推演和可能性的論證,未來將利用網民行為大數據進行實證研究。
大數據時代,電商企業必須轉換觀念,樹立大數據思維,利用大數據技術,分析企業行業大數據,為電商企業進行網絡產品開發,制定產品策略提供良好的建議。據此,我們需要討論:第一大數據挖掘工具自身傾向問題,一個工具的應用總是在一定條件下才能得到發揮,這就是要把問題和工具充分結合起來,只有二者有機結合,才能達到較好的效果。第二,大數據挖掘工具不是萬能的,不能迷信于工具,在社會科學研究領域,甚至某些自然科學領域,尋找確定的答案越來越難。在現有條件下,依據大數據分析工具,找到事物背后的邏輯并加以佐證這種規律,從而在現實中加以合理運用和推廣,為國家和經濟社會發展服務即可。
〔參 考 文 獻〕
〔1〕孟慶良,郭鑫鑫.基于BP神經網絡的眾包創新關鍵用戶知識源識別研究〔J〕.科學學與科學技術管理,2017,(03):139-148.
〔2〕王謙,代佳欣.政府治理中網絡眾包模式的生成、構建及效用〔J〕.公共管理學報,2014,(04):61-70+141-142.
〔3〕楊雪.眾包模式在廣告生產中的可行性研究〔J〕.編輯之友,2016,(06):77-82.
〔4〕張雪峰,操雅琴,丁一.眾包模式下基于參與者勝任度和接受度的任務推送模型〔J〕.管理科學,2019,(01):66-79.
〔5〕Jeff Howe.The rise of crowdsourcing〔J〕. Wired Magazine,2006,(06):01-05.
〔6〕Chesbrough, H. W. Open Innovation: The new imperative for creating and profiting from technology〔M〕. Harvard Business Publishing,2006:132–138.
〔7〕Guido Jouret. Inside Cisco's search for the next big idea〔J〕. Harvard Business Review,2009,(09):43-45.
〔8〕Brabham, Daren C. .The myth of amateur crowds 〔J〕. information,Communication and Society,
2012,(03): 394-410.
〔9〕Blohm,Ivo;Bretschneider,Ulrich;Leimeister, Jan Marco;Krcmar,Helmut.Does collaboration among participants lead to better ideas in IT-based idea competitions An empirical investigation 〔J〕. International Journal of Networking and Virtual Organisations,2011,(02):106-122.
〔責任編輯:孫玉婷〕