馬滿福,員欣淼,李 勇,劉元喆,王常青
(1.西北師范大學計算機科學與工程學院, 甘肅 蘭州 730070;2.甘肅省物聯網工程研究中心,甘肅 蘭州 730070;3.中國互聯網絡信息中心互聯網基礎技術開放實驗室,北京 100190)
Science上的一篇文章指出:貧窮往往導致注意力資源的短缺,進而降低人的認知能力[1]。在針對中國民眾的階層意識研究中發現,中國人的階層自我定位明顯低于同期的歐美國家居民[2,3]。此外,無論在城市還是農村,人們的客觀社會經濟地位與對于自身的主觀階層地位認知之間均存在著不小的偏差[4,5]。真實空間中,由于個人的組織資源、文化資源和經濟資源擁有量存在差異,使得社會分層現象普遍存在。已有研究指出,低階層者的系統合理化水平顯著低于高階層者,家長的教養方式存在階層差異,居民的住房分層現象較為明顯,階層認知影響生活幸福感,尤其是主客觀階層差異的影響顯著等[6 - 9]。
根據中國互聯網絡信息中心(China Internet Network Information Center)發布的第43次《中國互聯網絡發展狀況統計報告》,截至2018年12月,我國網民規模為8.29億,互聯網普及率達59.6%。從1997年到2018年,我國網站數量從1 500個增長至523萬個。互聯網應用的進一步發展,將推動形成更加多元的網絡社會生態體系[10]。大量的人類行為發生在虛擬空間中,用戶在虛擬空間中留下的電子印跡都被記錄著,網上行為和現實生活有了可以推測的聯系[11],這為虛擬空間中的社會分層行為研究提供了數據基礎。
本文通過在線行為數據反映虛擬空間中的社會分層現象。首先通過計算不同階層用戶在虛擬空間中時間數據的均值和方差,發現較高階層用戶在虛擬空間中的停留時間相對穩定,而較低階層用戶的在線時間較不穩定。其次,通過word2vec中的Skip-gram模型訓練出能代表各階層用戶行為特征的詞向量,發現不同階層用戶將注意力消耗在不同的信息資源上,較高階層用戶能更好地利用網絡資源辦公和購物,而較低階層用戶在虛擬空間中消耗的注意力對自我提升并無多大幫助,從認知的角度分析這會進一步加大社會分層現象。最后,本文利用基于word2vec的神經網絡算法模型W2V-BP(Word2Vec Back Propagation)對用戶的在線行為數據進行社會階層識別,實驗發現準確率達到90.22%,表明虛擬空間中存在能夠區分用戶社會分層的行為特征。
用來進行社會階層劃分的資源依據包括生產資料、財產或收入、市場、職業或就業、政治權力、文化、社會關系、主觀聲望、公民權利和人力資源等[12]。社會學中,比較主流的看法是:把“職業”作為社會分層的標準,把資源占有作為基本維度,并輔之社會經濟地位綜合指數的測量[13]。
已故著名社會學家陸學藝教授在《當代中國社會階層研究報告》中提出了以職業分類為基礎,以組織資源、經濟資源、文化資源占有狀況作為劃分社會階層的標準,把當今中國的社會群體劃分為10個階層。10個階層包括國家與社會管理者階層、經理人員階層、私營企業主階層、專業技術人員階層、辦事人員階層、個體工商戶、商業服務業員工階層、產業工人階層、農業勞動者階層和城鄉無業、失業、半失業者階層。此外,陸學藝教授認為“社會中間階層”是由10個階層中的專業技術人員、辦事人員階層、個體工商戶、商業服務業員工4個階層組成[14]。
注意力是指人的心理活動指向和集中于某種事物的能力。在信息豐富的世界中,擁有信息就意味著另一種稀缺,即信息所消耗的其他東西,而信息所需要消耗的恰恰就是信息接收者的注意力。因此,信息的富足就會導致注意力的貧瘠,我們需要將注意力有效地分配在那些消耗注意力的信息資源上[15]。網絡是一個公共空間,它承載的是集體的注意力。雖然每個人在每一個時刻都只能關注一個事物,但是大量的網民在互聯網上就會形成大規模注意力的交匯[16]。網絡結構與人們行為的演化會涌現出集體活動[17]。Goel 等[18]的研究指出個人在網上如何分配時間會影響從公共政策到營銷的多個領域,用戶在社交媒體投入的時間遠大于在電子郵件、搜索和門戶類網站等投入的時間。Weber等[19,20]的研究發現不同人口群體的網絡搜索行為之間存在著很大差異。
目前,虛擬空間中的社會分層研究較少,且多基于概念提出和一般性探討。如黃哲[21]指出虛擬世界中的不平等和分化客觀存在。胡建國[22]認為人們的主觀地位認同受現實社會與網絡社會參與的雙重影響,并且雙重影響表現出耦合的特征。張斐男[23]認為網絡社會中社會分層的新特征正在影響并消解著原本的由上而下的權力結構。程士強[24]指出個體在網絡社會中以“代內再生產”和“代際再生產”的方式將原有的階層結構延續到網絡社會中。傳統的研究大都基于網絡信息資源占有的機會和能力等客觀指標,本文將從不同階層用戶使用網絡資源的具體行為及信息的內容和性質等因素對虛擬空間中的社會分層現象進行分析。
本文的社會階層劃分參考陸學藝教授提出的10個階層和社會中間階層的劃分[14],按照用戶的職業屬性對樣本數據進行2個層次的分類,如表1所示。
第1個層次為“社會上層”“社會中層”“社會下層”,社會中層包括的職業有“專業技術人員”“黨政機關事業單位一般職員”“個體戶、自由職業者”“企業公司一般職員”, 將中間階層之上的“黨政機關事業單位領導干部”和“企業公司管理者”劃為社會上層,將中間階層之下的“產業、服務業工人”“農民、農村外出務工”和“退休、無業、下崗、失業”劃為社會下層[25]。
本文采用中國互聯網絡信息中心提供的用戶在線行為數據,該數據由30 000多名全國各地志愿者用戶在個人計算機上安裝數據采集程序在線獲取。用戶每次開機時,都會生成一個對應的日志文件。保證在線用戶個人隱私的前提下,以2 s一次的頻率掃描用戶計算機的當前焦點窗口。日志文件會詳細記錄用戶的開關機時間、窗口進程名、瀏覽器地址欄等信息。若當前焦點窗口發生變化,則會在日志文件中增添新的記錄。
該數據集已累積了數以TB量級的數據,為分析方便,本文隨機抽取1 000個用戶1個月約1.2億條的上網點擊行為數據記錄。樣本數據包中的數據文件包括按日期歸檔的樣本行為日志和樣本的人口屬性信息2部分,二者可通過樣本ID關聯[26]。用戶的人口屬性信息文件中包括用戶的性別、年齡、學歷、職業、工資、所在地等信息。
3.3.1 特征提取方法
分別提取各階層數據集中所有用戶點擊的軟件進程序列,構建詞匯表。選用word2vec中的Skip-gram模型訓練詞向量。在Skip-gram模型中,輸入為各階層語料庫中特定的一個進程名的詞向量,輸出為該詞對應的上下文詞。在每個階層的語料庫中,根據進程名出現的頻次建立哈夫曼樹,用哈夫曼樹來代替隱藏層和輸出層的神經元。其中,葉子節點為輸出層的神經元,葉子節點的個數為詞匯表的大小,內部節點為隱藏層的神經元。

(1)

(2)
為了增加代碼的簡潔性和可讀性,將式(2)拆分為偽代碼中的①~④?;贖ierarchical Softmax的Skip-gram模型算法流程如下:
輸入:語料庫,詞向量維度。
輸出:詞向量。
1.基于語料庫訓練樣本構建哈夫曼樹;
2.隨機初始化模型參數θ和詞向量w;
3.采用隨機梯度上升方法更新參數:
Forw∈Context(w) do
{e=0;//e為詞向量v(w)中所算出的增量
Forj=2:lwdo//lw為路徑向量pw中包含節點的個數
{




v(w)=v(w)+e;}
End for
3.3.2 社會分層識別算法
用戶的在線點擊行為由多個進程名組成,通過用戶的點擊行為識別用戶的社會階層類似于傳統文本分類問題。循環神經網絡常利用one-hot向量結合文本序列的順序特征對文本進行分類,但one-hot向量要求各詞語間相互獨立,且向量過于稀疏,維度過大導致計算困難。word2vec可以將one-hot向量轉化為低維度的連續值,即稠密向量,其中聯系緊密的詞將被映射到向量空間中相近的位置,符合用戶行為數據前后關系極為緊密的特點。
本文提出基于word2vec的神經網絡-W2V-BP模型,結合傳統前饋神經網絡對用戶行為特征進行社會分層識別。首先利用Skip-gram模型訓練出代表用戶行為特征的詞向量,W2V-BP模型將訓練出的詞向量作為輸入,用戶的階層類別作為輸出,通過梯度下降優化,數次迭代調節參數,訓練用戶分類模型。W2V-BP模型如圖1所示,其中w(t)表示第t個詞向量。

Figure 1 W2V-BP model diagram圖1 W2V-BP模型圖



在output層,第j個神經元的閾值為θj,第j個神經元接收到的輸入向量為βj,可得預測值:

(3)
(4)
其中,whj是hidden層第h個神經元與output層第j個神經元的連接權重,bh為hidden層第h個神經元(共有q個神經元)的輸出。

(5)
input層第i個神經元與hidden層第h個神經元之間的連接權重為vih,xi為輸入的詞向量,則hidden層第h個神經元的輸入向量αh為:
(6)
根據梯度下降策略,在已求均方誤差Ek和給定學習率η∈(0,1)的情況下,求得hidden層到output層的連接權重△whj為:
(7)

(8)
通過式(8),可以得到hidden層第h個神經元的輸出bh:
(9)
hidden層和output層的神經元都使用Sigmoid函數,在Sigmoid函數中,
f′(x)=f(x)(1-f(x))
(10)
利用梯度下降算法,根據式(3)和式(5)得到output層神經元的梯度項gj:
(11)
根據反傳播原理,得到hidden層到output層的權重更新公式為:
Δwhj=ηgjbh
(12)
可得到output層神經元閾值θj:
Δθj=-ηgj
(13)
結合梯度更新向量eh,根據反傳播原理,得到輸入層到hidden層的權重vih、hidden層第h個神經元的閾值γh:
Δvih=ηehxi
(14)
Δγh=-ηeh
(15)
最終得到hidden層更新向量eh:
(16)
BP神經網絡[27]基本流程如下所示:

輸出:多層前饋神經網絡(BP神經網絡)。
1.在(0,1)范圍內隨機初始化網絡中所有連接權重和閾值;
2.repeat
3. for all((xk,yk)∈Ddo
5. 根據式(11)計算output層神經元的梯度項gj;
6. 根據式(16)計算hidden層神經元的梯度項eh;
7. 根據式(12)~式(15)計算連接權值whj,vih與閾值θj,γh;
8. end for
9.until 停止
提取各階層用戶的開機時間、關機時間和在線持續時間。通過計算時間數據的均值和方差,分析不同階層用戶在虛擬空間中停留時間的穩定性。
均值指樣本中各階層用戶開機時間、關機時間及在線持續時間的平均值。方差反映了各階層用戶時間數據和其均值間的離散程度。本文分析得出的結果如圖2和圖3所示。

Figure 2 Mean of time data圖2 時間數據的均值

Figure 3 Variance of time data圖3 時間數據的方差
觀察圖2和圖3發現,和較高階層的用戶相比,較低階層的用戶占據了平均開機時間、平均關機時間、平均持續時間的最早和最晚時間。此外,較低階層的用戶在虛擬空間中的開機時間、關機時間的方差最大,說明較低階層的用戶在虛擬空間中的停留時間較不穩定,較高階層的用戶在虛擬空間中的停留時間比較穩定。
vocab(詞匯表)根據進程出現的次數從大到小依次排列,由于共同分析各階層中所有用戶行為數據的顯著特征,忽略出現次數少的進程,取詞匯表中前200頻次的進程名作為實驗數據。定義訓練參數,批處理量batch_size=128,詞向量維度embedding_size=64,為了更全面抓取某一進程和上下文的關系,設置某一進程可最遠聯系到其它進程的距離skip_window=10,對每一個進程名提取樣本數num_skips=8,測試集進程數valid_size=16,測試集采用詞匯表top15頻次進程vaild_win-dow=15[28]。通過Skip-gram模型訓練代表各階層行為特征的詞向量,用K-means算法聚類詞向量,所得分布圖如圖4~圖6所示。

Figure 4 Social upper layer word vector distribution圖4 社會上層詞向量分布圖

Figure 5 Social middle layer word vector distribution圖5 社會中層詞向量分布圖

Figure 6 Social lower layer word vector distribution圖6 社會下層詞向量分布圖
各階層詞向量分布圖各不相同,圖4和圖5總體上各進程間的距離更加緊湊,圖6中各進程間的距離比較分散。說明較高階層用戶點擊的軟件進程序列規律性強,較低階層用戶點擊的軟件進程序列規律性弱。各階層詞向量圖中均包括的進程名為常規的殺毒或瀏覽器類應用,包括:360sd.exe(殺毒類)、thunder.exe(下載軟件)、iexplore.exe(瀏覽器)、360safe.exe(殺毒類)、sougouexplorer.exe(瀏覽器)和QQ.exe(社交類)。
從圖4可知,社會上層獨有的進程名為: wps.exe(辦公類)、sohunews.exe(新聞資訊類)、notepad.exe(記事本)、Illustrator.exe(辦公類)和HAPDK.exe(休閑類)。從圖5可知,社會中層獨有的進程名為:coral.exe(瀏覽器)和chrome.exe(瀏覽器)。從圖6可知,社會下層獨有的進程名為:maxthon.exe(瀏覽器)、QQGame.exe(休閑類)、QQMusic.exe(休閑類)、popup_QQ.exe(休閑類)、QQPenguin.exe(休閑類)和QQBrowser.exe(瀏覽器)。此外,社會上層和社會中層共有的進程為:AliIM.exe(購物類)、EXCEL.EXE(辦公類)和WINWORD.EXE(辦公類)。社會中層和社會下層共有的進程為360chrome.exe(瀏覽器)。
從各階層詞向量分布圖看出,社會上層用戶在虛擬空間中主要將注意力消耗在辦公類、購物類、新聞資訊類等應用。社會下層用戶主要將注意力消耗在休閑娛樂類應用上。此外,社會上層用戶使用常規的瀏覽器,而社會中層和社會下層用戶使用的瀏覽器種類較多,初步判斷他們在虛擬空間中有更多的探索。綜上所述,社會上層和社會中層用戶能利用網絡資源進行辦公和購物,而社會下層用戶在虛擬空間中以娛樂為主。
為進一步探索各階層用戶在虛擬空間中注意力消耗的差異性,提取各階層用戶在圖4~圖6中出現的進程中消耗注意力的持續時間,對其取均值。接著按類別將同類進程的持續時間相加,結果如圖7所示,具體值見表2。

Figure 7 Average duration of users’distraction in various applications圖7 用戶在各類應用消耗注意力的平均持續時間

Table 2 Average duration of users’attention in various applications
從圖7中可以看出,在新聞資訊類、辦公類應用中,社會上層用戶消耗注意力的平均持續時間大于其他階層用戶。在購物類應用中,社會中層用戶消耗注意力的平均持續時間最長。在瀏覽器和休閑娛樂類進程中,社會下層用戶消耗的注意力遠大于其他階層用戶。在辦公類進程中,社會上層和社會中層用戶消耗的注意力遠大于社會下層用戶。從持續時間總和中可以看出,社會下層用戶在虛擬空間中消耗注意力的時間遠大于其他階層用戶。
綜上所述,較高階層用戶能更好地利用網絡資源進行辦公和購物,且消耗的時間和注意力較少。社會下層用戶在虛擬空間中的注意力主要聚焦在休閑娛樂類和瀏覽器等應用上,且消耗的時間最多。這說明虛擬空間中延續著真實空間中的社會分層結構。
應用基于word2vec的BP神經網絡模型(W2V-BP),根據用戶的在線行為特征將其識別到社會上層、社會中層或社會下層。不斷迭代數據并自動優化部分參數進行分類或回歸,通過調整運行輪次和網絡大小進行識別,結果如圖8所示。

Figure 8 Social class recognition accuracy change 圖8 社會階層識別準確率變化圖
隨著迭代輪次的增加,準確率不斷提高,且在6輪迭代后達到擬合,準確率為90.22%,滿足閾值[29]。該模型效果較為穩定,表明虛擬空間中存在能夠區分人類社會分層的行為特征。
另外,本文對比了時下較為普適、高效的SimpleRNN、LSTM、SVM模型,表3顯示了不同模型對同一數據集的識別效果。

Table 3 Experimental results comparison
結果表明,基于word2vec的BP神經網絡模型(W2V-BP)對虛擬空間中的社會分層識別具有較好的表現,同時LSTM、SimpleRNN和SVM模型也能夠進行虛擬空間中的社會分層識別。這進一步驗證了虛擬空間中存在能夠區分人類社會分層的行為特征。
本文通過分析用戶行為大數據對虛擬空間中的社會分層規律進行研究,最終發現不同階層的用戶在虛擬空間中的行為特征大不相同。(1)較高階層用戶在虛擬空間中的停留時間更加穩定,較低階層用戶的停留時間較不穩定。(2)較高階層用戶能更好地利用網上資源辦公和購物,而較低階層用戶主要在虛擬空間中休閑和娛樂,卻消耗了最多的時間和注意力。(3)利用W2V-BP神經網絡模型發現虛擬空間中存在能夠區分社會階層的行為特征,識別準確率為90.22%。
研究結果給我們的啟示是,在信息豐富的時代,我們應該保護好自己的注意力,將它消耗在能提升自我的信息資源上,才不會陷入社會底層的循環中。
本文對虛擬空間中社會分層行為研究的判斷還有待新的數據和進一步的研究去核實。另外,本文通過職業來反映社會分層,代表了一般意義的階層劃分,但其實社會階層還受到教育、收入、父母、配偶等的影響[30]。今后將進一步地提升和優化虛擬空間中的社會分層行為研究。