白 磊, 梅真瑋, 陳 霞, 呂廷杰
(北京郵電大學 經濟管理學院, 北京 100876)
隨著互聯網的迅速發展,在線社交網絡得到了進一步的蓬勃發展.在線社交網絡平臺,以其開放性、共享性和連通性等特點,成為人們進行網絡社交活動的重要場所.出于社交的目標,社交網絡用戶在與其他用戶產生聯系的過程中自覺或不自覺間暴露了一定的個人隱私信息,如姓名、聯系方式、社交關系、照片、地理位置、言論信息等.由于網絡的開放性也使得這些用戶的隱私信息更容易被獲取、整理和非法使用,進而致使用戶遭受一定的損失和傷害.電信詐騙事件頻發就有很大一部分源于用戶個人隱私信息泄露所致.隨著人們對隱私觀念逐步提升,對在線社交網絡用戶的隱私信息的保護問題也成為學術界和業界近年來關注的熱點.
對社交網絡的研究,理論方面格拉諾維特的弱關系理論、林楠的強關系理論、博特的結構洞理論[1]等相關理論基本成熟.在社交網絡用戶行為的研究方面,理論和實證研究也都較深入.研究主要通過對用戶在在線社交網路中的發布信息、互動等行為,從統計和人類行為動力學的視角,進行分析研究.Wang[2]以新浪微博為研究對象,對用戶行為和用戶間關系數據進行分析,發現用戶的關注數、粉絲數、微博數呈高度正相關.Wu等[3]對天涯網絡社區上用戶的回復進行了統計分析,發現用戶發表評論的時間間隔分布符合冪率分布,具有胖尾特性.于洪等[4]以新浪微博作為研究對象,研究微博網絡環境中的信息傳播特點和傳播節點影響力的關系.
對社交網絡用戶隱私方面的研究還存在較大的空間.目前國內外的研究主要有基于隱私數據的挖掘保護、隱私影響因素的研究、隱私信息傳播和隱私建模研究等方向.Babbitt等[5]提出了基于保護規則的隱私保護分析模型.Hull等[6]通過構建基于上下文數據的框架模型,并根據用戶設定的規則,在規定時間將規定數據分配給不同用戶.Iachello等[7]則根據用戶的使用經驗以及規律,對于用戶常見的一些隱私,進行設定權限、分配隱私等操作,效率雖然高,但是有一定局限性.Zeng等[8]通過建立用戶隱私信息傳播的框架模型,基于信息傳播過程中被泄露的概率建立了用戶隱私量化的理論模型框架,但主要停留在理論框架階段,對具體使用場景的適用性未做深入分析.劉向宇等[9]對社交網絡數據隱私保護研究現狀分析中也指出目前社會網絡隱私保護主要集中于數據挖掘、K-匿名、數據擾亂、推演控制等方法.李征仁[10]以移動互聯網為研究對象,通過結構方程模型、社會網絡分析和數據挖掘模型,研究用戶隱私關注的影響因素及用戶隱私信息的擴散的時間和范圍規律.沈洪洲等[11]通過實驗和訪談的方法對人人網、朋友網的隱私控制功能的可用性研究,指出兩者在保護用戶隱私方面需要改進的不足之處.葛偉平[12]對隱私保護數據挖掘方法上進行了分析,給出一種全局關聯規則的隱私保護挖掘算法,并介紹了一種基于數據變換前后相關屬性取值數量的差異程度來表示隱私保護程度.石碩[13]通過分析相關文獻,結合TPB模型和隱私計算理論,使用隱私憂慮和感知收益揭示用戶隱私披露行為,提出了社交網絡上個人信息披露行為的理論研究模型.Gao等[14]運用隨機抽樣問卷調查的方法,制定相關因素量表,研究了隱私關注度、感知公平和感知投訴效益對我國互聯網用戶網絡隱私保護行為的影響,表明隱私關注度對拒絕提供個人信息、偽造個人信息和投訴行為都有顯著正向影響.Jiang等[15]提出了網絡隱私關注和行為意向影響因素的概念模型.張志杰等[16]從LBS服務用戶接受模型的角度進行研究,通過問卷調查和結構方程的方法,實證證明用戶隱私因素對LBS業務使用意向的顯著影響作用.王斌等[17]綜合考慮用戶個體和所處系統中心對網絡用戶隱私的影響,從動態隱私保護的視角提出一種基于所處環境的面向普適計算的用戶的隱私量化模型,針對不同的隱私狀態級別,采取不同的信息保護策略實現對用戶隱私信息的保護.Zhu等[18]通過使用人類行為動力學和統計物理的方法研究用戶的網絡行為與用戶隱私量值的關系,并用微博和人人網用戶數據進行了實證分析.李鳳華等[19]在分析隱私保護研究現狀的基礎上,提出隱私計算概念,對隱私計算的內涵進行界定,并提出從隱私信息的全生命周期討論隱私計算的研究范疇,但主要停留于理論階段,未做具體的隱私計算實證.
本研究建立了一種新的隱私量化模型,將用戶的隱私狀況抽象為一種向量,影響隱私屬性的各影響因子為隱私向量的不同維度,通過隱私向量的取值定量化的表示用戶的隱私保護程度.考慮到不同因子對隱私的影響力不同,提出采用基于相關系數的CRITIC方法來確定相應的權重.實證方面,基于新浪微博用戶的真實數據,通過隱私量化模型得到相應用戶的隱私量值.在此基礎上對隱私量值與用戶的基本屬性及行為信息進行了對比分析,也從側面驗證了隱私保護狀況與用戶相關行為表現之間的關系.
1.1用戶隱私量化模型本研究采用向量化的方式,通過構建用戶隱私向量來表示用戶的隱私關注和隱私保護情況,以該隱私向量的取值來刻畫用戶隱私量值的大小,從而實現用戶隱私量化.考慮到用戶對不同隱私因子的重視程度不同,各隱私影響因子具有不同的權重,通過計算該隱私向量來實現隱私向量做量化刻畫.由于在已有的研究中對用戶隱私量值的計算主要通過直接進行各因子的權重簡單疊加來實現[18],認為各影響因子屬于同一維度且相互獨立,而忽略了各影響因子之間的相互影響.本研究將隱私向量作為空間中的向量指標,通過考慮各影響因子之間的相互關系確定其在隱私量值中的影響大小,以隱私向量的長度(二范數)來表示用戶的隱私量值的大小.
假設用戶j的隱私向量為Pj=(f1,f2,…,fn),fn表示與用戶隱私有關的量值因子,則用戶j的隱私量值Pj可以表示為

(1)
αi表示用戶對隱私影響因子fi的重視程度,即其權重的大小.
1.2確定隱私影響因子權重已有的研究主要通過信息熵理論等[18]方法確定相關因子權重的大小,在計算復雜度高的同時忽略了因子之間相互的影響作用,對此本研究采用考慮不同因子之間的相互關系的基于相關系數法的CRITIC[20]決策方法來確定各因子的權重.
1.2.1相關系數法 相關系數法的基本思路是通過各因子之間的相關系數來度量各因子重復信息的大小,是一種消除重復信息對綜合評價結果影響的客觀附權方法,具有顯著的理論和現實意義.從相關系數的數值上看,若2個因子之間的相關系數越接近于1,則他們的信息重復越嚴重,等于1,則完全重復;反之,若2個因子間的相關系數越接近0,則他們的重新信息越少,等于0,則無任何重復.各因子之間重合的信息越少,則能夠越全面的刻畫整體信息.多因子評價決策模型中因子往往不止2個,因而借助相關系數矩陣來合理確定因子的權重.具體計算步驟如下.
Step1計算相關系數矩陣.首先將原始數據標準化,假設原始數據包含m個因子,則其相關系數矩陣
Step2按列求和.計算第j列(1-rij)的和,可得到反映第j個因子與其他因子信息重復程度的行向量為

Step3計算因子權重.將上述向量做歸一化處理,可得一組權向量,則可得各因子權重大小
(2)
此外考慮到在多因子評價中某項因子在所有被評價對象上的觀測值可能存在較大的差異,變異程度越大,則說明該因子在被評價公式執行時達到平均水平的難度越大,表明它越能夠區分各評價對象在該方面的性能,則該因子應賦予較大的權重,反之則較小.
同時考慮因子變異性和因子間沖突性的2個重要因素.本研究采用由文獻[20]提出的客觀賦權方法.因子變異性用標準差體現,以表明一個因子各評價方案之間取值差距的大小,標準差越大,表明各方案之間取值差距越大;而評價因子間沖突性則以因子間的相關性為基礎進行考慮,即2個因子間具有較強的正相關將表明2個因子的沖突性較低.

(3)
其中Ij越大表示第j個因子所包含的信息量越大,即該因子的相對重要性越大,所以賦權重也相應越大.第j個因子的權重
(4)
綜上,隱私量化公式(1)中因子αi即可通過計算Wj實現,進而實現用戶隱私量化.
在新浪微博的社交網絡平臺中,用戶之間主要存在關注、粉絲和好友3種關系形態.關注和粉絲屬于單向關系,A用戶關注B用戶,則A成為B的粉絲,A能夠單方面接收到來自用戶B發布的所有的微博信息,但B不會接收A發布的信息;好友關系即用戶A和用戶B互相關注,發布的信息雙方互相能夠接收到,具有較強的互動屬性,屬于社交網絡中的一種強關系的體現.
本研究通過編寫JAVA網絡爬蟲程序,利用新浪微博開放授權的API數據接口,以一個初始用戶為起點,以滾雪球的網狀數據采集方式,獲取到其所處的社交網絡環境的用戶和相應微博數據.考慮到數據規模情況,主要獲取了初始節點周圍3層好友關系網絡的數據,即初始用戶本身、該用戶好友、該用戶好友的好友.這種獲取方式也在一定程度上杜絕了非活躍用戶的情況.歷時3個月獲取到來自新浪微博的32 386條用戶基本數據及2 000余萬條相關的微博的數據.用戶基本數據具體包含如下屬性.
1) 基本信息:用戶ID、用戶等級、微博數、粉絲數、關注數、好友數、粉絲列表、關注列表、好友列表(ID)、收藏數、賬戶注冊時間.
2) 隱私屬性:隱私設置情況、與地理位置行為有關的微博行為數(簽到數、包含地理信息的微博數、包含地理位置的照片數).
具體與隱私有關的設置的數據,由于數據獲取權限及平臺方數據的限制,主要取得3項主要設置信息:
1) 信息行為:是否允許所有人給我發私信(m);
2) 評論行為:是否允許所有人評論我的微博(c);
3) 地理位置信息:是否允許獲取我的地理位置相關的信息(g).
在具體獲取數據方面,由于相應設置用戶目前僅可選擇允許或禁止,屬于布爾型數據,則定義1為設置允許,0為設置禁止.
在新浪微博用戶數據中取m(私信)、c(評論)、g(地理信息)3項設置為隱私量化評價指標,通過這3項指標具體反映用戶對隱私信息的保護情況.采用隱私量化模型的方法可以得到新浪微用戶j的隱私向量為
Pj=(mj,cj,gj).
(5)
向量Pj代表用戶j在隱私方面的保護情況,mj是用戶j對其他用戶發私信行為的隱私保護情況;cj表示用戶j對其他用戶評論行為的隱私保護情況;gj表示用戶對地理位置信息的保護情況.通過對3項影響因子在隱私量值的權重進行分析研究,進而對隱私向量取模實現用戶j隱私的定量化分析.具體分析步驟如下.
Step1數據預處理.由于獲取的用戶中可能存在一定的僵尸用戶,即非活躍的、在微博環境中不產生價值的用戶.本研究中的僵尸用戶的評判標準有以下2條:1) 無關注、無粉絲、無微博;2) 賬戶創建時間大于3個月,且發布的微博數低于10條且好友數低于10且粉絲數低于5.經數據處理所剔除僵尸用戶約占總數據比為0.1%,獲得有價值的用戶數32 333個.
此外由于對上述3項隱私設置量值的獲取數據靜態的用戶當前的設置數據,并未包含用戶的歷時變更情況.本研究利用用戶地理位置有關的信息行為對用戶的地理隱私設置情況進行修正.將有歷史地理位置信息行為的用戶的地理位置設置情況數值修正為1.在私信和評論方面的行為數據因子的限制暫不做處理,也希望未來的學者可以考慮到相應的因素.
Step2通過這32 333條用戶數據,針對上述3項的隱私設置因子,可以得到一個R3×32 333的多因子評價矩陣.通過實際數據分析發現3個隱私設置因子間的相關性如表1所示.

表 1 因子相關性
注:** 在 0.01 級別(雙尾),相關性顯著.
從相關系數的角度看,3項隱私因子之間相關性較差,說明相互之間信息重合程度低,3項因子組合能夠更多的表達隱私信息.采用CRITIC客觀賦權的方法,確定3項隱私因子在用戶的隱私量值中的影響權重如表2所示.

表 2 新浪微博用戶隱私影響因子權重
如表2所示,用戶對接收私信的重視程度最大,具體表現為不愿意遭到陌生人的打擾;地理位置信息次之,主要出于地理信息安全問題泄露的考慮;評論行為的影響則相對較低,主要受限于用戶間需要互動的影響.隱私影響因素的權重數值上符合實際情況.
Step3對用戶的隱私向量取模,確定用戶的隱私量值

(6)
數值的高低表現了用戶對隱私保護情況的高低.數值上隱私量值越高,表示該用戶越開放其隱私信息,對隱私信息的保護情況越差,從而對隱私關注的程度越低;反之隱私量值越低,表示該用戶的隱私信息越封閉,對隱私信息的保護意識越高,對高隱私關注的程度越高.通過真實的新浪用戶數據進行隱私量化分析,具體隱私數據分布情況如表3所示.
從數據占比上看,高隱私群體和低隱私群體的總體分布占比為6.6%,屬于合理的區間,表明社交網絡中嚴格關注隱私信息和完全不關注隱私信息的

表 3 隱私量值分布
用戶在總體用戶中屬于少數群體,其中低隱私群體相對略高.在用戶隱私量值分布最明顯的區間為允許其他用戶評論且公開地理信息,占比為79.8%,幾乎覆蓋絕大部分用戶,也符合在微博社交網絡環境中,用戶為滿足自己表達和互動的需求,絕大部分用戶愿意別人來評論他的信息,及公開自己的地理位置信息.在私信、評論、地理信息3項隱私信息公開中,單獨公開私信有關的行為信息的用戶比例最小,總體占比為1.7%,與用戶隱私權重的占比也有一個較明顯的反饋,表明較多的用戶注重信息的保護,不愿意被其他用戶打擾.單獨開放評論或地理信息的用戶占比分別為3.3%、8.6%,出于與其他用戶互動或展示自己地理位置信息的需求,選擇開放相應的隱私設置.
Step4用戶隱私量值與用戶基本屬性的相關性分析.
由于已有的研究成果在計算得出隱私量值后并未對隱私量值與用戶基本屬性、用戶行為數據等方面進行相互驗證和解釋說明,本研究將通過對隱私量值的分布情況與用戶基本屬性進行相關性分析及擬合,從實證角度解釋和驗證所得隱私量值分布的合理性和所采用隱私量化模型的有效性.具體工作如表4所示.

表 4 隱私量值與用戶基本屬性的相關性
注:單元格包含零階(皮爾遜)相關性.
總體數據上看用戶的隱私量值與用戶的基本屬性之間相關系數均低于0.2.從相關系數表中也能看出用戶的關注數和用戶的好友數呈明顯的相關,用戶的等級和時間呈明顯相關.
1) 隱私量值與注冊時長.通過隱私量值與用戶的注冊時長可獲取到其相關皮爾遜系數為0.114,對其做二項式相關性擬合,可以發現:盡管從相關性的角度看,隱私量值和注冊時長之間不存在明顯的相關性分布趨勢,但從二項式擬合注冊時長的發展趨勢和隱私量值的變化角度,呈現出注冊時間越短、隱私量值越低的趨勢.圖1中也可以明顯發現公開評論和地理信息用戶的注冊時長明顯較其他隱私值的用戶注冊時長低,一定程度上反映了注冊時間短、隱私保護意識低的狀態.而有明確的選擇只公開私信的用戶的平均注冊時長最長,反映了此類用戶明確的隱私保護意識行為;同時公開評論和私信兩項設置的用戶的平均注冊時長也相對較長一些,也在一定程度上反映了用戶注冊時長越長,對隱私保護的選擇意識會有相應的提高.

圖 1 隱私量值與平均注冊時長分布
2) 隱私量值與粉絲數.隱私量值與粉絲數分布如圖2所示.

圖 2 隱私量值與粉絲數分布
對不同隱私量值群體平均粉絲數做相關性分析,并對不同隱私量值下平均粉絲數分布情況做多項式擬合,發現隨著用戶隱私量值的提升即隱私關注度降低,用戶的粉絲數呈明顯的增加趨勢,即隱私保護意識越低,粉絲數越大.高隱私關注的用戶群體,在開放評論設置后,粉絲數有明顯的提升,地理因素對粉絲的影響方面效果略差于私信設置,在開放私信設置后,粉絲數明顯提升.將評論設置替換為地理設置后由于缺乏互動相應粉絲數有所下降.
3) 隱私量值與關注數和好友數.從總體二項擬合趨勢看(圖3),隱私保護情況越差的用戶關注數越大.對用戶而言有選擇的開放評論設置,可以產生更多的社交行為,這類用戶關注的用戶數也相應較多;當開放地理信息后,出于保護地理信息的考慮,用戶的關注水平有所降低;而開放私信與評論起同等作用,希望有較多的互動,關注的用戶相對增加.低隱私群體的關注數總體也是最高的,基本符合預期.
隱私量值與用戶的好友數變化,整體不太顯著,但能夠看出隨著隱私權限的開放,用戶的好友數逐漸增加,其中由評論和私信引起的互動因素的影響較明顯,地理信息開放與好友數的變化呈微負向相關,可能與用戶對地理信息的隱私保護觀念有關.對比關注數和好友數的擬合圖(圖4),也能反映前文提到的好友數與關注數的明顯相關性.
4) 隱私量值與用戶發布的微博數.隱私量值與用戶微博數略微呈現正相關趨勢(圖5),隱私量值越低微博數相對越多.在隱私設置中開放評論和地理信息而關閉私信的用戶平均微博數明顯較低,主要原因可能在于用戶明確的關閉私信設置表明有一定的隱私關注意識,且開放了地理信息后發布微博的行為考慮到隱私的問題也有所降低.允許評論和私信的設置開放后,用戶的互動積極性提高,因而微博數也較高.

圖 3 隱私量值與用戶關注數
圖4隱私量值與好友數
Fig.4Privacyvaluesandthenumberoffriends

圖 5 隱私量值與微博數
5) 性別因素.如圖6所示,從性別上看,獲取的用戶數據中女性與男性的比例為57.7比42.3,女性用戶相對較多.女性的平均隱私量值為0.424 8,男性的平均隱私量為0.432 2,差異不明顯.從數據分布比例來看,女性在地理信息權限開放的比例較男性高,反映為女性用戶會有較多的地理位置信息表露的行為,同時又通過關閉私信和評論來避免別人的打擾來保護隱私.而在地理信息表露的基礎上評論設置開放的比例也明顯較男性低,也在一定程度上反映女性用戶在社交網絡中對隱私保護的意識較男性相對高一些.

圖6不同性別隱私保護情況
Fig.6Privacyprotectionofdifferentgender
6) 微博認證情況.如圖7所示,認證用戶群體的隱私量值的均值為0.434,總體上高于普通用戶的平均水平,隱私保護程度相對開放.總體用戶數據中5.42%的用戶為認證用戶,認證用戶中有較多為的是企業賬號.從隱私量值看10.3%的認證用戶屬于低隱私群體,明顯多于非認證用戶;開放評論及開放評論與私信設置的用戶明顯較普通用戶的數據占比大,與地理信息有關的行為的保護程度也較普通用戶高,符合認證賬號強互動和信息發布的要求.

圖 7 不同認證情況隱私量值分布
隨著互聯網的飛速發展,給人們的社交活動帶來了更好的體驗,但同時也為社交網絡用戶的隱私保護提出了更多的考驗.如何更好保護用戶隱私成為擺在社交平臺方、監管方和社交網絡用戶面前的一個重要的問題.本文從用戶隱私保護情況入手,建立用戶隱私向量,通過考慮各因子影響大小對用戶隱私進行了量化描述,并通過新浪微博用戶數據進行實證分析,對用戶隱私量值與用戶相關屬性進行了相關分析,從另一方面驗證和解釋模型的可行性以及揭示用戶的相應網絡行為和用戶隱私量值之間的關系.研究發現,由于新浪微博屬于一個信息發布和傳播的平臺,大部分的用戶傾向于傳播信息,因而用戶對評論的隱私保護情況相對較弱,而用戶的私信行為和包含地理位置信息的行為則受用戶的隱私關注情況影響明顯.同時用戶的隱私量值與用戶的好友數、關注數、微博數及性別和認證情況也有一定的相關性.從實用的角度,如果平臺服務方能提供更全面的隱私保護機制將極大地增加用戶對微博的使用體驗,如增加信息發布環境選項、信息接收來源選項、數據分享對象選項等.同時作為微博用戶在使用過程中及時的變更隱私信息保護提醒也具有較大的隱私保護意義.本文通過向量化的方式建立隱私量化模型,為在線社交網絡用戶隱私保護提供了一定的建議,在研究思路上也為未來的研究者提供了新的參考.但由于所獲取數據廣度和深度有限,包括在研究方法的選取上可能存在諸多未及深入的地方,希望未來的研究者能夠有更加深入的研究.
[1] 郭龍飛. 社交網絡用戶隱私關注動態影響因素及行為規律研究[D]. 北京:北京郵電大學,2013.
[2] WANG X G. Empirical analysis on behavior characteristics and relation characteristics of micro-blog users take“sina micro-blog” for example[J]. Library and Information Service,2010,54(14):66-70.
[3] WU Y, ZHOU C, CHEN M, et al. Human comment dynamics in on-line social systems[J]. Physica A:Statistical Mechanics and Its Applications,2010,389(24):5832-5837.
[4] 于洪,楊顯. 微博中節點影響力度量與傳播路徑模式研究[J]. 通信學報,2012,33(S1):96-102.
[5] BABBITT R, WONG J, CHANG C. Towards the modeling of personal privacy in ubiquitous computing environments[C]//Computer Software and Applications Conference,2007. COMPSAC 2007. DOI:10.1109/compsac.2007.224.
[6] HULL R, KUMAR B, LIEUWEN D, et al. Enabling context-aware and privacy-conscious user data sharing[C]//Mobile Data Management,2004. Proceedings. 2004 IEEE International Conference on. DOI:10.1109/mdm.2004.1263065.
[7] IACHELLO G, TRUONG K N, ABOWD G D, et al. Prototyping and sampling experience to evaluate ubiquitous computing privacy in the real world[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. DOI:10.1145/1124772.1124923.
[8] ZENG Y, SUN Y, XING L, et al. Trust-aware privacy evaluation in online social networks[C]//Communications (ICC), 2014 IEEE International Conference on. DOI:10.1109/icc.2014.6883439.
[9] 劉向宇,王斌,楊曉春. 社會網絡數據發布隱私保護技術綜述[J]. 軟件學報,2014,25(3):576-590.
[10] 李征仁. 移動互聯網環境下用戶隱私關注的影響因素及隱私信息擴散規律研究[D]. 北京:北京郵電大學,2014.
[11] 沈洪洲,宗乾進,袁勤儉,等. 我國社交網絡隱私控制功能的可用性研究[J]. 計算機應用,2012,32(3):690-693.
[12] 葛偉平. 隱私保護的數據挖掘[D].上海:復旦大學,2005.
[13] 石碩. 社交網站用戶隱私披露行為探究:隱私計算理論與TPB模型的整合[D]. 南京:南京大學,2011.
[14] GAO X, YANG K. Factors affecting internet users information privacy protection[J]. J Intelligence,2011,4:39-42.
[15] JIANG X, JI S B. Conceptual model of the factors influencing consumer online privacy concern and behavior intention[J]. Science-Technology and Management,2009,5:21.
[16] 張志杰,呂廷杰. 移動LBS用戶接受模型的實證研究[J]. 北京郵電大學學報(社會科學版),2012,14(1):56-61.
[17] 王斌,段友祥. 面向普適計算的用戶隱私量化方法研究[J]. 計算機工程與應用,2011,47(27):1-5.
[18] ZHU H Y, WU L R, LU J. Research on quantifying user privacy on social networking sites[J]. J Tsinghua University (Science and Technology),2015,54(3):402-406.
[19] 李鳳華,李暉,賈焰,等. 隱私計算研究范疇及發展趨勢[J]. 通信學報,2016,37(4):1-11.
[20] 林齊寧. 決策分析教程[M]. 北京:清華大學出版社,2013.