楊 城,王云凱,洪瑞隆
(1.西南財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院,成都611130;
2.博伊斯州立大學(xué)計(jì)算機(jī)學(xué)院,美國博伊斯83725)
基于拼音分析的網(wǎng)民密碼行為研究
楊 城1,王云凱1,洪瑞隆2
(1.西南財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院,成都611130;
2.博伊斯州立大學(xué)計(jì)算機(jī)學(xué)院,美國博伊斯83725)
從網(wǎng)民密碼字符中26個字母與漢語拼音的關(guān)系入手,研究中國網(wǎng)民密碼的文化特征。基于網(wǎng)絡(luò)漢字頻率及多音字處理方法進(jìn)行拼音字母的頻率統(tǒng)計(jì),在簡單闡述網(wǎng)民密碼的一般性統(tǒng)計(jì)特征后,重點(diǎn)分析中西方網(wǎng)民密碼與拼音文本、英語文本中字母頻率之間的相似性,揭示中國網(wǎng)民的密碼設(shè)計(jì)與漢語拼音密切相關(guān),并且習(xí)慣于采用拼音式的助記符密碼。
信息安全;密碼;拼音;文化特色;相關(guān)性分析;助記符密碼
2011年12月下旬,中國互聯(lián)網(wǎng)爆發(fā)了一場最大規(guī)模的用戶資料泄密事件。從最初程序員網(wǎng)站CSDN(CSDN.net)的640萬用戶數(shù)據(jù)被泄露,到天涯(Tianya.cn)被曝出3 000萬用戶密碼遭泄露,而后人人網(wǎng)(renren.com)、多玩網(wǎng)(duowan.com)、7K7K網(wǎng)(7K7K.com)、百合網(wǎng)(baihe.com)、貓撲(maopu.com)等知名網(wǎng)站相繼傳出用戶信息被盜用的消息。截至12月29日,CNCERT通過公開渠道獲得疑似泄露的數(shù)據(jù)庫有26個,涉及賬號、密碼2.78億條。其中,具有與網(wǎng)站、論壇相關(guān)聯(lián)信息的數(shù)據(jù)庫有12個,涉及數(shù)據(jù)1.36億條[1]。
由于這次泄密事件的涉及面相當(dāng)廣,不僅數(shù)量驚人,而且很多泄露賬戶采用明文密碼,沒有加密存儲,由此引發(fā)了一場席卷中國互聯(lián)網(wǎng)的安全恐慌。但對于學(xué)術(shù)界而言,它卻為密碼安全和網(wǎng)絡(luò)行為學(xué)的研究提供了寶貴數(shù)據(jù)和絕好機(jī)遇。這是因?yàn)榛谟脩裘艽a的特殊性,以往的研究要么是針對少量泄密數(shù)據(jù)的統(tǒng)計(jì)分析,要么采用問卷調(diào)查或小范圍測試的間接方式,還從未有過針對如此巨量密碼數(shù)據(jù)的直接研究[2-4]。更為重要的是,現(xiàn)有文獻(xiàn)的研究對象多為英語母語國家的密碼數(shù)據(jù),很少有專門針對非英語國家密碼特征的研究,而這些密碼數(shù)據(jù)中往往蘊(yùn)含著許多網(wǎng)民所在國特有的、新奇的、反映其文化特征的東西。
鑒于此,本文擬從網(wǎng)民密碼字符中26個字母與漢語拼音的關(guān)系入手,研究中國網(wǎng)民密碼的文化特征。重新計(jì)算網(wǎng)絡(luò)文獻(xiàn)中拼音字母的統(tǒng)計(jì)頻率,介紹本次研究所選密碼數(shù)據(jù)的概況,在簡單闡述網(wǎng)民密碼的一般性統(tǒng)計(jì)特征之后,詳細(xì)對比分析中西方網(wǎng)民密碼與拼音文本、英語文本中字母頻率之間的相似關(guān)系,并給出相關(guān)建議。
自上世紀(jì)50年代中后期中國文字改革委員會研究制定漢語拼音方案以來,國內(nèi)對拼音字母的頻率統(tǒng)計(jì)主要分為2個時(shí)期。第1階段是在漢字剛剛推行拉丁化拼音標(biāo)注后,相關(guān)學(xué)者和專家對紙質(zhì)文獻(xiàn)進(jìn)行的手工統(tǒng)計(jì),其代表人物有吳越、柳棉等[5-6]。第2階段是在進(jìn)入90年代以后,隨著計(jì)算機(jī)性能的不斷提升和應(yīng)用的廣泛普及,研究人員借助計(jì)算機(jī)進(jìn)行了更大規(guī)模的統(tǒng)計(jì)。其中,比較有代表性的是張春生、關(guān)薇薇的《漢語全拼碼中26個英文字母出現(xiàn)概率研究》,他們利用Visual Foxpro和漢字逆碼表,對文學(xué)、科技、政治三類文獻(xiàn),總計(jì)超過500萬漢字所作的統(tǒng)計(jì)分析[7]。但是,上述研究成果若直接應(yīng)用于網(wǎng)民密碼的特征分析,在針對性和準(zhǔn)確性上還有所欠缺,這主要表現(xiàn)在以下3個方面:
(1)在語料選擇上,前期研究多為紙質(zhì)文獻(xiàn)(包括掃描)或電子書籍和報(bào)刊,真正的網(wǎng)絡(luò)文獻(xiàn)并不多見,這與網(wǎng)絡(luò)時(shí)代漢字“遠(yuǎn)離紙筆、親近鍵盤”的現(xiàn)實(shí)相違背,因而無法體現(xiàn)網(wǎng)民用詞用字的習(xí)慣。
(2)語料數(shù)量有限,即使是文獻(xiàn)[7]中的500萬漢字也遠(yuǎn)未達(dá)到真正意義的大規(guī)模統(tǒng)計(jì),只能滿足常用漢字的拼音統(tǒng)計(jì)分析。
(3)在多音字問題上,文獻(xiàn)[7]中漢字逆碼表將漢字與拼音簡單地一一對應(yīng),缺乏對多音字的有效處理。雖然多音字常以某個單一讀音為主讀音(甚至部分讀音僅用于古文,現(xiàn)實(shí)中用得極少),并且很多僅僅是音調(diào)變化,但由于它們在3 500個常用漢字中的比例高達(dá)15.94%[8],因此對拼音字母的統(tǒng)計(jì)仍然具有不可忽視的影響。
因此,為了取得更精準(zhǔn)的統(tǒng)計(jì)數(shù)據(jù),本文對網(wǎng)絡(luò)文獻(xiàn)中拼音字母的出現(xiàn)頻率重新進(jìn)行了統(tǒng)計(jì)。出于時(shí)間和人力的考慮,本次研究沒有直接進(jìn)行大規(guī)模的統(tǒng)計(jì)分析,而是借鑒前人對網(wǎng)絡(luò)漢字的統(tǒng)計(jì)結(jié)果,結(jié)合多音字分析的方法進(jìn)行計(jì)算。
首先利用郭曙綸、方有林在《網(wǎng)絡(luò)漢字的大規(guī)模統(tǒng)計(jì)與分析》和《網(wǎng)絡(luò)漢字使用頻率統(tǒng)計(jì)數(shù)據(jù)及其說明》兩篇文章中的研究成果,得到每個漢字的頻率數(shù)據(jù)[9-10]。他們的研究是基于對14.06億網(wǎng)絡(luò)語料的統(tǒng)計(jì),其來源包括門戶網(wǎng)站、文學(xué)網(wǎng)站和報(bào)紙網(wǎng)站等,總共涉及 6 932個漢字,幾乎覆蓋一級字庫(3 755)和二級字庫(3 008)的全部漢字。然后利用類似成分的語料結(jié)合多音字處理軟件,對前1 001個高頻常用漢字(累計(jì)頻率為90%[9])中的非音調(diào)變化型的多音字進(jìn)行辨音統(tǒng)計(jì),得出每個多音字的每個讀音對應(yīng)的比例(例如“的”字,“de”音占99.4%,而“di”音僅占0.6%),如表1所示。

表1 包含多音字處理的漢字拼音統(tǒng)計(jì)結(jié)果
最后,利用式(1)計(jì)算出每個拼音字母的頻率數(shù)值。

其中,hz表示每個漢字;Rate1(hz)表示該漢字的字頻;Rate2(hz)表示該漢字對應(yīng)讀音的比例;Letter(hz,α)表示該漢字的全拼是否包含字母α(包含為1,否則為0)。
圖1是本文的統(tǒng)計(jì)結(jié)果與文獻(xiàn)[7]的對比分析(字母順序按本文的統(tǒng)計(jì)值由高到低排列)。可以看出,雖然2次統(tǒng)計(jì)在整體趨勢上差異不大(除字母u和e外,相同字母頻率的絕對差值都在0.01以下),但在字母頻率的大小排序上仍有較大變化(有14個字母的排序位發(fā)生改變)。更為重要的是,新的統(tǒng)計(jì)數(shù)據(jù)更加準(zhǔn)確地反映了網(wǎng)絡(luò)時(shí)代中國人(尤其中國網(wǎng)民)的拼音輸入習(xí)慣,為網(wǎng)民密碼分析提供了更加可靠的數(shù)據(jù)支持。

圖1 字母頻率統(tǒng)計(jì)結(jié)果
雖然本次密碼泄露事件涉及多家不同類型、不同主題的網(wǎng)站,但本文僅選取了最具代表性的天涯社區(qū)(Tianya)的泄露數(shù)據(jù)作為主要的分析對象,而將其他數(shù)據(jù)用作對比分析和輔助驗(yàn)證。這是因?yàn)門ianya作為一個以論壇、博客、微博為基礎(chǔ)交流方式,并以人文情感為特色的綜合性虛擬社區(qū)和大型網(wǎng)絡(luò)社交平臺,是目前最具影響力的全球華人網(wǎng)上家園,其用戶群體分布廣泛,包含不同年齡、不同階層、不同職業(yè)的網(wǎng)民。同時(shí),Tianya也是此次數(shù)據(jù)泄露事件中被盜數(shù)據(jù)量最多、數(shù)據(jù)項(xiàng)最完備的一家網(wǎng)站。因此,它能夠基本反映中國網(wǎng)民的賬戶特征,將其選為分析對象是十分合適的。
此次Tianya的泄露數(shù)據(jù)為2009年的備份數(shù)據(jù),共計(jì)29 865 731條賬戶記錄,每條記錄包含賬號ID、密碼PWD和Email信息。由于原始數(shù)據(jù)不夠規(guī)范并且包含一些錯誤的數(shù)據(jù)記錄,因此在數(shù)據(jù)分析前需要先進(jìn)行數(shù)據(jù)清洗,刪除那些密碼為空和E-mail存在明顯錯誤的記錄(例如沒有@符號,@符號前后部分為空等),以及一些公共的和內(nèi)部專用的賬戶對應(yīng)的記錄,例如馬甲A軍團(tuán)***@163.com(注:“馬甲”用于論壇隱身發(fā)帖)、user@hainan.net、idreg@tianya.cn、idreg@ hainan.cn等,以保證賬戶數(shù)據(jù)的普遍性。經(jīng)過清洗,最終用于分析的有效數(shù)據(jù)共計(jì)28 988 172條。
4.1 一般性密碼特征
通過一些簡單的SQL語句,可以很快得出中國網(wǎng)民密碼的一些基本結(jié)構(gòu)特征。
例如,2/3以上的密碼長度集中在6位~8位,平均長度為7.94位,其中數(shù)字與字母的比例約為3:1,即一個8位的平均密碼中大約包含6位數(shù)字和2位字母。可見,中國網(wǎng)民更加偏好于數(shù)字型密碼。就字符結(jié)構(gòu)而言,63.8%的賬戶為純數(shù)字型密碼,10.3%的為純字母型密碼,僅24%的為數(shù)字字母混合型,而選用特殊字符的密碼更是低至1.9%(后兩個數(shù)字在MySpace的網(wǎng)民中分別為81.0%和8.3%[11])。這表明中國網(wǎng)民的密碼安全意識普遍偏低。
在對常用密碼的分析上,筆者發(fā)現(xiàn)許多有別于西方的、獨(dú)具中國文化特色的密碼現(xiàn)象:除了傳統(tǒng)的123456,111111,000000,還有被國人視為吉祥數(shù)字的666666,888888,更有中文數(shù)字的諧音密碼,如5201314(我愛你一生一世)、7758520(親親我吧我愛你),以及拼音密碼woaini(我愛你)、woshishui(我是誰)、woaiwojia(我愛我家)等。
此外,通過分析最常見的密碼子串,筆者發(fā)現(xiàn)除123,000,111,520/521,1314這類數(shù)字子串的出現(xiàn)頻率極高外(都在1%以上,123更是超過10%),一些常用漢字的拼音子串的頻率也非常高,如jia(家)、hao(好)、wan(玩)、xiao(小)等都在0.5%左右。而經(jīng)常出現(xiàn)在西方密碼中的password,baby,ball,boy等子串的頻率卻都在萬分之五以下,僅abc和love的頻率接近0.5%。
最后,針對常用數(shù)字字符的分析顯示,除了最常用的1/2/0,數(shù)字8排在第4位(通“發(fā)”的音),而數(shù)字4則排在最后(通“死”的音)。但 Burnett和Kleiman的研究卻發(fā)現(xiàn),在西方的密碼字符中,數(shù)字8的頻率最低[12]。
4.2 密碼字母頻率分析
由于文化習(xí)慣和思維模式上的差異,中西方網(wǎng)民在選擇26個字母(不區(qū)分大小寫)作為密碼字符時(shí)存在較大差異。表2詳細(xì)展示了這些字母在不同應(yīng)用環(huán)境中的出現(xiàn)頻率,4組數(shù)據(jù)依次對應(yīng)英語文本(Type_A)[13]、西方網(wǎng)民密碼(Type_B)[12]、漢字拼音文本(Type_C)和中國網(wǎng)民密碼(Type_D)的具體頻率值,其中,灰色數(shù)值表示每一組數(shù)據(jù)中出現(xiàn)頻率最高的3位,下劃線數(shù)值表示出現(xiàn)頻率最低的一位。

表2 基于不同應(yīng)用環(huán)境的字母頻率分布 %
從表2可以看出,中國網(wǎng)民密碼中最常見的字母依次為A/I/N,出現(xiàn)頻率最低的字母為V;而西方網(wǎng)民密碼中最高和最低的字母依次為E/A/R和Q。同時(shí),雖然具體數(shù)值有差異,但Type_D同Type_C最為相似。深入比較還可以發(fā)現(xiàn),在頻率最高的前10個字母中,Type_D與Type_C有9個相同項(xiàng),而與Type_A僅有6個相同項(xiàng)。
以上比較表明中國人的密碼字母頻率更加接近于拼音字母的頻率,說明國人在設(shè)置密碼時(shí)較多地參考了漢語字詞和短語,而非英文單詞或短語。為了進(jìn)一步驗(yàn)證這一特征,本文對4組數(shù)據(jù)兩兩一組進(jìn)行相關(guān)性分析,利用空間向量的余弦公式來計(jì)算它們之間的相關(guān)性:

其中,D1,D2分別表示一個26維的空間向量;W1i和W2i分別表示對應(yīng)維度的權(quán)重(即字母的頻率值), Sim(D1,D2)表示2個向量的空間夾角的余弦值,該值越接近于1相似性越高。計(jì)算結(jié)果如表3所示。

表3 4組字母頻率數(shù)據(jù)的相關(guān)性分析結(jié)果
可以看出,西方網(wǎng)民密碼與英語文本高度相關(guān),而國內(nèi)網(wǎng)民密碼與拼音文本的相關(guān)性也非常高,印證了前面的分析。同時(shí)注意到,后者的相關(guān)性(0.928)相對于前者(0.961)略微偏低,原因可能是西方網(wǎng)民設(shè)置密碼的模式較為單一,只能參照英語文本;而國內(nèi)網(wǎng)民雖然主要基于漢語拼音設(shè)置密碼(尤其體現(xiàn)在年齡層次偏高、文化程度偏低的網(wǎng)民中),但也有少部分人參照英語單詞和短語。這一點(diǎn)從下面的數(shù)據(jù)能夠得到一定的印證:用類似的方法分析CSDN(中國軟件開發(fā)聯(lián)盟)的密碼特征,可以看到CSDN的網(wǎng)民密碼同英語文本的相關(guān)性為0.862,略高于此處Tianya網(wǎng)民的0.841。這是由于CSDN作為中國最大的程序開發(fā)者技術(shù)社區(qū),其網(wǎng)民年齡普遍偏低,文化程度整體高于Tianya,并且他們在工作中大量接觸英語,因此其密碼結(jié)構(gòu)中的英語成分也體現(xiàn)得相對較多。
表2中Type_C與Type_D相比,網(wǎng)民密碼中輔音字母的頻率值普遍偏高(僅D/G/H/N例外)。這反映出國人喜歡采用拼音式助記符密碼,即基于某個漢語短語(稱為助記符短語)中每個漢字的拼音首字母來設(shè)置密碼。例如,參照成語“塞翁失馬,焉知非福”,其密碼可以設(shè)置為“swsmyzff”。對于4個密碼頻率較拼音文本偏低的輔音字母,H是因?yàn)槁N舌音zh/ch/sh在縮寫時(shí)屏蔽了第2個字母,N/G是因?yàn)槿粗械那氨琼嵞?an/en/in/un/vn)和后鼻韻母(ang/eng/ing/ong)在縮寫時(shí)都被刪除,而D是因?yàn)闈h字中的第一高頻字“的”(de)一般很少出現(xiàn)在助記符短語中。由此可見,這些所謂的“例外”,恰好印證了本文對拼音式助記符密碼的分析。
此外,本文用同樣的方法分析拼音文本同中國網(wǎng)民的賬戶ID、Email賬號(@符號前面的部分)的相關(guān)性,2個數(shù)值分別為0.943和0.958,都高于同密碼的相似度(0.928)。這說明網(wǎng)民在命名賬戶ID和Email賬號時(shí),比設(shè)置密碼更加習(xí)慣于參照漢字拼音。
綜上所述,中國網(wǎng)民的密碼設(shè)計(jì)與漢語拼音密切相關(guān),習(xí)慣于采用基于拼音短語式的助記符密碼。
需要注意的是,這些結(jié)論一方面為網(wǎng)絡(luò)安全、密碼分析以及行為學(xué)分析方面的專家學(xué)者提供了重要的研究素材和參考依據(jù),但另一方面它也暴露了網(wǎng)民密碼的結(jié)構(gòu)特點(diǎn),為居心叵測者提供了便利。例如,過去有很多文獻(xiàn)都認(rèn)為助記符密碼是一種不錯的密碼設(shè)計(jì)模式,既方便記憶,又難于破解。但最近的研究表明[14],助記符密碼也并非萬能,它并不比“普通”密碼更安全。只要熟悉密碼人群的設(shè)計(jì)模式和短語來源,通過構(gòu)造一個足夠廣泛的“助記符短語詞典”,結(jié)合常用的字符/短語變換模式(如o/0,1/L,我愛你/521,二月/Feb等相互替換),那么助記符密碼將變得同樣脆弱。
因此,本文建議中國網(wǎng)民在設(shè)計(jì)助記符密碼時(shí),助記符元素的選擇應(yīng)該更加廣泛,避免采用單純的拼音字母,而應(yīng)盡量選擇拼音與英語混合的助記符模式,并通過諧音或象形等方式添加數(shù)字和特殊字符,從而在保持易記性的同時(shí)進(jìn)一步增強(qiáng)密碼強(qiáng)度。例如,一個被網(wǎng)友戲稱為“CSDN杯我最喜歡的密碼評選”最具詩意的密碼:“ppnn13%dkstFeb.1st”,其助記符短語為“娉娉裊裊十三余,豆蔻梢頭二月初”(杜牧《贈別·其一》),它的密碼主體依舊是拼音式的助記符,但同時(shí)巧妙地結(jié)合了數(shù)字、單詞縮寫和特殊符號。
[1] 國家互聯(lián)網(wǎng)應(yīng)急中心.關(guān)于相關(guān)網(wǎng)站用戶信息泄露事件的通報(bào)[EB/OL].(2011-12-30).http://www.cert. org.cn/articles/bulletin/common/2011123025709.shtml.
[2] Riley S.Password Security:What Users Know and What They Actually Do[J/OL].[2013-08-11].http://www. surl.org/usabilitynews/81/Passwords.asp.
[3] Florencio D,Herley C.A Large-scale Study of Web Password Habits[C]//Proc.of WWW'07.Banff, Canada:[s.n.],2007:657-666.
[4] Gilbert N,Clark T.Passwords and Perceptions[C]//Proc. of AISC'09.Wellington,New Zealand:[s.n.],2009.
[5] 吳 越.聲母和韻母出現(xiàn)率的統(tǒng)計(jì)[J].拼音,1956,8: 46-48.
[6] 柳 棉.關(guān)于字母和數(shù)字的相關(guān)統(tǒng)計(jì)[J].語文建設(shè), 1962,3:9.
[7] 張春生,關(guān)薇薇.漢語全拼碼中26個英文字母出現(xiàn)概率研究[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(7):146-147.
[8] 許艷平,張金城.現(xiàn)代漢語多音字定量考察[J].長江學(xué)術(shù),2010,(2):168-172.
[9] 郭曙綸,方有林.網(wǎng)絡(luò)漢字的大規(guī)模統(tǒng)計(jì)與分析[M].漢字研究(第1輯).北京:學(xué)苑出版社,2005.12-18.
[10] 郭曙綸,方有林.網(wǎng)絡(luò)漢字使用頻率統(tǒng)計(jì)數(shù)據(jù)及其說明[EB/OL].http://wenku.baidu.com/view/7ebd9b1 db7360b4c2e3f644f.html.
[11] Schneier B.Real-world Passwords[EB/OL].[2013-08-11].http://www.schneier.com/blog/archives/2006/12/ realworld_passw.html.
[12] Burnett M,Kleiman D.Perfect Password:Selection, Protection,Authentication[M].[S.l.]:Syngress,2006.
[13] 維基百科.字母頻率[EB/OL].[2013-08-11].http:// zh.wikipedia.org/wiki/%E5%AD%97%E6%AF% 8D%E9%A2%91%E7%8E%87.
[14] Cynthia K,Sasha R,Lorrie F C.Human Selection of Mnemonic Phrase-based[J/OL].[2013-08-11].http:// repository.cmu.edu/isr/36/.
編輯 金胡考
Behavior Research of Internet User Passwords Based on Pinyin Analysis
YANG Cheng1,WANG Yun-kai1,HONG Rui-long2
(1.School of Economic Information Engineering,Southwestern University of Finance and Economics,Chengdu 611130,China;
2.School of Computer Science and Engineering,Boise State University,Boise 83725,USA)
This paper studies the cultural features of Chinese Internet users password by studying the relationship of 26 letters from Internet users password characters with Pinyin.It does the frequency statistics based on the network of Chinese phonetic alphabet frequency and polyphone treatment method.After briefly general statistical characteristic of password,it is focus on analysis of the similarity between Internet users'password and the frequency of letters in the Pinyin text and English text in western countries and in China.It reveals that the password of Chinese Internet users design is closely related to Pinyin,and accustomed to using phrases mnemonic phrase-based passwords like Pinyin.
information security;password;Pinyin;culturalfeature;correlation analysis;mnemonic phrasebased password
1000-3428(2014)09-0174-04
A
TN918.1
10.3969/j.issn.1000-3428.2014.09.035
中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)基金資助項(xiàng)目(JBK130503);國家社會科學(xué)基金資助項(xiàng)目(11AZD077)。
楊 城(1977-),男,副教授、博士,主研方向:復(fù)雜系統(tǒng)仿真,經(jīng)濟(jì)博弈論,數(shù)據(jù)挖掘;王云凱(通訊作者),碩士研究生;洪瑞隆,副教授、博士。
2013-07-11
2013-10-28E-mail:tairur@yeah.net