主持人:海風
薦書郵箱: 37229605@qq.com
主持人的話:
《咖啡機中的間諜》與間諜并沒有多大關系,就如同它的副標題“個人隱私的終結”所揭示的,本書所講,乃是計算機技術導致的社會行為的改變對個人隱私的挑戰。本書作者奧哈拉和沙德博爾特均為英國計算機科學與人工智能方面的資深專業人士,但他們的興趣不僅在于計算機或人工智能,還在于這些技術所引發的新的社會問題以及可能的解決方案。兩位作者對此抱持樂觀的態度,他們認為,在信息時代,盡管個人的信息可以輕而易舉地被存儲、搜索和傳遞,并且這一過程越來越難以為信息的主人所控制,但人類社會并不會陷入科幻小說《一九八四》所描繪的那種噩夢中。
本書的中文版于2011年底首版,面對飛速發展的計算機技術,書中使用的資料或許已顯陳舊,但作者對技術與社會復雜關系的洞見仍然沒有失去價值,兩位作者提出了一個值得探討的好問題,其實很值得科幻作家們用科幻小說來解答。
本期我們選摘的是這本書第四章的前半部分,在這部分,作者并未探討本書的核心問題,但卻展現了專業人士對計算機技術發展的冷靜觀察。
在過去二十年中,計算機技術的形象已發生了變化。計算機曾經是一種尖端的、令人興奮的、科幻小說中所描述的工具。而現在許多人認為它們是一種令人厭煩的東西。例如在英國高校中選修計算機課程的學生的數量在2001年到2006年之間下降了40%。而在美國、加拿大和其他西方國家也出現了類似的下降。與此同時,如今計算機已無所不在,并且改變了我們的生活。
當然在這兩個趨勢之間有著某種聯系。一項僅僅給人以希望的技術可能引發各種積極和消極的猜測。在計算機的主要用途還僅僅是從事各種復雜和重復性計算的時代,一種能夠控制我們的生活、替代我們的記憶,并且消除世界上所有紛爭的理性思考機器還只是一種有趣的假設。而如今隨著計算機在西方民主國家中滲透到人們生活的每個角落,以上的這些設想已經成為現實,因而人們也就對它們失去了新鮮感。取而代之的是他們對隨意散落在社會各個角落的、各種拼湊在一起的電腦裝置的“數字朋克式”的擔憂。
這就是所有技術的命運。我們中有的有些人至今仍然對《星際旅行》中“企業號”宇宙飛船上各種令人驚嘆的尖端技術記憶猶新:這種飛船的艙門不用手推就會嗖的一聲自動開啟!機組人員用一個很小的通信器就可以相互對話!真是不可思議!但是如今還有什么比在任何一個超市都能看到的自動門更讓你感到無聊的東西嗎?而科克船長對著神奇的通信器所說的那些晦澀難懂的胡言亂語也許要比如今大多數人通過手機所傳播的陳詞濫調更為有趣。
電子計算機中如何在僅僅幾十年的時間內就從科幻小說中的神奇機器變成了如此無所不在、如此普通的東西呢?導致這一現象的是摩爾定律。在1965年,世界上最大的芯片生產商英特爾公司的創始人戈登·摩爾寫了一篇預測未來十年集成電路芯片發展趨勢的小文章。根據他的預測,隨著時間的流逝,計算機將越來越便宜。他不僅關注電子方面的因素,而且還關注經濟方面的因素:
集成電路最吸引人的一點是其成本的降低。隨著技術的發展,一個單一半導體芯片上所能夠容納的電路功能越來越強大。對于簡單的電路來說,每個元件的成本與元件的數量大致成反比。這是由每個半導體能夠容納越來越多的元件所導致的結果。但是隨著元件數量的增加,產量的下降將抵消復雜性的增加,從而趨向于導致每個元件成本的提高。因此在這一技術的發展過程中的任何一個時候都存在一個最低成本。目前當每個集成電路使用50個元件的時候就達到了最低成本。但是在整體成本曲線下降的情況下這一最低成本迅速上升……在五年之后,當每個集成電路含有1000個元件的時候電路成本達到最低值(條件是這種電路功能可以被較大批量地生產)。根據我的預計,在1970年,每個元件的生產成本僅為今天的十分之一。
以最低元件成本產生的集成電路的復雜性每年大約增加一倍??梢源_信,短期內這一增長率即便不是有所加快的話,也會繼續保持。而在更長時期內的增長率應是略有波動,但是有理由相信,這一增長率至少在未來十年內幾乎維持為一個常數。這意味著到1975年,以最低成本生產的集成電路芯片上的元件數量將達到65000個。
我相信如此之大的集成電路可以被建造在單個的芯片上。
摩爾的意思是,以單個半導體最低成本生產的集成電路芯片上的半導體元件的數量每年增加一倍。換言之,假定一個芯片的功能與其上面的晶體管數量成正比的話,那么在這一時期集成電路芯片的功能以每年一倍的速度增長。在進一步思考和觀察之后,摩爾發現這一成倍增長的趨勢仍在繼續,但是增長的速度比他預測的稍微慢一些——18個月到兩年大約增長一倍。摩爾對于確定目標或做出準確的預測并不是特別感興趣。他的目的是要指出,電子產品的成本正在迅速地、大幅度地下降。
摩爾有關計算機功能每18個月增長一倍的預言不久就被稱為“摩爾定律”。人們之所以對這一定律如此感興趣,主要有三個方面的原因。首先,雖然摩爾的這一預測是建立在經驗之上的,但是它并不僅僅是對過去現象的觀察,而是基于對芯片的生產方式以及降低成本的可能途徑的深入了解,因此具有預見性。其次,讓許多人感到吃驚的是,摩爾定律在1975年以及隨后的很多年中一直得到了事實的驗證。再次,摩爾定律即使沒有被看成是自然規律,也被看成了經濟規律,因為微電子行業開始將它用做衡量一個企業成功與否的關鍵性指標。如果一個芯片生產企業最新生產的芯片功能沒有達到它在18個月前所生產的芯片功能的兩倍,那么這個企業就會被認為失敗的。
事實上,即使在40年之后的今天,摩爾定律仍然適用。但是如今芯片是如此之小,其上面的電路的密集程度是如此之大,以至于這一行業開始感受到了“量子效應”的影響(它將最終導致摩爾定律的終結或者對計算機技術的物理原理的徹底反思)。摩爾當時所列舉的芯片上有數萬個電晶體元件,而英特爾公司所生產的最新的一種芯片——雙核英特爾Itanium 2處理器——上有數十億個元件。
正是這種計算機功能的大幅度增長——增長幅度達到10億倍(實際上摩爾定律要求計算機功能每星期增長1%)——才使得計算機成為我們生活中一個必不可少的部分。我們可以想象一下在1965年需要一臺計算機用1秒鐘來運行的一個計算。在2005年,同樣的一個計算,具有同樣硬件量的計算機僅需1微秒就可以運行1000次。就數據存儲量而言,在1965年用來存儲我們這一本書的芯片如今可以存儲美國所有學術研究圖書館中的所有書籍。
這一驚人的增長可以導致許多事情發生:大量的信息可以被存儲起來。計算機的計算速度達到了無與倫比的程度。信息技術在提高效率方面的作用非常直觀——如果一家公司的IT設備無法滿足實際需要,那么這個公司IT部門的經理只需要再等上幾個月就可以用同樣的成本買到功能更為強大的計算機。但是這種功能的增加對于計算機所能夠解決的問題意味著什么呢?
人們總是對功能強大的計算機感到擔憂,但是這些擔憂大多數都是沒有根據的。在20世紀60-70年代曾經出現過一種很有影響力但是不太可信的哲學思想,那就是:既然人體基本上只不過是一臺極為復雜的計算機 ,那么達到相同復雜程度的機械計算機最終會獲得曾經被認為只有人類才具有的屬性(如情感、解決問題的技能以及邪惡感)。在阿瑟·C.克拉克的科幻小說《2001:太空漫游》中,一臺名叫HAL的智能計算機意識到自己即將被關閉。為了阻止這一情況發生,它殺死了許多的人。
當然這種事情并沒有發生——人類和計算機在許多方面還是有著很大的差別的。靠強力驅動的計算機能夠在浩瀚的數據中找到其所需要的東西,這種功能雖然極為有用,但也會導致很多問題。計算機領域的進展使我們能夠找到很多原本無法被找到的信息。這在許多情況下都是非常重要的,但是對于隱私來說卻不是一件好事。雖然它們也許很普通,但并不是無害的,因為它們威脅到了隱私的一個雖然是非正式的,但卻是很重要的防線——實踐隱匿性(指紙基公開記錄的不易獲取性)。
信息的收集——實際上就是使人際交往所留下的痕跡永久化的嘗試——以各種方式改變了我們的社會。查爾斯·狄更斯的著名小說《荒涼山莊》就是對19世紀隱私發展背景的一個很好的描述。它講述了一個大家族中的整整一代人由于卷入錯綜復雜的“賈迪斯訴賈迪斯”案而家破人亡的故事。故事中有幾個人物的隱私因為卷入這一訴訟而遭到了侵擾。例如,其中的兩個年輕人需要獲得法院的允許才能夠與他們的監護人約翰·賈迪斯生活在一起,其中一人甚至連改變職業也需要申請法院的批準。
在這一背景中潛伏著更為險惡的力量。一個看上去很小的事件引起了像魔鬼一樣邪惡的律師圖金霍恩的注意。他開始調查此事的原因。在這一事件的背后隱藏著多年的隱瞞和罪過,而圖金霍恩為解開這一秘密所需要的信息就隱藏在存放于某個地方的某些文件之中。然而當時的制度結構是如此之混亂,以至于這個律師為解開這一秘密而收集相關信息的過程就像偵探故事一樣撲朔迷離。該書中人物之所以能夠保持其私密空間的完整性,只不過是因為其他人缺乏將有關他們的各種雜亂的信息組織成為一個清晰的有機整體的手段。只有像圖金霍恩和古皮那樣掌握必要技能的人才能夠查找到這些信息——即使是這些人也只有在堅持不懈地搜尋相關信息的情況下才能夠達到目的。
以上這個例子很好地說明了作為保護隱私的一個重要因素——實踐隱匿性。信息的存在是一回事,但是如果信息是以一種很難為人們所發現的方式存在的,那么從這些信息中獲得重要知識就完全是另一回事?!痘臎錾角f》在出版一個半世紀之后仍然是有關信息的力量的最偉大的一本書。它揭示了由實踐隱匿性所提供的對隱私的保護是多么的脆弱。
摩爾定律是如何破壞實際隱匿性的呢?讓我們首先舉一個屬于典型的人類技巧的例子——國際象棋。計算機科學家總是將國際象棋作為一項重要的任務。這主要是出于兩方面的原因。首先,至少在公眾的眼中,它被與人類智慧聯系在一起。只有聰明的人才下國際象棋,而越聰明的人在這方面的技巧也就越高。其次,它是一個具有良好結構的技巧。在任何一個階段,兩位對手的目標都是很明確的。而且他們所能夠走的棋的數量可以被制作成一個簡短、明確和易于處理的列表。一步棋要么是符合規則的,要么是不符合規則的,不存在模棱兩可的情況。因此諸如艾倫·圖靈等計算機領域的先驅都認為國際象棋是測試計算機智能的一個很好的工具。
一個人在下國際象棋的時候很難確保獲勝。在一局棋的任何一個階段,每一步棋平均都有20種左右的走法。在整個一局棋中,每一方平均能夠走25步棋,也就是說,雙方一共能走50步棋。因此,從第一步棋算起,一局棋中可能會出現2050種不同的棋局(這只是一個大致的估計,實際情況可能會比這更多)。這是一個非常龐大的數字,大約是一個“1”后面加上65個“0”。如果你用一秒鐘考慮每一個棋局的話,那么直到宇宙終結的時候你也只能完成其中的一小部分。
那么人們是如何下棋的呢?我們是用智能的方法下棋的。我們不會考慮那些愚蠢的走法。我們會使用策略,發現好的走法,并會估計對方所可能采取的應對方法。讓我們考慮一下可以看到下五步棋所可能發生的棋局(非常聰明的棋手是能夠做到這一點的)的棋手的情況。如果還是假定每步棋有20種不同的走法的話,那么他所要考慮的棋局的數量大約為2010(這也是一個非常巨大的數字:10 240 000 000 000)。但是他不會考慮所有可能出現的情況,而只會認真考慮20多種可能出現的棋局。
當計算機還處于傻大笨粗的發展階段的時候,它們沒有足夠的智能去篩除不可能的走法,也沒有足夠強大的功能去考慮所有的可能的走法。因此它們在與人類對弈的時候往往會輸掉。但是它們的水平在不斷提高。迪特里?!て樟制澯?951年所編寫的國際象棋計算機程序能夠解決一些簡單的問題,它只走兩步就被對方將死了。在1956年,MANIAC 1計算機可以在沒有兩枚“主教”棋子的情況下在6×6的棋盤上下國際象棋。它走4步棋用了12分鐘。1958年,一臺計算機首次在國際象棋比賽中擊敗人類對手。但是它的這個對手只是在與它對弈之前1小時才學習了象棋規則。
1966年MAC HACK VI計算機進入了馬薩諸塞州業余象棋錦標賽。它是進入國際象棋聯賽的第一臺計算機,成績是一平四負。在第二年它戰勝了第一位人類對手。到了1967年底,它4次進入聯賽,成績是3勝3平12負。10年之后,最好的計算機已經是很厲害的棋手了:其中一臺計算機在快棋比賽中第一次戰勝了一名國際象棋賽大師;另一臺計算機在明尼蘇達公開賽中以5勝1負的成績奪冠。1988年,計算機首次在聯賽中擊敗象棋大師。到了20世紀90年代初,包括世界冠軍加里·卡斯帕羅夫在內的頂級棋手也會偶爾成為計算機的手下敗將。在1996年,卡斯帕羅夫在聯賽中與一臺名叫“深藍”的計算機對弈,他輸掉了一局棋,但是以4∶2的總比分戰勝了“深藍”。但是“深藍”在于1997年舉行的六局棋的復賽中戰勝了卡斯帕羅夫。一臺計算機最終戰勝了世界上最優秀的國際象棋大師。如今在國際象棋比賽中高端計算機與人類選手相比已具有明顯的優勢:在2005年的一場六局棋的比賽中,一臺名叫“九頭蛇怪”的計算機以5.5∶0.5的比分戰勝了世界排名第7的棋手邁克爾·亞當斯。
隨著計算機象棋軟件設計人員經驗的增長,他們所編制的軟件也將越來越好。但這并不意味著計算機程序比人更聰明。它們只不過仍然像以前一樣以很笨拙的方法搜索所有或者大多數可能的走法。那么它們是怎樣靠著這種笨拙的方法戰勝人類棋手的呢?
伴隨著計算機的這種笨拙方法的是蠻力??ㄋ古亮_夫在3分鐘內能夠考慮10種不同的棋局。而在1996年“深藍”盡管輸給了卡斯帕羅夫,但是它在3分鐘內能夠計算出500億種不同的棋局。由于摩爾定律的作用,如今計算機的計算功能與1996年相比已經增加了100倍。由此我們也可以看到卡斯帕羅夫的人類智能和技巧是多么的了不起:盡管他的思考速度比計算機慢50億倍,但是他仍然在聯賽中戰勝了計算機。但是蠻力最終會取得勝利。
我們不能低估蠻力攻擊法的巨大的力量。在密碼學中,無論我們所使用的秘密多么的巧妙,我們總是應該考慮到蠻力攻擊的可能性。蠻力攻擊就是通過嘗試所有可能的密鑰的方法對信息進行解密。一般而言,用蠻力攻擊法破解一個密碼所需的嘗試次數與密鑰數量的一半(平均值)成正比。對于美國標準DES編碼的256個可能的密鑰而言,平均需要嘗試255(36 028 797 018 963 968)次才能夠找到真正的密鑰。任何比強力攻擊需要更多時間的方法都不值得加以考慮。因此界定“密碼破譯”的方法之一就是比蠻力攻擊更好的方法。對于某一特定的密碼而言,蠻力攻擊的方法可能太費時間。在這種情況下如果沒有比蠻力攻擊更好的方法的話,那么這種密碼就是無法破解的。但是隨著計算機功能的日益強大,蠻力攻擊方法的效果越來越好,因而在這方面的目標總是在不斷發生變化。
例如,在20世紀70年代DES剛剛被開發的時候,要破解它所需的255次嘗試超出了任何人的技術能力。然而,在1998年,一個名為“電子前沿基金”的倡導公民自由的美國私人組織使用一臺名為“深裂”的配備了專門硬件的計算機只用了56個小時就破解了這一密碼。這導致幾年之后DES被AES所取代。
摩爾定律使我們能夠從我們的計算機,尤其是——在隱私語境中——從我們所能夠儲存的越來越大量的數據(這也要感謝摩爾定律)中,獲得比以前多得多的東西。各種組織和官僚機構總是希望獲得盡可能多的信息,因為它們所掌握的信息越多,它們對于這個世界了解得就越多。但是我們需要從信息庫中獲得的信息是與知識十分近似的有用的信息。從數千個超市自動收款臺上所收集到的信息可能是很全面的,但卻是無用的。我們真正所需要的是能夠從這些信息中得出的推論。例如,這個品牌的豆類銷售量下降了;這個牌子的啤酒銷售量與那個牌子的巧克力的銷量之間存在某種聯系;等等。根據這些推論我們可以采取相應的行動。我們所需要的是從嘈雜的數據中提取出這些微弱的有用信號。
從巨大的數據集中提取有用的信息的過程被稱為數據挖掘。它是計算機科學、統計學和信息檢索這三個學科結合所產生的一門復雜的學科。大量的數據使我們能夠發現非常偶然的關系或者非常低的概率。例如,我們可以想象某種藥物可能具有非常罕見的、有害的副作用。其發生概率為萬分之一。這種副作用在臨床測試階段很難被發現。如果被發現的話,它的發生率看起來要高于實際情況(假設在1000名參與測試的人中有2人出現了副作用,那么副作用的發生率似乎為0.2%,而不是實際的0.01%)。但是在這一藥物被使用了數年,并且有關其使用情況的數據被收集之后,我們就會有足夠的樣本來發現很小的可能性以及那些出現罕見副作用的人所具有的共性。這樣,我們最終能夠發現某個副作用與某種基因或生活方式有關。這一信息對開處方的醫生很有幫助。如果沒有從龐大的數據庫中挖掘有用信息的巨大的努力,我們就不會發現這種副作用以及緩解這種副作用的方法。
數據挖掘在科學、商業、政府管理和公共健康方面極為有用。但是當一種方法能夠從大量信息中總結出某種模式的話,那么它很明顯也會對隱私構成威脅。在無法總結出模式的情況下,單條信息幾乎是毫無用處的。行為模式可以揭示一個人有婚外戀,是某個政黨的成員或者信奉某一宗教或邪教。某個人偶爾走過一個教堂并不說明他是這個教堂的成員。但是如果他每個星期天都出現在某個教堂附近的話,那么我們就會有更多的理由相信他是這個教堂的成員了。數據挖掘可以讓我們發現隱藏在原始數據中的各種模式。
但是數據挖掘仍然是一項具有挑戰性的任務——有用數據在原始數據中所占的比例可能非常小。例如,讓我們假定數據挖掘的任務是在某人的硬盤上搜尋犯罪證據。讓我們再假定這一犯罪證據的信息量非常大——它可能是長度為大約一兆字節的恐怖活動手冊。如果用小四號字在A4大小的紙張上單頁打印的話,這一手冊打印出來大約有1.3英寸厚。一個G字節的數據打印出來有110英尺高;而263個G字節的數據——相當于4個筆記本電腦中所存儲的信息——打印出來有珠穆朗瑪峰那么高。要在如此龐大的數據中找出相關和“令人感興趣”的材料是一項非常艱巨的任務。
在一些地區,由信息收集系統所收集到的信息量太大了,以至于無法由一臺計算機單獨進行有效的處理。另外在世界上有大量閑置的計算機能力——大多數計算機或者什么事情都不做,或者做一些遠遠不能發揮其潛在能力的工作,如文字處理或收發電子郵件。開發閑置計算機能力的一種方法就是將許多計算機鏈接在一起,讓它們像單一一臺計算機那樣工作。這使得一些大的組織能夠充分利用組織中的閑置計算機能力,從而使其工作流程更加靈活。但是更為重要的是,這種方法還可以將各自獨立的計算機套在一起共同完成某一項任務。為完成這一任務所需的計算工作被分配到一個“網格”的各個計算機上。“網格”一詞有兩重含義:一系列平行連接的物體;可以在用戶不知情的情況下從各種異質源中獲得的明顯同質的能力(就像電網一樣)。
使用其他計算機閑置資源的最著名的例子就是“SETI@home”。使用者可以將其作為屏幕保護程序下載。每當計算機處于屏幕保護狀態的時候,SETI就控制計算機的一部分處理能力,用以搜索通過電子望遠鏡接收到的來自太空的信號,以尋找可能解釋智能外星生命形式的規律性(SETI是“外星智能探索”的簡稱)。也許并不令人感到意外的是,他們到現在為止仍然沒有找到“小綠人”的蹤跡,但是這種搜尋仍在繼續。由于摩爾定律仍然在起作用,可供SETI使用的計算機能力甚至使這一項目得以改進其分析分辨率,并推出了“SETI@home增強版”。 而所有這些都是在參與這一項目的志愿者在使用其計算機的時候所察覺不到的背景之中發生的。網格計算機的使用是增加數據挖掘能力的眾多方法之一。事實上,如果能將數據與價值和含義的機讀描述結合起來,那么這種網格功能就會變得更為強大。所謂的“語義網格” 就是旨在實現計算機資源協調工作的更強大和更為有效的自動化,以解決大規模的問題。