徐英瑾

列寧有一句名言,“如果幾何學公理觸犯了人們的階級利益的話,那也一定會遭到反駁的”。乍一聽有點奇怪,因為按照常識,數學公理本身的有效性應當是不受到使用者的階級利益影響的。但是可以通過這種詮釋而變得極具說服力:雖然純粹的數量關系未必是與階級利益相關的,但是對于這些數量關系的經驗運用卻會導致對于事實的不同呈報方式,由此與不同集團的利益產生密切的關聯。因此,不同的利益集團就會根據自己的需要雇傭不同的統計學家、會計、甚至是人工智能編程師,以便對世界進行一種對他們有利的數量刻畫方式。想想《金牌制作人》里的橋段吧:以洗錢為目的某劇組準備了兩個賬本,一本封面上寫著“給國稅局看的”,另一本則寫著“永遠不要給國稅局看的”。
現實往往比電影精彩。列寧的格言在眼下牽動天下人神經的美國總統大選中得到了更充分的驗證。11月3日總統大選開票后,雙方的真實得票數據如羅生門一般風云變幻,川普指責民主黨陣營大量竊票,民主黨陣營則堅持自己的得票數的正當性。在相關的爭議中,有一條統計學規律也進入了公眾的視野,這就是所謂的“本福特法則”。根據該法則,一堆從實際生活得出的數據中,以1為首位數字的十進制數(如11、189、18976等)的出現概率約為總數的三成,而越大的數(譬如9),以它為首的數(如99、987、99341)出現的概率就越低。換言之,如果你看到的一組數據不滿足該法則(比如,以 “5”打頭的數字竟然有三成,而以“1”打頭的數字卻只有一成),這就說明這組數據有很大的偽造嫌疑。歷史上,運用該法則,不少賬目作假的問題得到了揭露,其中最有名的乃是美國安然公司的財務舞弊事件。現在也有人主張利用本福特法則來評估本次大選的舞弊可能性指數。不少美國選民發現,民主黨總統候選人拜登在包括密爾沃基(威斯康星州)、芝加哥(伊利諾伊州)和阿勒格尼(賓夕法尼亞州)的曲線均不滿足“本福特法則”,而川普得票的相關曲線則大致滿足這一法則。但這是不是構成了民主黨舞弊的證據呢?
按照列寧的格言的精神,要回答這一問題,首先要確定利益問題,因為利益本身會反過來決定你會尋找怎樣的理由去說明上述這種統計學反常。譬如,如果相關的利益驅使某人預設民主黨沒有作弊的話,那么他就會訴諸如下論證來為自己的立場洗白:指出本福特法則有適用范圍,而選舉的事例顯然不在該范圍之內;或提高“符合本福特法則”的門檻,指出共和黨的選票分布曲線也不符合該法則。反之,如果相關的利益驅使某人預設民主黨已經作弊的話,那么他也可以針鋒相對地提出一些反論證:大規模的群眾投票與大規模的網絡購物有高度的相似性,因此,沒有理由認為本福特法則可以用來監察網絡購物數據的合理性,卻不能用于監察投票中的不合規現象;如果抬高“符合本福特法則”的門檻來非難共和黨的選票的話,那么這就會導致世界上沒有任何數據可以通過這門檻。一句話,只要你覺得這些選票是你的,而且你有足夠的錢打官司,那么辯護律師原則上總是請得到的。
筆者作為“吃瓜群眾”,目前并不對美國內部的兩派爭議持明確立場。但可以肯定的是,如果民主黨的支持者以“郵寄選票與親身投票之間的人為分離”來解釋民主黨數據中的不合規現象的話,他們就欠共和黨的支持者一個解釋:為何在很多人都提前郵寄了選票的情況下,不少此類選票還在開票日之后姍姍來遲?很顯然,這個問題解釋不清楚,民主黨即使勝選,也會被一種懷疑的情緒包圍四年。沒有純粹的數學推理,背后都是人類的套路,列寧是對的。