撰文 莉薩·齊加(Lisa Zyga) 翻譯 丁家琦
在古羅馬法中,如果所有法官都一致認為嫌疑人有罪,該嫌疑人反而會遭到赦免。這個規定聽起來有些違反直覺,但那時的立法者顯然已經注意到全體一致的判決意味著司法程序中間出現了系統性的偏差,盡管不一定能發現具體是什么樣的偏差。他們直覺性地認為,一旦事情發生得過于順利,很可能就有哪里不對了。
在一篇即將發表在《英國皇家學會學報A》(The Proceedings of The Royal Society A)上的論文中,來自澳大利亞與法國的研究者深入地研究了這一現象,他們把它稱為“一致性悖論”(paradox of unanimity)。
“如果所有互相獨立的證人都一致證明嫌疑人有罪,我們會想他們不可能都錯了,”論文作者之一,澳大利亞阿德萊德大學的物理學家、電子工程師德里克·阿博特(Derek Abbott)說,“一致性通常被看做是可靠的象征,但很多人同時意見一致的概率是很小的,所以我們如此相信一致性其實并沒有根據。”
不可能發生的一致
研究者以證人指認犯人為例研究了一致性悖論。警方會讓證人在按順序出現的幾個人的照片中找出嫌疑人,而研究表明,當同時指認一個人為嫌疑人的證人數目增加到一定程度后,他們指認正確的概率反而會降低,直到最后與隨機的猜測并無分別。
在嫌疑人指認中,系統偏差可以來自多種心理偏差,如警方給證人展示照片的方式,或是證人自身的個人偏見等等。而研究者發現,哪怕是小小的偏差都會對最終的整體結果產生極大影響。具體來講,哪怕在只有1%的辨認過程中施加偏差,暗示某一個人是犯人,最終當3個以上的證人意見一致時,他們的意見就不再可靠。有趣的是,如果其中有一個證人的意見與其他證人不合,那么其他證人正確的概率反而會大大增加。
為什么會出現這種情況?可以用數學中的貝葉斯分析來說明。拿一枚硬幣做例子:如果我們有一枚不公平的硬幣,投到正面的概率為55%,而非普通硬幣的50%,那我們只要投的次數足夠多,就會發現正面向上的次數多于反面向上,進而發現它是不公平的。換句話說,當我們看到投擲結果中正面向上次數顯著多于反面向上時,我們會意識到出問題的是硬幣,而非概率定理。同樣,根據概率定理,很多證人同時得到一致結論的可能性極低,所以更有可能的是系統出了差錯。
在警方組織的嫌疑人指認中,理想條件下,指認同一個人有罪的證人數目越多,這個人真正有罪的概率就越大。然而,這只適用于沒有任何系統偏差存在的情況。實際情況中,指認同一個人為犯人的證人數目增加到一個值以后,該嫌疑人真正有罪的概率反而會下降,最終與隨機指認毫無差別,且系統偏差越大,下降得越早。圖片來源:Gunn, et al. ©2016 The Royal Society
研究者稱,這一悖論出現得比我們想象中更加頻繁。在很多時候,看法一致的確意味著更接近真相,但這只是在零偏差或是接近零偏差的情況下。比方說,如果你讓證人完成一項較為容易的任務,比如從一堆香蕉中找出一個蘋果,所有人都幾乎不會出錯,多人結論一致的情況也就更可能出現了。
而指認犯人要比在一堆香蕉中找到蘋果復雜得多。模擬顯示,如果證人只在犯人落荒而逃的時候匆匆瞥了他們一眼,他們認錯人的概率會高達48%,在這種情況下,許多證人同時指認一個人為犯人的概率就相當低了;但如果每個證人都曾被犯人劫為人質,他們認錯人的概率會大大降低,多個證人結論一致的情況出現的可能性也會提高。
一致性悖論的深遠意義
在法律領域之外,一致性悖論還有很多用武之地。一個重要的應用就是加密技術。數據加密通常通過確認一個很大的數字是否為質數來進行,這個判斷過程的錯誤率要達到非常低才行:低于2的-128次方才可以接受。
在這一過程中,可能出現的系統差錯就是計算機故障。大多數人都不會想到宇宙射線會導致電腦將一個合數誤認為質數,畢竟這件事發生的概率只有10的-13次方——但注意,這個概率要大于我們所要求的誤差2的-128次方,所以這類誤差主導了整個過程的安全性。正因于此,加密協議所宣稱的安全程度越高,實際的過程就越容易受計算機故障影響。
一致性悖論雖然聽起來違背直覺,但研究者解釋,一旦我們了解了足夠的信息,就能理解它了。“大多數的‘悖論’違反我們的直觀感知,不是因為我們的直觀感知錯了,而是我們掌握的信息不夠,”阿博特說,“我們會感到驚訝,是因為不知道證人指認的正確率如此之低,也不知道加密過程中計算機的故障成為了主要的影響因素。”
研究者還注意到,一致性悖論與迪昂-蒯因假說(Duhem-Quine hypothesis)有一定的關聯。迪昂-蒯因假說認為,我們永遠無法孤立地檢驗某一個科學假設,只能檢驗一個假說群體,比方說,一個實驗檢驗的不只是某一個特定的現象,也包括實驗工具本身的校正功能。在一致性悖論中,出問題的是研究方法(即輔助假設),因此結論也就不再可靠。
一致性悖論的其他例子:
1. 大眾汽車丑聞
9月,大眾汽車公司被曝在汽車中安裝了作弊軟件,可以識別汽車是否處于被檢測狀態,在車檢時秘密啟動,減少尾氣排放以使其達到排放標準,而在平時行駛時仍然超標排放污染物。然而,用軟件作弊的后果就是,排放檢測結果過于一致,甚至“好得過分”了(所謂too good to be true)。美國環保局檢測排放的小組最初對大眾汽車產生懷疑,就是因為他們發現不管是大眾的新車,還是開了五年的舊車,排放的污染物都在同一個水平線上,這種可疑的一致性,暴露了由作弊軟件帶來的系統偏差。
2. 神秘連環兇手
另外一個有名的“too good to be true”的事件發生在1993-2008年的歐洲。警方發現,在法國、德國、奧地利發生的15件罪案的現場,都有同一個女性的DNA。這位“神秘連環殺手”被稱為“海爾布隆魅影”,而警方直到最后都沒有找到她。DNA證據非常一致,極具說服力,但最終事實證明它是錯的,是個系統誤差——警方用來收集DNA樣品的棉簽被污染了,所有樣品上的都含有的DNA來自同一位女性,就是工廠里制造棉簽的那位女工。
3. 大比分壓倒?不太可能
如果一個黨派贏得了選舉,獲勝的黨派往往只是以微小的優勢壓倒對方。我們通常希望自己支持的一方大比分獲勝,但如果這種事情真的出現,很可能是有人操縱了選票,造成系統偏差。
4. 實驗數據太好,可能是造假
在科學中,理論與實驗必須互相支持,并肩同行。每個實驗中都有背景噪音,也會有實驗誤差。在科學史上有相當一些著名實驗,其結果后來看來都有點“好得過頭了”,爭議最大的就是測量單電子電量的密立根油滴實驗和孟德爾的遺傳實驗。如果實驗結果過于“干凈”,沒有預期中的噪音和異常值,我們就有理由懷疑實驗人員有意擇優挑選,選擇了好的數據,排除了異常值,造成了證實性偏見(confirmation bias)。
5. 那么數學呢?
理論物理學家尤金·維格納(Eugene Wigner)認為數學定理在描繪物理世界時是無條件地完美而有效的,或者說數學本身就是種“好得過頭”的事物。然而,現代科學研究中的很多設備和器件都不再能夠用純粹解析性的數學方程來分析,而代之以模擬軟件中使用的經驗公式。未來最大的科學問題可能誕生于復雜科學領域,而在這一領域,我們將更多地依賴大數據、機器學習的幫助,而非數學。既然解析性的數學方法無法完美適配所有問題,為什么我們還會認為“數學是無條件完美而有效的”呢?這本身可能也是一種系統性的證實性偏見:我們讀的每一篇偉大的科學論文都有著優美的公式,就以為優美的公式一定與科學進展聯系在一起,卻忽略了還有很多公式也同樣優美卻未能發表,從而沒能被我們看到。我們所看到的數學,也經過了擇優挑選。
原文鏈接:
http://phys.org/news/2016-01-evidence-bad.html
@import url(http://www.shnenglu.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css);