劉金龍


數學最吸引人的地方,有時候是因為它“難”,“難”到實際情況與表面現象不符,甚至完全相反。正是這樣的情況讓人不由得想要開動腦筋,一探究竟。
錄取比例引發的爭議
學校新開設了一個藝術社團,同學們紛紛踴躍報名,以致于報名人數遠遠超出了社團所能容納的人數。于是,社團采取了選拔錄取的方式來控制入社人數。
選拔結束后,團長葛麗麗拿著名單慌慌張張地來到校長辦公室:“校長,不好了,不好了!”
校長知道葛麗麗平時處事很穩重,詫異地問道:“怎么了?出什么事了?”
葛麗麗報告說:“男生說我們的社團選拔本來挺好的,讓有特長的同學能更好地學習、發揮,可他們不能容忍社團的性別歧視行為。”
校長更驚詫了,學校可是公平對待每位學生的,怎么可能會出現這種情況?
“性別歧視?怎么說?”
葛麗麗繼續說道:“某位數學尖子生看了社團的錄取名單公示后,說我們社團有性別歧視,女生的錄取率是男生的2倍。我們一算,還真是這樣。”
校長雖然不解,但是對這個錄取情況更感興趣了:“哦,還有這樣的情況?我們可是公平、公開、公正地選拔。你把錄取情況拿給我看看。”
葛麗麗將社團錄取情況統計表遞給校長。
校長笑著夸獎葛麗麗:“你辦事還真是細心,這份表格一目了然!”
“謝謝校長夸獎!女生的錄取率是42%,而男生的錄取率僅有21%,這樣對男生好像確實不公平。”葛麗麗大著膽子說。
校長聽完后哈哈大笑:“你們啊,都被那位同學帶到了一個誤區,走進了一個悖論里。”
葛麗麗聽得一頭霧水,卻又看不出這里有什么不對。
我看社團確實存在性別歧視,錄取的女生明顯比男生多。
別這么輕易下結論,學校對待每位學生都是公平的,哪有什么性別歧視,且聽聽校長怎么說吧。
哪支球隊實力更強
校長召集大家開會的消息傳開了。聽說要解釋社團男女生錄取比例的問題,那些未被選上的學生,尤其是男生,早早來到操場,都想聽聽校長怎么說。
看著黑壓壓的一大片學生,校長說道:“同學們,大家對藝術的熱忱,我都看到了。今天我想給大家講個故事。”人群中一陣騷動,不是說給大家解釋社團招新的事嗎?怎么變成講故事了?
校長緩緩地說道:“故事講完后,我有個問題需要大家和我一起探討。”
一聽到要和校長一起探討問題,大家都安靜了下來。
“曾經,幾位籃球業余愛好者臨時組建了一支籃球隊,他們想知道自己的實力,于是決定和專業的籃球隊進行50場比賽。他們先與高水平球隊比賽10場,只勝了1場。隨后,他們又與普通球隊比賽40場,結果勝了20場。所以,他們總的獲勝概率是42%,成績好像還不錯。”
聽到這兒,有人提問了:“如果他們一開始就挑戰普通球隊,總的獲勝概率會不會更高?”
“可是,當他們挑戰高水平球隊時,他們會輸得很慘吧!”
校長笑了笑,示意大家安靜,繼續說:“這時候,又有另一支業余籃球隊組建起來了。他們同樣先挑戰了高水平球隊,連續比賽了40場,勝了6場。隨后,他們挑戰了普通球隊,賽了10場,全勝。所以,他們總的獲勝概率是32%。”
“他們挑戰普通球隊時是全勝啊,怎么會這樣?”
“是啊,看他們跟高水平球隊比賽的情況,也不比第一支球隊差。”
“同學們,你們當中有很多是籃球愛好者,數學也很棒。大家覺得這兩支業余球隊,誰更厲害?”校長提問。
“看數據,第一支球隊總的獲勝率更高。”
“我感覺第二支球隊的水平更高。”
“第二支球隊更厲害啊,都完勝普通球隊了。”
這是怎么回事?明明感覺是第二支球隊更厲害,可統計數據卻顯示第一支球隊的獲勝概率更高。
和他們比賽的球隊不是都有水平層級嗎?條件不一樣得出的結論當然不一樣了。你要好好思考,不可光看這個籠統的統計結果。
聽完大家的議論,校長說道:“按數據顯示,確實是第一支球隊總的獲勝概率要高一些,可光憑這個數據就判定兩支球隊的水平,顯然是不行的。很明顯,第二支球隊的實力要高于第一支球隊。大家看,第一支球隊與高水平球隊打的場次少,與普通球隊打的場次多,所以勝的總場次多。但其實他們與高水平球隊打時獲勝概率是10%,與普通球隊打時獲勝概率是50%。而第二支球隊與高水平球隊打的場次多,與普通球隊打的場次少,他們的獲勝概率:前者達到15%,后者達到100%。顯而易見,第二支球隊的實力要遠遠高于第一支球隊。”
“感覺這個數據和社團的錄取情況統計數據有些相似!”葛麗麗突然醒悟道。
“你們發現了嗎?在社團招新中,音樂類和美術類的錄取率相差很大,音樂類的錄取率很高,而美術類的很低,同時男生女生的申請者分布比重相反。其中申請音樂類的男生錄取率為75%,遠遠大于女生。美術類的錄取率雖然都偏低,但男生的錄取率同樣高于女生,所以我們切不可將兩者進行簡單地直接匯總,否則大家就掉入一個辛普森悖論的陷阱里了。”校長笑著對大家說道。
哇!部分和整體竟然有這么大的差別,真是不可用量來衡量質啊!
終于明白了吧!以后可要好好學數學,別再鬧出大笑話了。簡單直接匯總分組數據,是不能反映真實情況的。為了避免辛普森悖論的出現,我們可以根據重要程度讓各分組數據乘以一個分數。如果兩組數據同等重要,那么它們都乘以1/2,否則所乘分數將不同,但兩個分數之和為1,以此消除各分組數據差異所造成的影響。