眾所周知,在生活中統(tǒng)計學(xué)無處不在,每件事、每個人似乎都可以用統(tǒng)計數(shù)字來加以說明。特別是進入大數(shù)據(jù)時代以后,統(tǒng)計學(xué)更是成為炙手可熱的學(xué)問,它可以幫我們解決很多重要的社會問題,并對“黑天鵝”事件和未來做出預(yù)測。
但不可否認的是,統(tǒng)計學(xué)本身因為囊括大量的數(shù)學(xué)內(nèi)容及專業(yè)術(shù)語,以至于讓人覺得高深莫測、很難親近。
《赤裸裸的統(tǒng)計學(xué)》的作者查爾斯·惠倫“扒光”了統(tǒng)計學(xué)“沉悶的外衣”,用生活中有趣的案例、直觀的圖表、生動詼諧的語言風(fēng)格,徹底揭開了統(tǒng)計學(xué)、大數(shù)據(jù)和數(shù)字的“神秘面紗”,讓我們知道權(quán)威期刊、媒體新聞、民意調(diào)研中公布的數(shù)字從何而來,輕松掌握判斷這些統(tǒng)計數(shù)字“是否在撒謊”的秘籍。同時,作者還將統(tǒng)計學(xué)的工具帶入日常生活中,告訴我們?yōu)槭裁床灰I彩票,為什么你家附近的商場會知道你懷孕的消息并給你寄來紙尿褲的優(yōu)惠券,等等。
大數(shù)據(jù)時代你必須掌握的統(tǒng)計學(xué)知識,全部都在《赤裸裸的統(tǒng)計學(xué)》中。從今天開始,好好使用統(tǒng)計學(xué)和數(shù)據(jù)吧!
統(tǒng)計學(xué)是大數(shù)據(jù)時代最炙手可熱的學(xué)問,它可以幫我們解決很多重要的社會問題,并對“黑天鵝”事件和未來做出預(yù)測。除去大數(shù)據(jù)的沉悶外衣,呈現(xiàn)生活的真實之美! ∫曨l網(wǎng)站是如何知道你喜歡的電影類型的? 哪些人最有可能成為恐怖分子? 我們應(yīng)該依據(jù)什么來評估教學(xué)質(zhì)量,從而幫助孩子選對學(xué)校? 商場是如何在你的家人之前就知道你懷孕的消息的? 基尼系數(shù)是衡量社會分配公平程度最完美的指標嗎? 買福利彩票,去賭場豪賭,投資股票或期貨,哪種方式讓你躋身富豪排行榜的可能性更大? “缺乏控制力和話語權(quán)”的工作,還是“權(quán)力大,責(zé)任也大”的工作,更容易讓職場人士猝死? 不止這些,生活中你遇到的各種問題都離不開數(shù)據(jù)和統(tǒng)計學(xué)! 〗y(tǒng)計學(xué)已經(jīng)成為大數(shù)據(jù)時代最炙手可熱的學(xué)問。它可以幫我們解決很多瑣碎的生活問題和重要的社會問題,并對“黑天鵝”事件和未來做出預(yù)測! 冻嗦懵愕慕y(tǒng)計學(xué)》沒有讓你避之不及的數(shù)學(xué)公式,沒有滿是數(shù)字的圖表,沒有空洞乏味的教科書式說教;《赤裸裸的統(tǒng)計學(xué)》有生動詼諧的案例,有你熟悉的生活話題和社會問題,有你一定用得到的統(tǒng)計學(xué)知識,有大數(shù)據(jù)時代的“游戲規(guī)則”和“生存法則”! ”緯鴮⑹悄阌龅竭^的最好的“數(shù)學(xué)老師”,它裝滿了具有現(xiàn)實意義的“課程”,比如為什么一流大學(xué)畢業(yè)生的收入會高于普通大學(xué)畢業(yè)生,還有為什么不要買彩票。
查爾斯·惠倫(CharlesWheelan),于1997~2002年間擔(dān)任《經(jīng)濟學(xué)人》雜志駐美國中西部地區(qū)的記者,還為《芝加哥部報》、《紐約時報》和《華爾街日報》撰稿,現(xiàn)任芝加哥公共電臺WBEZ節(jié)目財經(jīng)記者。其所著《赤裸裸的經(jīng)濟學(xué)》已由中信出版社于2010年出版。
引言 我為什么憎惡微積分卻偏愛統(tǒng)計學(xué)?
第1章 統(tǒng)計學(xué)是大數(shù)據(jù)時代最炙手可熱的學(xué)問
基尼系數(shù)是否是衡量社會分配公平程度最完美的指標?視頻網(wǎng)站是如何知道你喜歡的電影類型的?祈禱真的能讓病人的術(shù)后康復(fù)狀況改善嗎?是什么導(dǎo)致自閉癥發(fā)病率一直走高?哪些人最有可能成為恐怖分子?
第2章 描述統(tǒng)計學(xué)
你一直想買的一條連衣裙,商場售價為4999元,先降價25%后再提價25%,你能算出這條連衣裙的最終售價是多少嗎?
第3章 統(tǒng)計數(shù)字會撒謊
1950年人們的平均時薪是1美元,2012年人們的平均時薪是5美元,你覺得我們的工資水平漲了嗎?
第4章 相關(guān)性與相關(guān)系數(shù)
視頻網(wǎng)站根本不知道我是誰,但它又是怎么知道我喜歡看人物紀錄片而不是電視連續(xù)劇、動作片或科幻片的?
引言 我為什么憎惡微積分卻偏愛統(tǒng)計學(xué)?
第1章 統(tǒng)計學(xué)是大數(shù)據(jù)時代最炙手可熱的學(xué)問
基尼系數(shù)是否是衡量社會分配公平程度最完美的指標?視頻網(wǎng)站是如何知道你喜歡的電影類型的?祈禱真的能讓病人的術(shù)后康復(fù)狀況改善嗎?是什么導(dǎo)致自閉癥發(fā)病率一直走高?哪些人最有可能成為恐怖分子?
第2章 描述統(tǒng)計學(xué)
你一直想買的一條連衣裙,商場售價為4999元,先降價25%后再提價25%,你能算出這條連衣裙的最終售價是多少嗎?
第3章 統(tǒng)計數(shù)字會撒謊
1950年人們的平均時薪是1美元,2012年人們的平均時薪是5美元,你覺得我們的工資水平漲了嗎?
第4章 相關(guān)性與相關(guān)系數(shù)
視頻網(wǎng)站根本不知道我是誰,但它又是怎么知道我喜歡看人物紀錄片而不是電視連續(xù)劇、動作片或科幻片的?
第5章 概率與期望值
買福利彩票,去賭場豪賭、投資股票或期貨,哪種方式讓你躋身《福布斯》富豪排行榜的可能性更大?
第6章 蒙提·霍爾悖論
在《讓我們做個交易》節(jié)目中,主持人打開的3號門后面是一頭羊,在剩下的1號門和2號門中必定有一扇門后面是汽車,你應(yīng)該如何選擇才能中大獎?
第7章 黑天鵝事件
1%的小概率風(fēng)險如何在2008年成為擊垮美國華爾街的“黑天鵝”,并毀了全球金融體系。
第8章 數(shù)據(jù)與偏見
2012年,《科學(xué)》雜志刊登了一項驚人的發(fā)現(xiàn):在求偶期多次遭受雌性果蠅冷落的雄性果蠅會“借酒消愁”。那么,這些果蠅是如何一醉方休的?
第9章 中心極限定理
一輛坐滿肥胖乘客的拋錨客車停在你家附近的路上,你推斷一下,它的目的地是馬拉松比賽場地,還是國際香腸節(jié)展廳?
第10章 統(tǒng)計推斷與假設(shè)檢驗
垃圾郵件過濾、癌癥篩查、恐怖分子追捕,我們最不能容忍哪件事情出錯,又有哪件事情是可以“睜一只眼閉一只眼”的?
第11章 民意測驗與誤差幅度
民調(diào)結(jié)果顯示,有89%的美國人不相信政府會做正確的事,有46%的美國人認可奧巴馬的工作表現(xiàn)。這個結(jié)果可以代表美國人的真實想法嗎?
第12章 回歸分析與線性關(guān)系
你認為什么樣的工作壓力更容易使職場人士猝死,是“缺乏控制力和話語權(quán)”的工作,還是“權(quán)力大,責(zé)任也大”的工作?
第13章 致命的回歸錯誤
世界上3本最有聲望的醫(yī)學(xué)期刊上刊登的49篇學(xué)術(shù)研究論文中有1/3后來都被推翻了,所以,“盡量不要用你的回歸分析研究殺人”。
第14章 項目評估與“反現(xiàn)實”
哈佛大學(xué)等世界頂尖大學(xué)的畢業(yè)生進入社會后,其收入往往高于一般大學(xué)的畢業(yè)生,讓他們獲得高收入的究竟是常春藤大學(xué)的教育優(yōu)勢,還是他們本身就很出色?
結(jié)束語統(tǒng)計學(xué)能夠幫忙解決的5個問題
致謝
假設(shè)你所生活的城市正在舉辦一場馬拉松比賽。來自世界各國的運動員們齊聚一堂,準備一決高下,但他們中的許多人都不會說英語。按照比賽組委會的安排,每位運動員在比賽當(dāng)天的早上簽到之后,會被隨機分配到一輛駛往起點的長途客車。不湊巧的是,其中的一輛長途客車沒有按規(guī)定到達比賽現(xiàn)場,為了省去大量額外的運算,我們假設(shè)這輛客車上沒有一個人有手機,而且車里也沒有裝載全球定位系統(tǒng)(GPS)設(shè)備。作為市民中的一員,你加入了搜尋長途客車的隊伍。
偏偏就那么巧,在你家附近有一輛拋錨的長途客車,車上坐著一大群面露不快的國際乘客,他們中沒有一個人會說英語。這肯定就是那輛失蹤的車,你將會成為這座城市的英雄!但就在此時,一個疑惑出現(xiàn)在你的腦中:這輛車上的乘客看上去都“不瘦”,準確地說,他們都很胖。粗略掃一眼這些人,你估計這些乘客的平均體重至少有220磅(100公斤)。隨機分配的馬拉松運動員的體重不可能這么重,你打開對講機對搜尋總部匯報道:“不是這輛客車,請繼續(xù)搜尋!
進一步的調(diào)查證實了你最初的判斷是正確的。趕到現(xiàn)場的翻譯人員經(jīng)過一番交流后,你終于知道這輛拋錨的客車原本是要前往國際香腸節(jié)會場的,正好這一屆的香腸節(jié)也在這座城市舉辦,連日期都碰巧相同。而且從視覺角度考慮,參加香腸節(jié)的人完全有可能也穿著寬松的運動長褲。
祝賀你!如果你能夠體會上述的推理過程,也就是說,通過快速觀察車上乘客的體型來判斷他們并非馬拉松運動員,那么你就已經(jīng)領(lǐng)會了中心極限定理的基本理念,剩下的工作就是在這個基本框架下充實細節(jié)了。一旦你理解了中心極限定理,統(tǒng)計推斷的絕大多數(shù)形式將會變得非常直觀。
中心極限定理的核心要義就是,一個大型樣本的正確抽樣與其所代表的群體存在相似關(guān)系。當(dāng)然,每個樣本之間肯定會存在差異(比如前往馬拉松起點的這么多輛客車,每輛客車乘客的組成都不可能完全相同),但是任一樣本與整體之間存在巨大差異的概率是較低的。正是因為這個邏輯,讓你對那輛載滿肥胖乘客的拋錨客車做出了快速判斷。的確有胖人參加馬拉松比賽,每一次馬拉松比賽中都會有幾百名參賽者的體重在200磅以上,但絕大多數(shù)的馬拉松運動員還是比較瘦的。因此,如此之多的“重量級”運動員被隨機安排到同一輛客車上的概率可以說是很低的,所以你完全有理由認為這不是那輛失蹤的馬拉松客車。當(dāng)然,有可能你的判斷是錯的,但概率告訴我們你更有可能是對的。
這就是中心極限定理背后的基本經(jīng)驗。如果我們再附加一些統(tǒng)計學(xué)工具,就能將正確或錯誤的可能性進行量化。例如,在一場有10000名選手參加的馬拉松比賽中,運動員的平均體重為155磅,我們可以算出,一個包含60名選手(也就是一輛客車的載客量)的隨機樣本的平均體重大于或等于220磅的概率不足1/100。但在此刻,讓我們還是從直覺出發(fā)進行計算。通過運用中心極限定理,我們能夠得出如下推理,這些推理都將會在下一章里進行深入闡述。
1.如果我們掌握了某個群體的具體信息,就能推理出從這個群體中正確抽取的隨機樣本的情況。舉個例子,假設(shè)某學(xué)校的校長手里有本校所有學(xué)生的統(tǒng)考成績(平均分、標準差等),這就相當(dāng)于一個相關(guān)人口數(shù)據(jù),再過一個星期的時間,區(qū)領(lǐng)導(dǎo)將會來學(xué)校隨機抽取100名學(xué)生進行一次類似統(tǒng)考的測驗,這100名學(xué)生的成績—也就是一個樣本,將會作為考核該校教學(xué)質(zhì)量的指標。
隨機抽取的這100名學(xué)生的考試成績是否能夠準確地反映出全校學(xué)生的平均水平呢?校長需要為此擔(dān)心嗎?根據(jù)中心極限定理,這100名學(xué)生作為一個隨機樣本,其平均成績不會與全校學(xué)生的平均成績產(chǎn)生較大差異。
2.如果我們掌握了某個正確抽取的樣本的具體信息(平均數(shù)和標準差),就能對其所代表的群體做出令人驚訝的精確推理。從定理的使用角度來看,這與上一點內(nèi)容正好相反。還是以上述假設(shè)為例,如果你是區(qū)領(lǐng)導(dǎo),想要對本區(qū)域內(nèi)的各個學(xué)校進行教學(xué)質(zhì)量考核,與校長不同的是,你手中并沒有(或不信任)某所學(xué)校所有學(xué)生的統(tǒng)考成績,因此就有必要對每所學(xué)校進行抽樣測試,也就是隨機抽取100名學(xué)生參加一場類似統(tǒng)考的測驗。
作為主管教育的領(lǐng)導(dǎo),你覺得僅參考100名學(xué)生的成績就對整所學(xué)校的教學(xué)質(zhì)量做出判斷是可行的嗎?答案是可行的。中心極限定理告訴我們,一個正確抽取的樣本不會與其所代表的群體產(chǎn)生較大差異,也就是說,樣本結(jié)果(隨機抽取的100名學(xué)生的考試成績)能夠很好地體現(xiàn)整個群體的情況(某所學(xué)校全體學(xué)生的測試表現(xiàn))。
3.如果我們掌握了某個樣本的數(shù)據(jù),以及某個群體的數(shù)據(jù),就能推理出該樣本是否就是該群體的樣本之一。這就是我們在本章一開始的時候所舉的那個馬拉松比賽失蹤客車的例子。已知馬拉松參賽選手的平均體重(估算),以及那輛拋錨客車上所有乘客的平均體重(目測),通過中心極限定理,我們就能計算出某個樣本(客車上的肥胖乘客)屬于某個群體(馬拉松比賽選手)的概率是多少,如果概率非常低,那么我們就能自信滿滿地說該樣本不屬于該群體(例如,客車上的乘客看上去真的不像是一群前往馬拉松比賽起點的運動員)。
4.最后,如果我們已知兩個樣本的基本特性,就能推理出這兩個樣本是否取自同一個群體。讓我們回到那個(越來越荒謬的)客車的例子上。我們現(xiàn)在得知這座城市即將同時舉辦馬拉松比賽和國際香腸節(jié),假設(shè)這兩個盛會都將會迎來數(shù)以千計的參與者,而且他們都乘坐主辦方安排的客車前往會場,因此客車上要么是隨機安排的馬拉松運動員,要么是隨機安排的香腸愛好者。進一步假設(shè)有兩輛客車在路上撞在一起了(我已經(jīng)承認這是一個荒謬的例子,所以還請諸位讀者勉強讀下去吧),作為這座城市的管理者,你被派往現(xiàn)場了解事故情況,看看這兩輛客車是不是都前往同一個地點(馬拉松比賽或香腸節(jié))。讓人不可思議的是,兩輛客車上的乘客都不會說英語,但到場的醫(yī)護人員給你提供了一份關(guān)于這兩輛車上的乘客體重的詳細信息。
僅從這一點信息,你就能推理出這兩輛客車前往的是相同的會場還是不同的會場。請再次用你的直覺進行判斷,假設(shè)其中一輛客車上乘客的平均體重為157磅,標準差為11磅(也就是說絕大部分乘客的體重為146~168磅)。而另一輛客車上乘客的平均體重為211磅,標準差為21磅(即絕大部分乘客的體重為190~232磅)。此刻請忘掉所有的統(tǒng)計學(xué)公式,僅憑邏輯做出判斷:這兩輛客車上的乘客是從同一個群體中隨機抽取的樣本嗎?
不是。一個更有可能的情形是:其中一輛客車上是馬拉松運動員,而另一輛客車上則是香腸愛好者。除了平均體重的不同以外,想必你還注意到了兩輛客車乘客之間的體重差異要遠大于各客車內(nèi)部乘客的體重差異,總重量較輕的客車里高于平均值一個標準差的乘客體重(168磅),但還是輕于另一輛客車上低于平均值一個標準差的乘客體重(190磅),這一點表明(無論從統(tǒng)計學(xué)的角度還是從邏輯的角度)這兩個樣本有可能來自不同的群體。
如果憑借直覺能理解到這一步的話,就說明你已經(jīng)理解了93.2%的中心極限定理了。我們需要更進一步,在直覺背后加上一些技術(shù)支撐。顯而易見,當(dāng)你登上一輛拋錨的客車,發(fā)現(xiàn)里面坐滿了身穿寬松運動褲的“肥胖”乘客時,你的直覺會告訴你他們不會是馬拉松運動員。而中心極限定理能夠讓你在直覺的基礎(chǔ)上更上一層樓,為你的判斷提供數(shù)據(jù)支持。
……