概率與統(tǒng)計:計算機(jī)科學(xué)視角
定 價:139 元
叢書名:統(tǒng)計學(xué)精品譯叢
當(dāng)前圖書已被 24 所學(xué)校薦購過!
查看明細(xì)
- 作者:[美]大衛(wèi)·福賽斯(David Forsyth)
- 出版時間:2021/12/1
- ISBN:9787111695844
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:O21
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書針對計算機(jī)科學(xué)專業(yè)的本科生,旨在揭示概率和統(tǒng)計的思想。全書共分為五部分,第I部分?jǐn)?shù)據(jù)集的描述,涵蓋各種描述性統(tǒng)計量(均值、標(biāo)準(zhǔn)差、方差)、一維數(shù)據(jù)集的可視化方法,以及散點圖、相關(guān)性和二維數(shù)據(jù)集的描述;第II部分概率,內(nèi)容涵蓋離散型概率、條件概率、連續(xù)型概率、Markov不等式、Chebyshev不等式及弱大數(shù)定律等;第III部分推斷,涵蓋樣本、總體、置信區(qū)間、統(tǒng)計顯著性、試驗設(shè)計、方差分析和簡單貝葉斯推斷等;第IV部分工具,涵蓋主成分分析、zui近鄰分類、樸素貝葉斯分類、K均值聚類、線性回歸、隱Markov模型等;第V部分零散的數(shù)學(xué)知識,匯總了一些有用的數(shù)學(xué)事實。
本書是一本面向計算機(jī)科學(xué)專業(yè)學(xué)生的概率統(tǒng)計教材。書中全面介紹了定性和定量數(shù)據(jù)分析、概率論、隨機(jī)變量以及包括機(jī)器學(xué)習(xí)在內(nèi)的統(tǒng)計方法。 全書包含豐富的圖示,重點章節(jié)都包含大量的實例,以及許多其他教學(xué)元素,如流程、定義、有用的事實及注記(小技巧)。部分章節(jié)末尾附有“問題”和“編程練習(xí)”,幫助讀者鞏固應(yīng)該掌握的要點。本書特色 ·側(cè)重介紹離散情形的隨機(jī)變量和期望。 ·以實用的方式介紹仿真,表明有多少感興趣的概率和期望可以被提取,并著重介紹馬爾可夫鏈。 ·簡明而清晰地闡釋簡單情形的點推斷策略(極大似然、貝葉斯推斷),并將其擴(kuò)展到有放回隨機(jī)抽樣的置信區(qū)間、樣本和總體,以及簡單的假設(shè)檢驗。 ·深入淺出地講解分類,解釋分類為什么有用,如何用隨機(jī)梯度下降法訓(xùn)練SVM分類器,如何用隨機(jī)森林和近鄰等更高級的方法實現(xiàn)分類。 ·詳細(xì)介紹回歸,說明如何建立并使用線性回歸和近鄰回歸解決實際問題。 ·通過大量實例詳細(xì)講解主成分分析,并通過主坐標(biāo)分析簡要概述多維放縮。 ·詳細(xì)介紹如何通過聚合方法和k均值進(jìn)行聚類,以及如何構(gòu)建復(fù)雜信號的向量量化特征。
對現(xiàn)代計算機(jī)科學(xué)家來說,理解概率和統(tǒng)計是非常重要的. 如果你愛好理論,則需要知道很多概率知識(例如,了解隨機(jī)算法,理解圖論中的概率方法,理解有關(guān)近似的大量知識,等等),并至少要有足夠的統(tǒng)計知識. 如果你愛好實踐,則會發(fā)現(xiàn)自己在不斷地探尋統(tǒng)計技術(shù)(特別是分類、聚類和回歸).例如,很多現(xiàn)代人工智能技術(shù)都是建立在統(tǒng)計的基礎(chǔ)之上. 再例如,有關(guān)海量數(shù)據(jù)集的統(tǒng)計推斷的思考對人們設(shè)計現(xiàn)代計算機(jī)系統(tǒng)產(chǎn)生了巨大的影響.
傳統(tǒng)上,計算機(jī)科學(xué)專業(yè)的本科生需要學(xué)習(xí)概率論課程(這一課程通常由數(shù)學(xué)系教師講授),或者需要學(xué)習(xí)統(tǒng)計學(xué)課程(這一課程通常由統(tǒng)計系教師講授). 計算機(jī)科學(xué)專業(yè)的課程委員會決定對這些課程進(jìn)行修改,因此,我講授了該課程的實驗版本. 為此,我撰寫了一些筆記,基于這些筆記編寫了這本書. 本書中沒有關(guān)于概率或統(tǒng)計的新知識,但其主題是我選擇的,我認(rèn)為這與大家在很多其他書中見到的內(nèi)容有很大的不同.
選擇主題的關(guān)鍵原則是揭示概率和統(tǒng)計的思想,我認(rèn)為這些思想是每一名計算機(jī)科學(xué)專業(yè)的本科生都應(yīng)當(dāng)了解的,而不管他們以后選擇什么專業(yè)或從事什么職業(yè). 這意味著本書內(nèi)容的范圍非常廣,但對很多領(lǐng)域的介紹并不深入. 我認(rèn)為這樣很好,因為我的目的就是保證所有人都有足夠的見識,都能夠知道找到一個分類包就可以解決很多問題. 因此,本書覆蓋了足夠多帶你入門的基礎(chǔ)知識,并會讓你認(rèn)識到需要了解更多知識.
我寫的這些筆記對研究生也是有益的. 根據(jù)我的經(jīng)驗,很多人在并未意識到它們多么有用的情況下學(xué)習(xí)了本書中的部分或全部內(nèi)容,然后就忘記了. 如果這樣的事情發(fā)生在你的身上,希望本書能喚起你的記憶. 你應(yīng)該掌握本書中的所有內(nèi)容,又或許應(yīng)該知道得更多,但絕不應(yīng)該知道得更少.
閱讀和講授本書
本書適合從頭至尾進(jìn)行講授或者閱讀,但不同的教師或者讀者可能有不同的需求,因此下面將對本書內(nèi)容進(jìn)行簡要概述并指出哪些內(nèi)容可以略過.
部分 數(shù)據(jù)集的描述
這一部分涵蓋:
. 各種描述性統(tǒng)計量(均值、標(biāo)準(zhǔn)差、方差)及一維數(shù)據(jù)集的可視化方法
. 散點圖、相關(guān)性及二維數(shù)據(jù)集的描述
多數(shù)讀者可能看到過這些內(nèi)容的一部分,以我的經(jīng)驗,使人們真正意識到使用圖片的方法表示數(shù)據(jù)集多么有用是需要花費一些時間的. 我嘗試通過范例研究不同的數(shù)據(jù)集來特別強(qiáng)調(diào)這一點. 在講授這些內(nèi)容時,我緩慢且仔細(xì)地推進(jìn)這些章節(jié).
第二部分 概率
這一部分涵蓋:
. 離散型概率
. 條件概率,需要特別強(qiáng)調(diào)其中的例子,因為人們發(fā)現(xiàn)這些主題是與直覺相悖的
. 隨機(jī)變量與期望
. 部分連續(xù)型概率內(nèi)容(概率密度函數(shù)及如何解釋)
. 馬爾可夫不等式、切比雪夫不等式及弱大數(shù)定律
. 各種有用概率分布的部分性質(zhì)
. 對較大的 N,二項分布的正態(tài)逼近
我非常認(rèn)真地以形式化方式介紹了離散型概率. 很多人發(fā)現(xiàn)條件概率是與直覺相悖的(或至少在他們看來是如此的 —— 你仍然可以對 Monty Hall 問題繼續(xù)發(fā)起討論),因此,我使用了一些(有時令人吃驚的)例子來強(qiáng)調(diào)在此處認(rèn)真思考是多么重要. 根據(jù)我的經(jīng)驗,范例是能夠幫助學(xué)習(xí)的,但在一節(jié)中給出過多的范例會讓讀者分散注意力,因此,我會用一整節(jié)來介紹額外范例. 除了這些額外范例,你不能忽略此處的任何內(nèi)容.
有關(guān)隨機(jī)變量的一章主要包含一些常規(guī)內(nèi)容,但此處也涵蓋了馬爾可夫不等式、切比雪夫不等式及弱大數(shù)定律. 根據(jù)我的經(jīng)驗,計算機(jī)科學(xué)專業(yè)的本科生喜歡仿真(當(dāng)可以編寫程序時,為什么要去做加法?),并且非常喜歡使用弱大數(shù)定律. 你可以略過這些不等式,只介紹弱大數(shù)定律. 很多學(xué)生在后續(xù)的理論課程中將會學(xué)習(xí)這些不等式,經(jīng)驗表明,如果學(xué)生之前曾經(jīng)見過這些不等式,他們通常更容易掌握它們.
有關(guān)有用的概率分布的一章也主要包含一些常規(guī)內(nèi)容. 在我講授這門課程時,這一章會講得很快,主要讓學(xué)生自己閱讀. 但是,對具有較大 N 的二項分布的正態(tài)逼近會進(jìn)行詳細(xì)的討論. 根據(jù)我的經(jīng)驗,沒有人喜歡推導(dǎo),但你應(yīng)當(dāng)知道這個逼近是成立的,并知道它的原理. 我主要通過一些例子來詳細(xì)講授這一主題.
第三部分 推斷
這一部分涵蓋:
. 樣本和總體
. 總體均值抽樣估計的置信區(qū)間
. 統(tǒng)計顯著性,包括 t 檢驗,F(xiàn) 檢驗及 χ2 檢驗
. 簡單的實驗設(shè)計,包括單向和雙向?qū)嶒?
. 實驗的 ANOVA(方差分析)
. 極大似然推斷
. 簡單貝葉斯推斷
. 過濾簡介
有關(guān)樣本的內(nèi)容僅包含有放回抽樣,這是學(xué)習(xí)更復(fù)雜的內(nèi)容的基礎(chǔ). 學(xué)生不太喜歡置信區(qū)間,也許是因為它的真正定義過于微妙,但是理解它的一般思想是至關(guān)重要的. 這些主題確實不應(yīng)當(dāng)被略過.
你也不應(yīng)當(dāng)略過統(tǒng)計顯著性的部分,盡管你很想略過. 我從來沒有與次接觸統(tǒng)計顯著性就感到愉悅的人(這樣的人可能在一個非常大的總體內(nèi)是存在的)打過交道. 但這一思想非常有用且非常有價值,以至于你不得不學(xué)習(xí).
我通常不講簡單的實驗設(shè)計和方差分析,但回想起來,這是一個錯誤. 方差分析的思想是非常直接且實用的. 我們通常使用別人的數(shù)據(jù)集進(jìn)行實驗設(shè)計教學(xué),然而正確的選擇應(yīng)該是要求學(xué)生去設(shè)計并進(jìn)行實驗,但在正常的課程中通常沒有足夠時間來安排這個.
后,你不應(yīng)當(dāng)略過極大似然推斷或貝葉斯推斷,即便很多人并不需要知道過濾.
第四部分 工具
這一部分涵蓋:
. 主成分分析
. 使用主坐標(biāo)分析的簡單多維放縮
. 分類的基本思想
. 近鄰分類
. 樸素貝葉斯分類
. 使用經(jīng)隨機(jī)梯度下降法訓(xùn)練過的線性 SVM 進(jìn)行分類
. 使用隨機(jī)森林進(jìn)行分類
. 維度災(zāi)難
. 聚合和分裂聚類
. k 均值聚類
. 向量量化
. 多元正態(tài)分布
. 線性回歸
. 分析與改進(jìn)回歸方法的一些技巧
. 近鄰回歸
. 簡單馬爾可夫鏈
. 隱馬爾可夫模型
我所在學(xué)院的學(xué)生在學(xué)習(xí)本課程的同時也在學(xué)習(xí)線性代數(shù)課程. 當(dāng)我講授該課程的時候,將時間進(jìn)行了調(diào)整,以便學(xué)生可以在他們剛剛學(xué)完特征值和特征向量之后學(xué)習(xí)主成分分析. 你不應(yīng)當(dāng)略過主成分分析. 我講授的主坐標(biāo)分析是非常淺顯的,僅僅描述了它是做什么的以及為什么它是有用的.
我經(jīng)常被比較強(qiáng)硬地告知不能向本科生講授分類問題. 在我看來,這必須學(xué),學(xué)生對此也非常喜愛. 給學(xué)生講授非常有用和非常容易做到的內(nèi)容時,他們真的會進(jìn)行反饋. 請一定不要略過這一部分的任何內(nèi)容.
聚類的相關(guān)內(nèi)容非常簡單且容易講授. 根據(jù)我的經(jīng)驗,如果沒有應(yīng)用,這個主題就有點讓人費解. 我通常會設(shè)置一個編程練習(xí),讓學(xué)生編寫一個使用了向量量化方法導(dǎo)出特征的分類器. 這是一個確定人們理解了某件事情的非常好的方法,但并不真實. 很多學(xué)生發(fā)現(xiàn)該練習(xí)很有挑戰(zhàn)性,因為他們必須同時使用很多概念. 但很多學(xué)生克服了困難并非常開心地看到這些部分良好地結(jié)合起來. 多元正態(tài)分布在此處不過是說說而已,我認(rèn)為你不能略過本章中的任何知識.
與回歸有關(guān)的內(nèi)容也非常簡單且容易講授. 此處的主要障礙是學(xué)生覺得越復(fù)雜的事情越需要不斷學(xué)習(xí). 不是只有他們是這么想的,我也認(rèn)為你不能略過本章中的任何知識.
根據(jù)我的經(jīng)驗,計算機(jī)科學(xué)專業(yè)的學(xué)生發(fā)現(xiàn)簡單的馬爾可夫鏈?zhǔn)褂闷饋砗茏匀唬ūM管他們可能發(fā)現(xiàn)這個記號很煩人),并且會建議在教學(xué)開始之前就模擬一個鏈. 使用馬爾可夫鏈生成自然語言的例子(特別是 Garkov 和葡萄酒評價)是非常有趣的,并且你真的可以在課程中向他們演示. 你可以略去網(wǎng)頁排名的討論. 我接手的班級中,大約有一半的學(xué)生認(rèn)為隱馬爾可夫模型是簡單且自然的,另一半則期望期末好快點到來. 如果你不太喜歡這一部分,可以略過它們,并讓那些可能對此感興趣的人自學(xué).
第五部分 其他數(shù)學(xué)知識
這一部分匯總了一些讀者可能會發(fā)現(xiàn)有用的數(shù)學(xué)事實,也包括一些關(guān)于決策樹構(gòu)造的更深入的知識. 不需要講授這部分內(nèi)容.
David Forsyth
美國伊利諾伊州厄巴納
大衛(wèi)·福賽斯(David Forsyth) 曾在艾奧瓦大學(xué)任教3年,在加州大學(xué)伯克利分校任教10年,之后到伊利諾伊大學(xué)任教。他是2000、2011、2018年IEEE計算機(jī)視覺和模式識別會議(CVPR)的程序委員會共同主席,2006年CVPR和2019年IEEE國際計算機(jī)視覺會議(ICCV)的大會共同主席,2008年歐洲計算機(jī)視覺會議(ECCV)的程序委員會共同主席,而且是所有主要的計算機(jī)視覺國際會議的程序委員會成員。此外,他還在SIGGRAPH程序委員會任職了6屆。他于2006年獲得IEEE技術(shù)成就獎,并分別于2009年和2014年成為IEEE會士和ACM會士。
前言
致謝
作者簡介
符號和約定
部分 數(shù)據(jù)集的描述
第1章 查看數(shù)據(jù)的個工具 2
1.1 數(shù)據(jù)集 2
1.2 正在發(fā)生什么?繪制數(shù)據(jù)的圖形 3
1.2.1 條形圖 5
1.2.2 直方圖 5
1.2.3 如何制作直方圖 6
1.2.4 條件直方圖 7
1.3 匯總一維數(shù)據(jù) 8
1.3.1 均值 8
1.3.2 標(biāo)準(zhǔn)差 9
1.3.3 在線計算均值和標(biāo)準(zhǔn)差 12
1.3.4 方差 13
1.3.5 中位數(shù) 13
1.3.6 四分位距 15
1.3.7 合理使用匯總數(shù)據(jù) 16
1.4 圖形和總結(jié) 16
1.4.1 直方圖的一些性質(zhì) 17
1.4.2 標(biāo)準(zhǔn)坐標(biāo)和正態(tài)數(shù)據(jù) 19
1.4.3 箱形圖 21
1.5 誰的更大?澳大利亞比薩調(diào)查 22
問題 26
編程練習(xí) 26
第2章 關(guān)注關(guān)系 28
2.1 二維數(shù)據(jù)繪圖 28
2.1.1 分類數(shù)據(jù)、計數(shù)和圖表 28
2.1.2 序列 32
2.1.3 空間數(shù)據(jù)散點圖 33
2.1.4 用散點圖揭示關(guān)系 33
2.2 相關(guān) 37
2.2.1 相關(guān)系數(shù) 40
2.2.2 用相關(guān)性預(yù)測 43
2.2.3 相關(guān)性帶來的困惑 46
2.3 野生馬群中的不育公馬 47
問題 49
編程練習(xí) 51
第二部分 概率
第3章 概率論基礎(chǔ) 56
3.1 實驗、結(jié)果和概率 56
3.2 事件 57
3.2.1 通過計數(shù)結(jié)果來計算事件概率 58
3.2.2 事件概率 60
3.2.3 通過對集合的推理來計算概率 62
3.3 獨立性 64
3.4 條件概率 68
3.4.1 計算條件概率 69
3.4.2 檢測罕見事件是困難的 71
3.4.3 條件概率和各種獨立形式 73
3.4.4 警示例子:檢察官的謬論 74
3.4.5 警示例子:Monty Hall 問題 75
3.5 更多實例 77
3.5.1 結(jié)果和概率 77
3.5.2 事件 78
3.5.3 獨立性 78
3.5.4 條件概率 79
問題 81
第4章 隨機(jī)變量與期望 86
4.1 隨機(jī)變量 86
4.1.1 隨機(jī)變量的聯(lián)合概率與條件概率87
4.1.2 只是一個小的連續(xù)概率 90
4.2 期望和期望值 92
4.2.1 期望值 92
4.2.2 均值、方差和協(xié)方差 94
4.2.3 期望和統(tǒng)計 96
4.3 弱大數(shù)定律 97
4.3.1 獨立同分布樣本 97
4.3.2 兩個不等式 98
4.3.3 不等式的證明 98
4.3.4 弱大數(shù)定律的定義 100
4.4 弱大數(shù)定律應(yīng)用 101
4.4.1 你應(yīng)該接受下注嗎 101
4.4.2 賠率、期望與博彩:文化轉(zhuǎn)向 102
4.4.3 提前結(jié)束比賽 103
4.4.4 用決策樹和期望做決策 104
4.4.5 效用 105
問題 107
編程練習(xí) 110
第5章 有用的概率分布 112
5.1 離散分布 112
5.1.1 均勻分布 112
5.1.2 伯努利隨機(jī)變量 112
5.1.3 幾何分布 113
5.1.4 二項分布 113
5.1.5 多項分布 115
5.1.6 泊松分布 115
5.2 連續(xù)分布 117
5.2.1 均勻分布 117
5.2.2 貝塔分布 117
5.2.3 伽馬分布 118
5.2.4 指數(shù)分布 119
5.3 正態(tài)分布 119
5.3.1 標(biāo)準(zhǔn)正態(tài)分布 120
5.3.2 正態(tài)分布 120
5.3.3 正態(tài)分布的特征 121
5.4 逼近參數(shù)為$N$的二項式 122
5.4.1 當(dāng)$N$取值很大時 124
5.4.2 正態(tài)化 125
5.4.3 二項分布的正態(tài)逼近 127
問題 127
編程