關(guān)于我們
書單推薦
新書推薦
|
對(duì)比Excel,輕松學(xué)習(xí)Python數(shù)據(jù)分析
集Python、Excel、數(shù)據(jù)分析為一體是本書的一大特色。本書圍繞整個(gè)數(shù)據(jù)分析的常規(guī)流程:工具熟悉-獲取數(shù)據(jù)-數(shù)據(jù)熟悉-數(shù)據(jù)處理-數(shù)據(jù)分析-分析結(jié)果進(jìn)行Excel 和Python 對(duì)比實(shí)現(xiàn),告訴你每一個(gè)過(guò)程中都會(huì)用到什么?過(guò)程與過(guò)程之間有什么聯(lián)系。這樣一本書既可以作為系統(tǒng)學(xué)習(xí)數(shù)據(jù)分析流程操作的說(shuō)明書,也可以作為一本數(shù)據(jù)分析師案頭必備的實(shí)操工具書,隨時(shí)備查。本書通過(guò)對(duì)比Excel 功能操作去學(xué)習(xí)Python 的實(shí)現(xiàn)代碼,而不是直接上來(lái)就學(xué)習(xí)Python代碼,大大降低了學(xué)習(xí)門檻,消除了讀者對(duì)代碼的恐懼心理。適合剛?cè)胄械臄?shù)據(jù)分析師,也適合對(duì)Excel 比較熟練的數(shù)據(jù)分析師,或從事其他崗位想提高工作效率的職場(chǎng)人。
Python雖然是一門編程語(yǔ)言,但是在數(shù)據(jù)分析領(lǐng)域?qū)崿F(xiàn)的功能和Excel的基本功能一樣,而Excel又是大家比較熟悉、容易上手的軟件,可以通過(guò)Excel數(shù)據(jù)分析去對(duì)比學(xué)習(xí)Python數(shù)據(jù)分析。本書將數(shù)據(jù)分析過(guò)程中涉及的每一個(gè)操作都對(duì)照講解,讓你從熟悉的Excel操作中去學(xué)習(xí)對(duì)應(yīng)的Python實(shí)現(xiàn),而不是直接學(xué)習(xí)Python代碼,大大降低了學(xué)習(xí)門檻,消除了大家對(duì)代碼的恐懼心理。這也是本書的一大特色,讓讀者可以像學(xué)Excel數(shù)據(jù)分析一樣,輕松學(xué)習(xí)Python數(shù)據(jù)分析。 序言 有幸收到張俊紅的做序邀請(qǐng),我非常高興。 從PC 時(shí)代到移動(dòng)互聯(lián)網(wǎng)時(shí)代一路走來(lái),每個(gè)人都感受到了數(shù)據(jù)爆炸性的增長(zhǎng),以及其中蘊(yùn)含的巨大價(jià)值。從PC 時(shí)代開(kāi)始,我們用鍵盤、掃描儀等設(shè)備使信息數(shù)據(jù)化。在移動(dòng)互聯(lián)網(wǎng)時(shí)代,智能手機(jī)通過(guò)攝像頭、GPS、陀螺儀等各種傳感器將我們的位置、行動(dòng)軌跡、行為偏好,甚至情緒等信息數(shù)據(jù)化。截至2000 年,全人類存儲(chǔ)了大約12EB 的數(shù)據(jù),要知道1PB=1024TB,1EB=1024PB。但是到了2011 年,一年所產(chǎn)生的數(shù)據(jù)就高達(dá)1.82ZB(注:1ZB=1024EB),數(shù)據(jù)已經(jīng)變成了一種人造的新能源。 在商業(yè)領(lǐng)域,從信息到商品,從商品到服務(wù),越來(lái)越多我們熟悉的事物被標(biāo)準(zhǔn)的數(shù)據(jù)所度量。無(wú)論是在線廣告的精準(zhǔn)營(yíng)銷,還是電子商務(wù)的個(gè)性化推薦,又或者是互聯(lián)網(wǎng)金融的人臉識(shí)別,互聯(lián)網(wǎng)的每一次效率提升都依賴于對(duì)傳統(tǒng)信息、物品,甚至人的數(shù)據(jù)化。 在使用數(shù)據(jù)進(jìn)行效率變革及商業(yè)化的道路上,Excel 和Python 扮演了關(guān)鍵的角色,它們幫助數(shù)據(jù)分析師高效地從海量數(shù)據(jù)中發(fā)現(xiàn)問(wèn)題,驗(yàn)證假設(shè),搭建模型,預(yù)測(cè)未來(lái)。作為一本數(shù)據(jù)分析的專業(yè)書籍,作者從數(shù)據(jù)采集、清洗、抽取,以及數(shù)據(jù)可視化等多個(gè)角度介紹了日常工作中數(shù)據(jù)分析的標(biāo)準(zhǔn)路徑。通過(guò)對(duì)比Excel 與Python 在數(shù)據(jù)處理過(guò)程中的操作步驟,詳細(xì)說(shuō)明了Excel 與Python 間的差異,以及用Python 進(jìn)行數(shù)據(jù)分析的方法。 雖與作者素未謀面,但是對(duì)于Python 在處理海量數(shù)據(jù)和建模上的高效性與便捷性,以及Python 在機(jī)器學(xué)習(xí)中的重要性,我們的觀點(diǎn)是一致的。同時(shí)我們也相信對(duì)于數(shù)據(jù)分析從業(yè)者來(lái)說(shuō),掌握一種用于數(shù)據(jù)處理的編程語(yǔ)言是非常必要的,而從Excel 到Python 的學(xué)習(xí)方法則是一條學(xué)好數(shù)據(jù)分析的捷徑。 王彥平 (網(wǎng)名藍(lán)鯨,電子書《從Excel 到Python數(shù)據(jù)分析進(jìn)階指南》《從Excel到R數(shù)據(jù)分析進(jìn)階指南》《從Excel 到SQL數(shù)據(jù)分析進(jìn)階指南》的作者) 2019 年1 月8 日 前言 為什么要寫這本書 本書既是一本數(shù)據(jù)分析的書,也是一本Excel 數(shù)據(jù)分析的書,同時(shí)還是一本Python數(shù)據(jù)分析的書。在互聯(lián)網(wǎng)上,無(wú)論是搜索數(shù)據(jù)分析,還是搜索Excel 數(shù)據(jù)分析,亦或是搜索Python 數(shù)據(jù)分析,我們都可以找到很多相關(guān)的圖書。既然已經(jīng)有這么多同類題材的書了,為什么我還要寫呢?因?yàn)樵谖覝?zhǔn)備寫這本書時(shí),還沒(méi)有一本把數(shù)據(jù)分析、Excel 數(shù)據(jù)分析、Python 數(shù)據(jù)分析這三者結(jié)合在一起的書。 為什么我要把它們結(jié)合在一起寫呢?那是因?yàn)椋艺J(rèn)為這三者是一個(gè)數(shù)據(jù)分析師必備的技能,而且這三者本身也是一個(gè)有機(jī)統(tǒng)一體。數(shù)據(jù)分析讓你知道怎么分析以及分析什么;Excel 和Python 是你在分析過(guò)程中會(huì)用到的兩個(gè)工具。 為什么要學(xué)習(xí)Python 既然Python 在數(shù)據(jù)分析領(lǐng)域是一個(gè)和Excel 類似的數(shù)據(jù)分析工具,二者實(shí)現(xiàn)的功能都一樣,為什么還要學(xué)Python,把Excel 學(xué)好不就行了嗎?我認(rèn)為學(xué)習(xí)Python 的主要原因有以下幾點(diǎn)。 1.在處理大量數(shù)據(jù)時(shí),Python 的效率高于Excel 當(dāng)數(shù)據(jù)量很小的時(shí)候,Excel 和Python 的處理速度基本上差不多,但是當(dāng)數(shù)據(jù)量較大或者公式嵌套太多時(shí),Excel 就會(huì)變得很慢,這個(gè)時(shí)候怎么辦呢?我們可以使用Python,Python 對(duì)于海量數(shù)據(jù)的處理效果要明顯優(yōu)于Excel。用Vlookup 函數(shù)做一個(gè)實(shí)驗(yàn),兩個(gè)大小均為23MB 的表(6 萬(wàn)行數(shù)據(jù)),在未作任何處理、沒(méi)有任何公式嵌套之前,Excel 中直接在一個(gè)表中用Vlookup 函數(shù)獲取另一個(gè)表的數(shù)據(jù)需要20 秒(我的計(jì)算機(jī)性能參數(shù)是I7、8GB 內(nèi)存、256GB 固態(tài)硬盤),配置稍微差點(diǎn)的計(jì)算機(jī)可能打開(kāi)這個(gè)表都很難。但是用Python 實(shí)現(xiàn)上述過(guò)程只需要580 毫秒,即0.58 秒,是Excel效率的34 倍。 2.Python 可以輕松實(shí)現(xiàn)自動(dòng)化 你可能會(huì)說(shuō)Excel 的VBA 也可以自動(dòng)化,但是VBA 主要還是基于Excel 內(nèi)部的自動(dòng)化,一些其他方面的自動(dòng)化VBA 就做不了,比如你要針對(duì)本地某一文件夾下面的文件名進(jìn)行批量修改,VBA 就不能實(shí)現(xiàn),但是Python 可以。 3.Python 可用來(lái)做算法模型 雖然你是做數(shù)據(jù)分析的,但是一些基礎(chǔ)的算法模型還是有必要掌握的,Python 可以讓你在懂一些基礎(chǔ)的算法原理的情況下就能搭建一些模型,比如你可以使用聚類算法搭建一個(gè)模型去對(duì)用戶進(jìn)行分類。 為什么要對(duì)比Excel 學(xué)習(xí)Python Python 雖然是一門編程語(yǔ)言,但是在數(shù)據(jù)分析領(lǐng)域?qū)崿F(xiàn)的功能和Excel 的基本功能一樣,而Excel 又是大家比較熟悉、容易上手的軟件,所以可以通過(guò)Excel 數(shù)據(jù)分析去對(duì)比學(xué)習(xí)Python 數(shù)據(jù)分析。對(duì)于同一個(gè)功能,本書告訴你在Excel 中怎么做,并告訴你對(duì)應(yīng)到Python 中是什么樣的代碼。例如數(shù)值替換,即把一個(gè)值替換成另一個(gè)值,對(duì)把Excel替換成Python這一要求,在Excel 中可以通過(guò)鼠標(biāo)點(diǎn)選實(shí)現(xiàn),如下圖所示。 在Python 中則通過(guò)具體的代碼實(shí)現(xiàn),如下所示。 df.replace(Excel,Python) # 表示將表df 中的Excel 替換成Python 本書將數(shù)據(jù)分析過(guò)程中涉及的每一個(gè)操作都按這種方式對(duì)照講解,讓你從熟悉的Excel 操作中去學(xué)習(xí)對(duì)應(yīng)的Python 實(shí)現(xiàn),而不是直接學(xué)習(xí)Python 代碼,大大降低了學(xué)習(xí)門檻,消除了大家對(duì)代碼的恐懼心理。這也是本書的一大特色,也是我為什么要寫本書的最主要原因,就是希望幫助你不再懼怕代碼,讓你可以像學(xué)Excel 數(shù)據(jù)分析一樣,輕松學(xué)習(xí)Python 數(shù)據(jù)分析。 本書的學(xué)習(xí)建議 要想完全掌握一項(xiàng)技能,你必須系統(tǒng)學(xué)習(xí)它,知道它的前因后果。本書不是孤立地講Excel 或者Python 中的操作,而是圍繞整個(gè)數(shù)據(jù)分析的常規(guī)流程:熟悉工具明確目的獲取數(shù)據(jù)熟悉數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)得出結(jié)論驗(yàn)證結(jié)論展示結(jié)論,告訴你每一個(gè)過(guò)程都會(huì)用到什么操作,這些操作用Excel 和Python 分別怎么實(shí)現(xiàn)。這樣一本書既是系統(tǒng)學(xué)習(xí)數(shù)據(jù)分析流程操作的說(shuō)明書,也是數(shù)據(jù)分析師案頭必備的實(shí)操工具書。 大家在讀第一遍的時(shí)候不用記住所有函數(shù),你是記不住的,即使你記住了,如果在工作中不用,那么很快就會(huì)忘記。正確的學(xué)習(xí)方式應(yīng)該是,先弄清楚一名數(shù)據(jù)分析師在日常工作中對(duì)工具都會(huì)有什么需求(當(dāng)然了,本書的順序是按照數(shù)據(jù)分析的常規(guī)分析流程來(lái)寫的),希望工具幫助你達(dá)到什么樣的目的,羅列好需求以后,再去研究工具的使用方法。比如,要?jiǎng)h除重復(fù)值,就要明確用Excel 如何實(shí)現(xiàn),用Python 又該如何實(shí)現(xiàn),兩種工具在實(shí)現(xiàn)方式上有什么異同,這樣對(duì)比次數(shù)多了以后,在遇到問(wèn)題時(shí),你自然而然就能用最快的速度選出最適合的工具了。數(shù)據(jù)分析一定是先有想法然后考慮如何用工具實(shí)現(xiàn),而不是剛開(kāi)始就陷入記憶工具的使用方法中。 本書寫了什么 本書分為三篇。 入門篇:主要講數(shù)據(jù)分析的一些基礎(chǔ)知識(shí),介紹數(shù)據(jù)分析是什么,為什么要做數(shù)據(jù)分析,數(shù)據(jù)分析究竟在分析什么,以及數(shù)據(jù)分析的常規(guī)流程。 實(shí)踐篇:圍繞數(shù)據(jù)分析的整個(gè)流程,分別介紹每一個(gè)步驟中的操作,這些操作用Excel 如何實(shí)現(xiàn),用Python 又如何實(shí)現(xiàn)。本篇內(nèi)容主要包括:Python 環(huán)境配置、Python基礎(chǔ)知識(shí)、數(shù)據(jù)源的獲取、數(shù)據(jù)概覽、數(shù)據(jù)預(yù)處理、數(shù)值操作、數(shù)據(jù)運(yùn)算、時(shí)間序列、數(shù)據(jù)分組、數(shù)據(jù)透視表、結(jié)果文件導(dǎo)出、數(shù)據(jù)可視化等。 進(jìn)階篇:介紹幾個(gè)實(shí)戰(zhàn)案例,讓你體會(huì)一下在實(shí)際業(yè)務(wù)中如何使用Python。具體來(lái)說(shuō),進(jìn)階篇的內(nèi)容主要包括,利用Python 實(shí)現(xiàn)報(bào)表自動(dòng)化、自動(dòng)發(fā)送電子郵件,以及在不同業(yè)務(wù)場(chǎng)景中的案例分析。此外,還補(bǔ)充介紹了NumPy 數(shù)組的一些常用方法。 本書適合誰(shuí) 本書主要適合以下人群。 Excel 已經(jīng)用得熟練,想學(xué)習(xí)Python 來(lái)豐富自己技能的數(shù)據(jù)分析師。 剛?cè)胄袑?duì)Excel 和Python 都不精通的數(shù)據(jù)分析師。 其他常用Excel 卻想通過(guò)學(xué)習(xí)Python 提高工作效率的人。 Python 雖然是一門編程語(yǔ)言,但是它并不難學(xué),不僅不難學(xué),而且很容易上手,這也是Python 深受廣大數(shù)據(jù)從業(yè)者喜愛(ài)的原因之一,因此大家在學(xué)習(xí)Python 之前首先在心里告訴自己一句話,那就是Python 并沒(méi)有那么難。 致謝 感謝我的父母,是他們給了我受教育的機(jī)會(huì),才有了今天的我。 感謝我的公眾號(hào)的讀者朋友們,如果不是他們,那么我可能不會(huì)堅(jiān)持撰寫技術(shù)文章,更不會(huì)有這本書。 感謝慧敏讓我意識(shí)到寫書的意義,從而創(chuàng)作本書,感謝電子工業(yè)出版社為這本書忙碌的所有人。 感謝我的女朋友,在寫書的這段日子里,我?guī)缀醢阉械臉I(yè)余時(shí)間全用在了寫作上,很少陪她,但她還是一直鼓勵(lì)我,支持我。
張俊紅:某互聯(lián)網(wǎng)公司數(shù)據(jù)分析師,擅長(zhǎng)Python、Sql、Excel,對(duì)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)領(lǐng)域比較熟悉。喜歡分享,致力于做一個(gè)數(shù)據(jù)科學(xué)路上的終身學(xué)習(xí)者,實(shí)踐者,分享者。個(gè)人微信公眾號(hào)張俊紅定期推送數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)爬蟲、Python 編程系列文章。
目錄
入門篇 第1 章 數(shù)據(jù)分析基礎(chǔ) . 2 1.1 數(shù)據(jù)分析是什么 2 1.2 為什么要做數(shù)據(jù)分析 2 1.2.1 現(xiàn)狀分析 . 3 1.2.2 原因分析 . 3 1.2.3 預(yù)測(cè)分析 . 3 1.3 數(shù)據(jù)分析究竟在分析什么 4 1.3.1 總體概覽指標(biāo) . 4 1.3.2 對(duì)比性指標(biāo) . 4 1.3.3 集中趨勢(shì)指標(biāo) . 4 1.3.4 離散程度指標(biāo) . 5 1.3.5 相關(guān)性指標(biāo) . 5 1.3.6 相關(guān)關(guān)系與因果關(guān)系 . 6 1.4 數(shù)據(jù)分析的常規(guī)流程 6 1.4.1 熟悉工具 . 6 1.4.2 明確目的 . 7 1.4.3 獲取數(shù)據(jù) . 7 1.4.4 熟悉數(shù)據(jù) . 7 1.4.5 處理數(shù)據(jù) . 7 1.4.6 分析數(shù)據(jù) . 8 1.4.7 得出結(jié)論 . 8 1.4.8 驗(yàn)證結(jié)論 . 8 1.4.9 展示結(jié)論 . 8 1.5 數(shù)據(jù)分析工具:Excel 與Python .. 8 實(shí)踐篇 第2 章 熟悉鍋Python 基礎(chǔ)知識(shí) . 12 2.1 Python 是什么 .. 12 2.2 Python 的下載與安裝 .. 13 2.2.1 安裝教程 ... 13 2.2.2 IDE 與IDLE . 17 2.3 介紹Jupyter Notebook 17 2.3.1 新建Jupyter Notebook 文件 17 2.3.2 運(yùn)行你的第一段代碼 ... 19 2.3.3 重命名Jupyter Notebook 文件 19 2.3.4 保存Jupyter Notebook 文件 19 2.3.5 導(dǎo)入本地Jupyter Notebook 文件 20 2.3.6 Jupyter Notebook 與Markdown ... 21 2.3.7 為Jupyter Notebook 添加目錄 21 2.4 基本概念 .. 26 2.4.1 數(shù) ... 26 2.4.2 變量 ... 26 2.4.3 標(biāo)識(shí)符 ... 27 2.4.4 數(shù)據(jù)類型 ... 28 2.4.5 輸出與輸出格式設(shè)置 ... 28 2.4.6 縮進(jìn)與注釋 ... 29 2.5 字符串 .. 30 2.5.1 字符串的概念 ... 30 2.5.2 字符串的連接 ... 30 2.5.3 字符串的復(fù)制 ... 30 2.5.4 獲取字符串的長(zhǎng)度 ... 30 2.5.5 字符串查找 ... 31 2.5.6 字符串索引 ... 31 2.5.7 字符串分隔 ... 32 2.5.8 移除字符 ... 32 2.6 數(shù)據(jù)結(jié)構(gòu)列表 .. 33 2.6.1 列表的概念 ... 33 2.6.2 新建一個(gè)列表 ... 33 2.6.3 列表的復(fù)制 ... 34 2.6.4 列表的合并 ... 34 2.6.5 向列表中插入新元素 ... 34 2.6.6 獲取列表中值出現(xiàn)的次數(shù) ... 35 2.6.7 獲取列表中值出現(xiàn)的位置 ... 35 2.6.8 獲取列表中指定位置的值 ... 36 2.6.9 刪除列表中的值 ... 36 2.6.10 對(duì)列表中的值進(jìn)行排序 . 37 2.7 數(shù)據(jù)結(jié)構(gòu)字典 .. 37 2.7.1 字典的概念 ... 37 2.7.3 字典的keys()、values()和items()方法 ... 37 2.8 數(shù)據(jù)結(jié)構(gòu)元組 .. 38 2.8.1 元組的概念 ... 38 2.8.2 新建一個(gè)元組 ... 38 2.8.3 獲取元組的長(zhǎng)度 ... 38 2.8.4 獲取元組內(nèi)的元素 ... 39 2.8.5 元組與列表相互轉(zhuǎn)換 ... 39 2.8.6 zip()函數(shù) ... 39 2.9 運(yùn)算符 .. 40 2.9.1 算術(shù)運(yùn)算符 ... 40 2.9.2 比較運(yùn)算符 ... 40 2.9.3 邏輯運(yùn)算符 ... 41 2.10 循環(huán)語(yǔ)句 41 2.10.1 for 循環(huán) ... 41 2.10.2 while 循環(huán) ... 42 2.11 條件語(yǔ)句 43 2.11.1 if 語(yǔ)句 . 43 2.11.2 else 語(yǔ)句 .. 44 2.11.3 elif 語(yǔ)句 .. 45 2.12 函數(shù) 46 2.12.1 普通函數(shù) . 47 2.12.2 匿名函數(shù) . 48 2.13 高級(jí)特性 49 2.13.1 列表生成式 . 49 2.13.2 map 函數(shù) . 50 2.14 模塊 50 第3 章 Pandas 數(shù)據(jù)結(jié)構(gòu) . 51 3.1 Series 數(shù)據(jù)結(jié)構(gòu) ... 51 3.1.1 Series 是什么 51 3.1.2 創(chuàng)建一個(gè)Series 52 3.1.3 利用index 方法獲取Series 的索引 53 3.1.4 利用values 方法獲取Series 的值 ... 53 3.2 DataFrame 表格型數(shù)據(jù)結(jié)構(gòu) ... 53 3.2.1 DataFrame 是什么 53 3.2.2 創(chuàng)建一個(gè)DataFrame 54 3.2.3 獲取DataFrame 的行、列索引 ... 56 3.2.4 獲取DataFrame 的值 ... 56 第4 章 準(zhǔn)備食材獲取數(shù)據(jù)源 .. 57 4.1 導(dǎo)入外部數(shù)據(jù) .. 57 4.1.1 導(dǎo)入.xlsx 文件 .. 57 4.1.2 導(dǎo)入.csv 文件 ... 60 4.1.3 導(dǎo)入.txt 文件 63 4.1.4 導(dǎo)入sql 文件 65 4.2 新建數(shù)據(jù) .. 67 4.3 熟悉數(shù)據(jù) .. 67 4.3.1 利用head 預(yù)覽前幾行 . 67 4.3.2 利用shape 獲取數(shù)據(jù)表的大小 68 4.3.3 利用info 獲取數(shù)據(jù)類型 .. 69 4.3.4 利用describe 獲取數(shù)值分布情況 71 第5 章 淘米洗菜數(shù)據(jù)預(yù)處理 .. 73 5.1 缺失值處理 .. 73 5.1.1 缺失值查看 ... 73 5.1.2 缺失值刪除 ... 75 5.1.3 缺失值填充 ... 77 5.2 重復(fù)值處理 .. 78 5.3 異常值的檢測(cè)與處理 .. 81 5.3.1 異常值檢測(cè) ... 81 5.3.2 異常值處理 ... 82 5.4 數(shù)據(jù)類型轉(zhuǎn)換 .. 83 5.4.1 數(shù)據(jù)類型 ... 83 5.4.2 類型轉(zhuǎn)換 ... 84 5.5 索引設(shè)置 .. 86 5.5.1 為無(wú)索引表添加索引 ... 86 5.5.2 重新設(shè)置索引 ... 87 5.5.3 重命名索引 ... 88 5.5.4 重置索引 ... 89 第6 章 菜品挑選數(shù)據(jù)選擇 . 91 6.1 列選擇 .. 91 6.1.1 選擇某一列/某幾列 .. 91 6.1.2 選擇連續(xù)的某幾列 ... 92 6.2 行選擇 .. 93 6.2.1 選擇某一行/某幾行 .. 93 6.2.2 選擇連續(xù)的某幾行 ... 94 6.2.3 選擇滿足條件的行 ... 95 6.3 行列同時(shí)選擇 .. 96 6.3.1 普通索引 普通索引選擇指定的行和列 . 97 6.3.2 位置索引 位置索引選擇指定的行和列 . 97 6.3.3 布爾索引 普通索引選擇指定的行和列 . 98 6.3.4 切片索引 切片索引選擇指定的行和列 . 98 6.3.5 切片索引 普通索引選擇指定的行和列 . 99 第7 章 切配菜品數(shù)值操作 ... 100 7.1 數(shù)值替換 100 7.1.1 一對(duì)一替換 . 100 7.1.2 多對(duì)一替換 . 102 7.1.3 多對(duì)多替換 . 103 7.2 數(shù)值排序 104 7.2.1 按照一列數(shù)值進(jìn)行排序 . 104 7.2.2 按照有缺失值的列進(jìn)行排序 . 106 7.2.3 按照多列數(shù)值進(jìn)行排序 . 106 7.3 數(shù)值排名 108 7.4 數(shù)值刪除 . 110 7.4.1 刪除列 .. 110 7.4.2 刪除行 .. 111 7.4.3 刪除特定行 .. 112 7.5 數(shù)值計(jì)數(shù) . 113 7.6 唯一值獲取 . 114 7.7 數(shù)值查找 . 115 7.8 區(qū)間切分 . 116 7.9 插入新的行或列 . 119 7.10 行列互換 .. 120 7.11 索引重塑 .. 121 7.12 長(zhǎng)寬表轉(zhuǎn)換 .. 122 7.12.1 寬表轉(zhuǎn)換為長(zhǎng)表 ... 123 7.12.2 長(zhǎng)表轉(zhuǎn)換為寬表 ... 125 7.13 apply()與applymap()函數(shù) ... 126 第8 章 開(kāi)始烹調(diào)數(shù)據(jù)運(yùn)算 ... 127 8.1 算術(shù)運(yùn)算 127 8.2 比較運(yùn)算 128 8.3 匯總運(yùn)算 129 8.3.1 count 非空值計(jì)數(shù) ... 129 8.3.2 sum 求和 . 130 8.3.3 mean 求均值 ... 130 8.3.4 max 求最大值 . 131 8.3.5 min 求最小值 . 132 8.3.6 median 求中位數(shù) 132 8.3.7 mode 求眾數(shù) ... 133 8.3.8 var 求方差 ... 134 8.3.9 std 求標(biāo)準(zhǔn)差 ... 134 8.3.10 quantile 求分位數(shù) . 135 8.4 相關(guān)性運(yùn)算 136 第9 章 炒菜計(jì)時(shí)器時(shí)間序列 138 9.1 獲取當(dāng)前時(shí)刻的時(shí)間 138 9.1.1 返回當(dāng)前時(shí)刻的日期和時(shí)間 . 138 9.1.2 分別返回當(dāng)前時(shí)刻的年、月、日 . 138 9.1.3 返回當(dāng)前時(shí)刻的周數(shù) . 139 9.2 指定日期和時(shí)間的格式 140 9.3 字符串和時(shí)間格式相互轉(zhuǎn)換 141 9.3.1 將時(shí)間格式轉(zhuǎn)換為字符串格式 . 141 9.3.2 將字符串格式轉(zhuǎn)換為時(shí)間格式 . 141 9.4 時(shí)間索引 142 9.5 時(shí)間運(yùn)算 145 9.5.1 兩個(gè)時(shí)間之差 . 145 9.5.2 時(shí)間偏移 . 145 第10 章 菜品分類數(shù)據(jù)分組/數(shù)據(jù)透視表 .. 148 10.1 數(shù)據(jù)分組 .. 148 10.1.1 分組鍵是列名 ... 150 10.1.2 分組鍵是Series 151 10.1.3 神奇的aggregate 方法 . 152 10.1.4 對(duì)分組后的結(jié)果重置索引 ... 153 10.2 數(shù)據(jù)透視表 .. 154 第11 章 水果拼盤多表拼接 . 158 11.1 表的橫向拼接 .. 158 11.1.1 連接表的類型 ... 158 11.1.2 連接鍵的類型 ... 160 11.1.3 連接方式 ... 163 11.1.4 重復(fù)列名處理 ... 165 11.2 表的縱向拼接 .. 165 11.2.1 普通合并 ... 166 11.2.2 索引設(shè)置 ... 167 11.2.3 重疊數(shù)據(jù)合并 ... 167 第12 章 盛菜裝盤結(jié)果導(dǎo)出 . 169 12.1 導(dǎo)出為.xlsx 文件 . 169 12.1.1 設(shè)置文件導(dǎo)出路徑 ... 170 12.1.2 設(shè)置Sheet 名稱 170 12.1.3 設(shè)置索引 ... 170 12.1.4 設(shè)置要導(dǎo)出的列 ... 171 12.1.5 設(shè)置編碼格式 ... 171 12.1.6 缺失值處理 ... 172 12.1.7 無(wú)窮值處理 ... 172 12.2 導(dǎo)出為.csv 文件 ... 173 12.2.1 設(shè)置文件導(dǎo)出路徑 ... 173 12.2.2 設(shè)置索引 ... 174 12.2.3 設(shè)置要導(dǎo)出的列 ... 174 12.2.4 設(shè)置分隔符號(hào) ... 174 12.2.5 缺失值處理 ... 174 12.2.6 設(shè)置編碼格式 ... 175 12.3 將文件導(dǎo)出到多個(gè)Sheet 175 第13 章 菜品擺放數(shù)據(jù)可視化 .. 176 13.1 數(shù)據(jù)可視化是什么 .. 176 13.2 數(shù)據(jù)可視化的基本流程 .. 176 13.2.1 整理數(shù)據(jù) ... 176 13.2.2 明確目的 ... 177 13.2.3 尋找合適的表現(xiàn)形式 ... 177 13.3 圖表的基本組成元素 .. 177 13.4 Excel 與Python 可視化 ... 179 13.5 建立畫布和坐標(biāo)系 .. 179 13.5.1 建立畫布 ... 179 13.5.2 用add_subplot 函數(shù)建立坐標(biāo)系 . 180 13.5.3 用plt.subplot2grid 函數(shù)建立坐標(biāo)系 182 13.5.4 用plt.subplot 函數(shù)建立坐標(biāo)系 183 13.5.5 用plt.subplots 函數(shù)建立坐標(biāo)系 .. 184 13.5.6 幾種創(chuàng)建坐標(biāo)系方法的區(qū)別 ... 185 13.6 設(shè)置坐標(biāo)軸 .. 185 13.6.1 設(shè)置坐標(biāo)軸的標(biāo)題 ... 185 13.6.2 設(shè)置坐標(biāo)軸的刻度 ... 187 13.6.3 設(shè)置坐標(biāo)軸的范圍 ... 190 13.6.4 坐標(biāo)軸的軸顯示設(shè)置 ... 191 13.7 其他圖表格式的設(shè)置 .. 191 13.7.1 網(wǎng)格線設(shè)置 ... 191 13.7.2 設(shè)置圖例 ... 193 13.7.3 圖表標(biāo)題設(shè)置 ... 195 13.7.4 設(shè)置數(shù)據(jù)標(biāo)簽 ... 197 13.7.5 圖表注釋 ... 198 13.7.6 數(shù)據(jù)表 ... 199 13.8 繪制常用圖表 .. 201 13.8.1 繪制折線圖 ...
你還可能感興趣
我要評(píng)論
|