第1章 Python基礎(chǔ)
1.1 Python安裝與第一個(gè)Python程序
1.1.1 安裝Python
1.1.2 編寫(xiě)第一個(gè)Python程序
1.1.3 PyCharm的安裝與使用
1.2 Python基礎(chǔ)知識(shí)
1.2.1 變量、行、縮進(jìn)與注釋
1.2.2 數(shù)據(jù)類型:數(shù)字與字符串
1.2.3 數(shù)據(jù)類型:列表與字典、元組與集合
1.2.4 運(yùn)算符
1.3 Python語(yǔ)句
1.3.1 if條件語(yǔ)句
1.3.2 for循環(huán)語(yǔ)句
1.3.3 while循環(huán)語(yǔ)句
1.3.4 try/except異常處理語(yǔ)句
1.4 函數(shù)與庫(kù)
1.4.1 函數(shù)的定義與調(diào)用
1.4.2 函數(shù)的返回值與作用域
1.4.3 常用基本函數(shù)介紹
1.4.4 庫(kù)
第2章 金融數(shù)據(jù)挖掘之爬蟲(chóng)技術(shù)基礎(chǔ)
2.1 爬蟲(chóng)技術(shù)基礎(chǔ)1網(wǎng)頁(yè)結(jié)構(gòu)基礎(chǔ)
2.1.1 查看網(wǎng)頁(yè)源代碼F12鍵
2.1.2 查看網(wǎng)頁(yè)源代碼右鍵菜單
2.1.3 網(wǎng)址構(gòu)成及http與https協(xié)議
2.1.4 網(wǎng)頁(yè)結(jié)構(gòu)初步了解
2.2 爬蟲(chóng)技術(shù)基礎(chǔ)2網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)階
2.2.1 HTML基礎(chǔ)知識(shí)1我的第一個(gè)網(wǎng)頁(yè)
2.2.2 HTML基礎(chǔ)知識(shí)2基礎(chǔ)結(jié)構(gòu)
2.2.3 HTML基礎(chǔ)知識(shí)3標(biāo)題、段落、鏈接
2.2.4 HTML基礎(chǔ)知識(shí)4區(qū)塊
2.2.5 HTML基礎(chǔ)知識(shí)5類與id
2.3 初步實(shí)戰(zhàn)百度新聞源代碼獲取
2.3.1 獲取網(wǎng)頁(yè)源代碼
2.3.2 分析網(wǎng)頁(yè)源代碼信息
2.4 爬蟲(chóng)技術(shù)基礎(chǔ)3正則表達(dá)式
2.4.1 正則表達(dá)式基礎(chǔ)1findall()函數(shù)
2.4.2 正則表達(dá)式基礎(chǔ)2非貪婪匹配之(.*?)
2.4.3 正則表達(dá)式基礎(chǔ)3非貪婪匹配之.*?
2.4.4 正則表達(dá)式基礎(chǔ)4自動(dòng)考慮換行的修飾符re.S
2.4.5 正則表達(dá)式基礎(chǔ)5知識(shí)點(diǎn)補(bǔ)充
第3章 第3章 金融數(shù)據(jù)挖掘案例實(shí)戰(zhàn)1
3.1 提取百度新聞標(biāo)題、網(wǎng)址、日期及來(lái)源
3.1.1 獲取網(wǎng)頁(yè)源代碼
3.1.2 編寫(xiě)正則表達(dá)式提取新聞信息
3.1.3 數(shù)據(jù)清洗并打印輸出
3.2 批量獲取多家公司的百度新聞并生成數(shù)據(jù)報(bào)告
3.2.1 批量爬取多家公司的百度新聞
3.2.2 自動(dòng)生成輿情數(shù)據(jù)報(bào)告文本文件
3.3 異常處理及24小時(shí)實(shí)時(shí)數(shù)據(jù)挖掘?qū)崙?zhàn)
3.3.1 異常處理實(shí)戰(zhàn)
3.3.2 24小時(shí)實(shí)時(shí)爬取實(shí)戰(zhàn)
3.4 按時(shí)間順序爬取及批量爬取多頁(yè)內(nèi)容
3.4.1 按時(shí)間順序爬取百度新聞
3.4.2 一次性批量爬取多頁(yè)內(nèi)容
3.5 搜狗新聞與新浪財(cái)經(jīng)數(shù)據(jù)挖掘?qū)崙?zhàn)
3.5.1 搜狗新聞數(shù)據(jù)挖掘?qū)崙?zhàn)
3.5.2 新浪財(cái)經(jīng)數(shù)據(jù)挖掘?qū)崙?zhàn)
第4章 數(shù)據(jù)庫(kù)詳解及實(shí)戰(zhàn)
4.1 MySQL數(shù)據(jù)庫(kù)簡(jiǎn)介及安裝
4.2 MySQL數(shù)據(jù)庫(kù)基礎(chǔ)
4.2.1 MySQL數(shù)據(jù)庫(kù)管理平臺(tái)phpMyAdmin介紹
4.2.2 創(chuàng)建數(shù)據(jù)庫(kù)及數(shù)據(jù)表
4.2.3 數(shù)據(jù)表基本操作
4.3 Python與MySQL數(shù)據(jù)庫(kù)的交互
4.3.1 安裝PyMySQL庫(kù)
4.3.2 用Python連接數(shù)據(jù)庫(kù)
4.3.3 用Python存儲(chǔ)數(shù)據(jù)到數(shù)據(jù)庫(kù)
4.3.4 用Python在數(shù)據(jù)庫(kù)中查找并提取數(shù)據(jù)
4.3.5 用Python從數(shù)據(jù)庫(kù)中刪除數(shù)據(jù)
4.4 案例實(shí)戰(zhàn):把金融數(shù)據(jù)存入數(shù)據(jù)庫(kù)
第5章
數(shù)據(jù)清洗優(yōu)化及數(shù)據(jù)評(píng)分系統(tǒng)搭建
5.1 深度分析數(shù)據(jù)去重及清洗優(yōu)化
5.1.1 數(shù)據(jù)去重
5.1.2 常見(jiàn)的數(shù)據(jù)清洗手段及日期格式統(tǒng)一
5.1.3 文本內(nèi)容深度過(guò)濾剔除噪聲數(shù)據(jù)
5.2 數(shù)據(jù)亂碼的處理
5.2.1 編碼分析
5.2.2 重新編碼及解碼
5.2.3 解決亂碼問(wèn)題的經(jīng)驗(yàn)方法
5.3 輿情數(shù)據(jù)評(píng)分系統(tǒng)搭建
5.3.1 輿情數(shù)據(jù)評(píng)分系統(tǒng)版本1根據(jù)標(biāo)題評(píng)分
5.3.2 輿情數(shù)據(jù)評(píng)分系統(tǒng)版本2根據(jù)正文內(nèi)容評(píng)分
5.3.3 輿情數(shù)據(jù)評(píng)分系統(tǒng)版本3解決亂碼問(wèn)題
5.3.4 輿情數(shù)據(jù)評(píng)分系統(tǒng)版本4處理非相關(guān)信息
5.4 完整的百度新聞數(shù)據(jù)挖掘系統(tǒng)搭建
5.4.1 將輿情數(shù)據(jù)評(píng)分存入數(shù)據(jù)庫(kù)
5.4.2 百度新聞數(shù)據(jù)挖掘系統(tǒng)代碼整合
5.4.3 從數(shù)據(jù)庫(kù)匯總每日評(píng)分
第6章
數(shù)據(jù)分析利器:NumPy與pandas庫(kù)
6.1 NumPy庫(kù)基礎(chǔ)
6.1.1 NumPy庫(kù)與數(shù)組
6.1.2 創(chuàng)建數(shù)組的幾種方式
6.2 pandas庫(kù)基礎(chǔ)
6.2.1 二維數(shù)據(jù)表格DataFrame的創(chuàng)建與索引的修改
6.2.2 Excel工作簿等文件的讀取和寫(xiě)入
6.2.3 數(shù)據(jù)的讀取與編輯
6.2.4 數(shù)據(jù)表的拼接
6.3 利用pandas庫(kù)導(dǎo)出輿情數(shù)據(jù)評(píng)分
6.3.1 匯總輿情數(shù)據(jù)評(píng)分
6.3.2 導(dǎo)出輿情數(shù)據(jù)評(píng)分表格
第7章
數(shù)據(jù)可視化與數(shù)據(jù)相關(guān)性分析
7.1 用Tushare庫(kù)調(diào)取股價(jià)數(shù)據(jù)
7.1.1 Tushare庫(kù)的基本用法
7.1.2 匹配輿情數(shù)據(jù)評(píng)分與股價(jià)數(shù)據(jù)
7.2 輿情數(shù)據(jù)評(píng)分與股價(jià)數(shù)據(jù)的可視化
7.2.1 數(shù)據(jù)可視化基礎(chǔ)
7.2.2 數(shù)據(jù)可視化實(shí)戰(zhàn)
7.3 輿情數(shù)據(jù)評(píng)分與股價(jià)數(shù)據(jù)相關(guān)性分析
7.3.1 皮爾遜相關(guān)系數(shù)
7.3.2 相關(guān)性分析實(shí)戰(zhàn)
第8章
金融數(shù)據(jù)挖掘之爬蟲(chóng)技術(shù)進(jìn)階
8.1 爬蟲(chóng)技術(shù)進(jìn)階1IP代理簡(jiǎn)介
8.1.1 IP代理的工作原理
8.1.2 IP代理的使用方法
8.2 爬蟲(chóng)技術(shù)進(jìn)階2Selenium庫(kù)詳解
8.2.1 網(wǎng)絡(luò)數(shù)據(jù)挖掘的難點(diǎn)
8.2.2 模擬瀏覽器ChromeDriver的下載與安裝
8.2.3 Selenium庫(kù)的安裝
8.2.4 Selenium庫(kù)的使用
第9章
金融數(shù)據(jù)挖掘案例實(shí)戰(zhàn)2
9.1 新浪財(cái)經(jīng)股票實(shí)時(shí)數(shù)據(jù)挖掘?qū)崙?zhàn)
9.1.1 獲取網(wǎng)頁(yè)源代碼
9.1.2 數(shù)據(jù)提取
9.2 東方財(cái)富網(wǎng)數(shù)據(jù)挖掘?qū)崙?zhàn)
9.2.1 獲取網(wǎng)頁(yè)源代碼
9.2.2 編寫(xiě)正則表達(dá)式提取數(shù)據(jù)
9.2.3 數(shù)據(jù)清洗及打印輸出
9.2.4 函數(shù)定義及調(diào)用
9.3 裁判文書(shū)網(wǎng)數(shù)據(jù)挖掘?qū)崙?zhàn)
9.4 巨潮資訊網(wǎng)數(shù)據(jù)挖掘?qū)崙?zhàn)
9.4.1 獲取網(wǎng)頁(yè)源代碼
9.4.2 編寫(xiě)正則表達(dá)式提取數(shù)據(jù)
9.4.3 數(shù)據(jù)清洗及打印輸出
9.4.4 函數(shù)定義及調(diào)用
第10章
通過(guò)PDF文本解析上市公司理財(cái)公告
10.1 PDF文件批量下載實(shí)戰(zhàn)
10.1.1 爬取多頁(yè)內(nèi)容
10.1.2 自動(dòng)篩選所需內(nèi)容
10.1.3 理財(cái)公告PDF文件的自動(dòng)批量下載
10.2 PDF文本解析基礎(chǔ)
10.2.1 用pdfplumber庫(kù)提取文本內(nèi)容
10.2.2 用pdfplumber庫(kù)提取表格內(nèi)容
10.3 PDF文本解析實(shí)戰(zhàn)尋找合適的理財(cái)公告
10.3.1 遍歷文件夾里所有的PDF文件
10.3.2 批量解析每一個(gè)PDF文件
10.3.3 將合格的PDF文件自動(dòng)歸檔
第11章 郵件提醒系統(tǒng)搭建
11.1 用Python自動(dòng)發(fā)送郵件
11.1.1 通過(guò)騰訊QQ郵箱發(fā)送郵件
11.1.2 通過(guò)網(wǎng)易163郵箱發(fā)送郵件
11.1.3 發(fā)送HTML格式的郵件
11.1.4 發(fā)送郵件附件
11.2 案例實(shí)戰(zhàn):定時(shí)發(fā)送數(shù)據(jù)分析報(bào)告
11.2.1 用Python提取數(shù)據(jù)并發(fā)送數(shù)據(jù)分析報(bào)告郵件
11.2.2 用Python實(shí)現(xiàn)每天定時(shí)發(fā)送郵件
第12章 基于評(píng)級(jí)報(bào)告的投資決策分析
12.1 獲取券商研報(bào)網(wǎng)站的表格數(shù)據(jù)
12.1.1 表格數(shù)據(jù)的常規(guī)獲取方法
12.1.2 用Selenium庫(kù)爬取和訊研報(bào)網(wǎng)表格數(shù)據(jù)
12.2 pandas庫(kù)的高階用法
12.2.1 重復(fù)值和缺失值處理
12.2.2 用groupby()函數(shù)分組匯總數(shù)據(jù)
12.2.3 用pandas庫(kù)進(jìn)行批量處理
12.3 評(píng)估券商分析師預(yù)測(cè)準(zhǔn)確度
12.3.1 讀取分析師評(píng)級(jí)報(bào)告數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理
12.3.2 用Tushare庫(kù)計(jì)算股票收益率
12.3.3 計(jì)算平均收益率并進(jìn)行分析師預(yù)測(cè)準(zhǔn)確度排名
12.4 策略延伸
12.4.1 漲停板的考慮
12.4.2 按分析師查看每只股票的收益率
12.4.3 計(jì)算多階段股票收益率
第13章 用Python生成Word文檔
13.1 用Python創(chuàng)建Word文檔的基礎(chǔ)知識(shí)
13.1.1 初識(shí)python-docx庫(kù)
13.1.2 python-docx庫(kù)的基本操作
13.2 用Python創(chuàng)建Word文檔的進(jìn)階知識(shí)
13.2.1 設(shè)置中文字體
13.2.2 在段落中新增文字
13.2.3 設(shè)置字體大小及顏色
13.2.4 設(shè)置段落格式
13.2.5 設(shè)置表格樣式
13.2.6 設(shè)置圖片樣式
13.3 案例實(shí)戰(zhàn):自動(dòng)生成數(shù)據(jù)分析報(bào)告Word文檔
第14章 基于股票信息及其衍生變量的數(shù)據(jù)分析
14.1 策略基本思路
14.2 獲取股票基本信息及衍生變量數(shù)據(jù)
14.2.1 獲取股票基本信息數(shù)據(jù)
14.2.2 獲取股票衍生變量數(shù)據(jù)
14.2.3 通過(guò)相關(guān)性分析選取合適的衍生變量
14.2.4 數(shù)據(jù)表優(yōu)化及代碼匯總
14.3 數(shù)據(jù)可視化呈現(xiàn)
14.4 用xlwings庫(kù)生成Excel工作簿
14.4.1 xlwings庫(kù)的基本用法
14.4.2 案例實(shí)戰(zhàn):自動(dòng)生成Excel工作簿報(bào)告
14.5 策略深化思路
第15章 云服務(wù)器部署實(shí)戰(zhàn)
15.1 云服務(wù)器的購(gòu)買(mǎi)與配置
15.2 程序的云端部署
15.2.1 安裝運(yùn)行程序所需的軟件
15.2.2 實(shí)現(xiàn)程序24小時(shí)不間斷運(yùn)行
第16章 機(jī)器學(xué)習(xí)之客戶違約預(yù)測(cè)模型搭建
16.1 機(jī)器學(xué)習(xí)在金融領(lǐng)域的應(yīng)用
16.2 決策樹(shù)模型的基本原理
16.2.1 決策樹(shù)模型簡(jiǎn)介
16.2.2 決策樹(shù)模型的建樹(shù)依據(jù)
16.3 案例實(shí)戰(zhàn):客戶違約預(yù)測(cè)模型搭建
16.3.1 模型搭建
16.3.2 模型預(yù)測(cè)及評(píng)估
16.3.3 模型可視化呈現(xiàn)