《大數(shù)據(jù)導(dǎo)論》內(nèi)容包括大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)下的云計(jì)算、大數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)計(jì)與分析、大數(shù)據(jù)安全、數(shù)據(jù)可視化、大數(shù)據(jù)與社交媒體的融合、大數(shù)據(jù)促進(jìn)電子病歷的改革、大數(shù)據(jù)在旅游業(yè)中的應(yīng)用、大數(shù)據(jù)在金融業(yè)的應(yīng)用和大數(shù)據(jù)在制造業(yè)的應(yīng)用,既包括大數(shù)據(jù)的基本知識(shí),也涵蓋大數(shù)據(jù)在典型行業(yè)的具體應(yīng)用,讀者通過學(xué)習(xí)能更深入地認(rèn)識(shí)和掌握大數(shù)據(jù)的應(yīng)用價(jià)值。書中每章都設(shè)有習(xí)題與實(shí)踐,便于鞏固所學(xué)內(nèi)容。
《大數(shù)據(jù)導(dǎo)論》是為高等院校各專業(yè)學(xué)習(xí)大數(shù)據(jù)基本課程而設(shè)計(jì)編寫的,既能滿足人文社會(huì)科學(xué)學(xué)科的相關(guān)專業(yè)需求,也可以滿足理工科的需要,同時(shí)也可作為各行各業(yè)在職人士的參考用書。
本書努力讓非技術(shù)專業(yè)的人看懂?dāng)?shù)據(jù)科學(xué)的知識(shí)和理論及方法。
在應(yīng)用部分特別關(guān)注醫(yī)療、旅游、金融和制造業(yè)的典型行業(yè)的應(yīng)用。
大量應(yīng)用了直觀的圖表說明,這些都使本書的邏輯更加清晰,便于理解。
回顧過去的十年,科技產(chǎn)品和成果不斷涌現(xiàn),沖擊著人類的生活方式和思維方式:智能移動(dòng)設(shè)備、人工智能、云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)和各種各樣的“共享”等,使人類認(rèn)知世界的方式和方法發(fā)生了巨大變化。在這些平臺(tái)和技術(shù)的運(yùn)用中,流淌、堆積著一個(gè)強(qiáng)大的資源——大數(shù)據(jù)!人們對(duì)數(shù)據(jù)的認(rèn)識(shí)和運(yùn)用由此發(fā)生了根本性變化,大數(shù)據(jù)從技術(shù)變成了產(chǎn)業(yè)和科學(xué),數(shù)據(jù)的價(jià)值因其“大”而“全”受到前所未有的重視。如果說過去人類社會(huì)的發(fā)展是由機(jī)械驅(qū)動(dòng)、電力驅(qū)動(dòng)或網(wǎng)絡(luò)驅(qū)動(dòng)的話,那么現(xiàn)在和未來就是由大數(shù)據(jù)來驅(qū)動(dòng)人類社會(huì)的進(jìn)步。大數(shù)據(jù)的快速發(fā)展和多樣性給人們帶來巨大的挑戰(zhàn),同時(shí)大數(shù)據(jù)又給各方面帶來意想不到的價(jià)值和機(jī)遇。
大數(shù)據(jù)涌現(xiàn):大數(shù)據(jù)之繁在于其“大”,不僅指其容量的數(shù)據(jù)單位由TB級(jí)別跨越到了DB級(jí)別,還體現(xiàn)在多樣性、處理速度和復(fù)雜度等方面,海量的數(shù)據(jù)已如決堤之洪流涌入人們的生活,大量信息源產(chǎn)生的數(shù)據(jù)已遠(yuǎn)遠(yuǎn)超越目前人力所能處理的范圍,需要人們探索如何對(duì)這些數(shù)據(jù)進(jìn)行管理及運(yùn)用;大數(shù)據(jù)的根本在于“數(shù)據(jù)”,在互聯(lián)網(wǎng)及相關(guān)平臺(tái)上利用新技術(shù)來采集、存儲(chǔ)和分析激增的數(shù)據(jù)。
大數(shù)據(jù)價(jià)值:大數(shù)據(jù)之重在于其“全”,蘊(yùn)含在大數(shù)據(jù)中的價(jià)值使得大數(shù)據(jù)已經(jīng)成為信息產(chǎn)業(yè)中最具潛力的藍(lán)海,人們賦予數(shù)據(jù)更多的意義,使數(shù)據(jù)成為信息資源的載體,具有了資本特性;大數(shù)據(jù)的價(jià)值在于運(yùn)用,大數(shù)據(jù)在各個(gè)行業(yè)的廣泛應(yīng)用,促進(jìn)社會(huì)價(jià)值的快速提升才是其最終目的。這也使得學(xué)習(xí)及掌握大數(shù)據(jù)處理工具和獲得解決方案顯得十分迫切。大數(shù)據(jù)的出現(xiàn)將會(huì)對(duì)社會(huì)各個(gè)領(lǐng)域產(chǎn)生深刻影響,“用數(shù)據(jù)來說話、用數(shù)據(jù)來管理、用數(shù)據(jù)來決策、用數(shù)據(jù)來創(chuàng)新”是這個(gè)時(shí)代的鮮明特征。大數(shù)據(jù)技術(shù)將對(duì)社會(huì)各層面的現(xiàn)在和未來產(chǎn)生巨大價(jià)值,包括決策、預(yù)測(cè)和洞見等。
大數(shù)據(jù)人才:大數(shù)據(jù)時(shí)代需要一大批具備大數(shù)據(jù)知識(shí)和技能的人才,一方面,要有一部分專業(yè)人才,不斷研究大數(shù)據(jù)科學(xué)和技術(shù);另一方面,其他領(lǐng)域的人才也應(yīng)該能充分了解大數(shù)據(jù)并能和自己的專業(yè)領(lǐng)域結(jié)合,有效地將大數(shù)據(jù)科學(xué)和各行業(yè)的應(yīng)用相結(jié)合,推動(dòng)新技術(shù)和新應(yīng)用的發(fā)展,這兩個(gè)方面的人才都是不可或缺的。因此,以不同的需求,從不同的角度學(xué)習(xí)和了解大數(shù)據(jù)是本書編寫的基本出發(fā)點(diǎn)。
本書的讀者對(duì)象是社會(huì)科學(xué)類的高等院校相關(guān)專業(yè)開設(shè)“大數(shù)據(jù)”有關(guān)課程的本科生、研究生,以及各行各業(yè)的經(jīng)濟(jì)、管理人員。此外,本書對(duì)于信息技術(shù)專業(yè)和理工科類專業(yè)的學(xué)生,以及有一定實(shí)踐經(jīng)驗(yàn)的IT技術(shù)人員,也具有一定的參考價(jià)值。
本書的編寫力求理論聯(lián)系實(shí)際,結(jié)合一系列了解和熟悉大數(shù)據(jù)理念、技術(shù)與應(yīng)用的學(xué)習(xí)和實(shí)踐活動(dòng),把大數(shù)據(jù)的相關(guān)概念、基礎(chǔ)知識(shí)和技術(shù)技巧融入在實(shí)踐中,使學(xué)生保持濃厚的學(xué)習(xí)熱情,加深對(duì)大數(shù)據(jù)技術(shù)和運(yùn)用的興趣、認(rèn)識(shí)、理解和掌握。努力讓非技術(shù)專業(yè)的人看懂?dāng)?shù)據(jù)科學(xué)的知識(shí)和理論及方法。本書在應(yīng)用部分特別關(guān)注醫(yī)療、旅游、金融和制造業(yè)的典型行業(yè)的應(yīng)用。例如,電子病歷的改革、大數(shù)據(jù)在旅游業(yè)中的應(yīng)用、大數(shù)據(jù)在金融業(yè)中的應(yīng)用,以及大數(shù)據(jù)在制造業(yè)中的應(yīng)用,具有較強(qiáng)的行業(yè)實(shí)踐性。為相關(guān)章節(jié)的知識(shí)應(yīng)用提供了現(xiàn)實(shí)場景,以加深讀者對(duì)大數(shù)據(jù)實(shí)際應(yīng)用的認(rèn)識(shí)。另外,本書大量應(yīng)用了直觀的圖表說明,這些都使本書的邏輯更加清晰,便于理解。
本書由天津財(cái)經(jīng)大學(xué)教師和研究生團(tuán)隊(duì)編寫。參加編寫工作的人員具體分工為:楊尊琦、林海負(fù)責(zé)大綱的制定、全書的校改和第1章的撰寫等工作;朱笑笑負(fù)責(zé)第2章和第8章的撰寫;潘婧煒負(fù)責(zé)第3章和第9章的撰寫;王雅萌負(fù)責(zé)第4章和第5章的撰寫;張琳負(fù)責(zé)第6章和第7章的撰寫;劉君玲負(fù)責(zé)第10章和第11章的撰寫。本書在編寫過程中參考了很多優(yōu)秀的教材、專著和網(wǎng)上資料,在此對(duì)所有被引用文獻(xiàn)的作者表示衷心的感謝。
特別要感謝機(jī)械工業(yè)出版社的鼎力支持,以及本書編輯的辛勤工作。由于編者水平和能力有限,書中難免有不當(dāng)之處,希望讀者朋友給予指正,不吝賜教。
前言
第1章大數(shù)據(jù)基礎(chǔ)
1.1大數(shù)據(jù)時(shí)代
1.1.1大數(shù)據(jù)時(shí)代的技術(shù)基礎(chǔ)
1.1.2大數(shù)據(jù)時(shí)代的變革
1.1.3信息技術(shù)(IT)向數(shù)據(jù)技術(shù)
(DT)的轉(zhuǎn)變
1.2什么是大數(shù)據(jù)
1.2.1數(shù)據(jù)的基本知識(shí)
1.2.2大數(shù)據(jù)定義
1.2.3大數(shù)據(jù)的特征
1.3大數(shù)據(jù)結(jié)構(gòu)類型
1.4大數(shù)據(jù)的應(yīng)用
1.4.1大數(shù)據(jù)在個(gè)人生活中的應(yīng)用
1.4.2大數(shù)據(jù)在企業(yè)中的應(yīng)用
1.4.3大數(shù)據(jù)在政府部門中的運(yùn)用
1.5數(shù)據(jù)科學(xué)和大數(shù)據(jù)技術(shù)
1.5.1數(shù)據(jù)科學(xué)
1.5.2大數(shù)據(jù)技術(shù)與工具
1.6習(xí)題與實(shí)踐
參考文獻(xiàn)
第2章大數(shù)據(jù)下的云計(jì)算
2.1云計(jì)算概述
2.1.1云計(jì)算的定義
2.1.2云計(jì)算的特征
2.1.3云計(jì)算的體系架構(gòu)
2.1.4云計(jì)算的類型劃分
2.1.5云計(jì)算的服務(wù)模式
2.2云計(jì)算技術(shù)
2.2.1虛擬化技術(shù)
2.2.2并行計(jì)算技術(shù)
2.2.3海量數(shù)據(jù)管理技術(shù)
2.2.4海量數(shù)據(jù)存儲(chǔ)技術(shù)
2.3云計(jì)算與云存儲(chǔ)
2.3.1云存儲(chǔ)概述
2.3.2云存儲(chǔ)的存儲(chǔ)方式
2.3.3云存儲(chǔ)與云計(jì)算的關(guān)系
2.4云計(jì)算與大數(shù)據(jù)
2.4.1云計(jì)算與大數(shù)據(jù)的關(guān)系
2.4.2云計(jì)算與大數(shù)據(jù)的結(jié)合
2.5案例——基于云計(jì)算的智慧
城市建設(shè)框架
2.5.1智慧城市的內(nèi)涵
2.5.2智慧城市的支撐技術(shù)
2.5.3智慧城市的體系架構(gòu)
2.5.4智慧城市的應(yīng)用
2.6習(xí)題與實(shí)踐
參考文獻(xiàn)
第3章大數(shù)據(jù)處理
3.1數(shù)據(jù)采集
3.1.1數(shù)據(jù)采集方法
3.1.2數(shù)據(jù)質(zhì)量評(píng)估
3.1.3數(shù)據(jù)質(zhì)量的影響因素
3.2數(shù)據(jù)清洗
3.2.1處理殘缺數(shù)據(jù)
3.2.2處理噪聲數(shù)據(jù)
3.2.3處理冗余數(shù)據(jù)
3.3數(shù)據(jù)變換
3.3.1屬性類型變換
3.3.2屬性值變換
3.4數(shù)據(jù)集成
3.4.1模式匹配與數(shù)據(jù)值沖突
3.4.2數(shù)據(jù)冗余
3.5數(shù)據(jù)歸約
3.5.1維歸約
3.5.2數(shù)值歸約
3.6習(xí)題與實(shí)踐
參考文獻(xiàn)
第4章數(shù)據(jù)統(tǒng)計(jì)與分析
4.1統(tǒng)計(jì)分析方法
4.1.1分類與預(yù)測(cè)
4.1.2聚類分析
4.1.3關(guān)聯(lián)分析
4.1.4異常分析
4.2數(shù)據(jù)挖掘的基本概念
4.2.1數(shù)據(jù)挖掘的定義
4.2.2數(shù)據(jù)挖掘的分類
4.2.3數(shù)據(jù)挖掘的過程
4.3數(shù)據(jù)挖掘經(jīng)典算法
4.3.1K-Means算法
4.3.2KNN算法
4.3.3ID3算法
4.4案例——用大數(shù)據(jù)來挖掘
《小時(shí)代》
4.5習(xí)題與實(shí)踐
參考文獻(xiàn)
第5章大數(shù)據(jù)安全
5.1安全與隱私問題凸顯
5.1.1網(wǎng)絡(luò)安全漏洞
5.1.2個(gè)人隱私泄露
5.2大數(shù)據(jù)時(shí)代的安全挑戰(zhàn)
5.2.1信息安全的發(fā)展歷程
5.2.2云計(jì)算技術(shù)帶來的安全挑戰(zhàn)
5.3如何解決大數(shù)據(jù)安全問題
5.3.1大數(shù)據(jù)安全防護(hù)對(duì)策
5.3.2大數(shù)據(jù)安全防護(hù)關(guān)鍵技術(shù)
5.4如何解決隱私保護(hù)問題
5.4.1隱私保護(hù)的政策法規(guī)
5.4.2隱私保護(hù)技術(shù)
5.5案例——百度大數(shù)據(jù)安全
實(shí)踐
5.6習(xí)題與實(shí)踐
參考文獻(xiàn)
第6章數(shù)據(jù)可視化
6.1數(shù)據(jù)可視化類型
6.1.1科學(xué)可視化
6.1.2信息可視化
6.1.3可視分析學(xué)
6.2數(shù)據(jù)可視化流程及步驟
6.2.1數(shù)據(jù)可視化流程
6.2.2數(shù)據(jù)處理和變換
6.2.3視覺編碼
6.2.4統(tǒng)計(jì)圖表
6.2.5視覺隱喻
6.3可視化評(píng)估
6.3.1評(píng)估分類
6.3.2評(píng)估方法
6.4習(xí)題與實(shí)踐
參考文獻(xiàn)
第7章大數(shù)據(jù)與社交媒體的融合
7.1什么是社交媒體
7.1.1社交媒體的定義
7.1.2社交媒體的發(fā)展
7.2社交媒體大數(shù)據(jù)的分析與
挖掘
7.2.1基于用戶的大數(shù)據(jù)分析
7.2.2基于關(guān)系的大數(shù)據(jù)分析
7.2.3基于內(nèi)容的大數(shù)據(jù)分析
7.3社交媒體大數(shù)據(jù)的未來挑戰(zhàn)
7.4社交媒體大數(shù)據(jù)信息安全
問題
7.4.1社交媒體導(dǎo)致的信息風(fēng)險(xiǎn)類型和
形成原因
7.4.2社交媒體的信息風(fēng)險(xiǎn)治理
方案
7.5習(xí)題與實(shí)踐
參考文獻(xiàn)
第8章大數(shù)據(jù)促進(jìn)電子病歷的
改革
8.1醫(yī)療病歷的問題與挑戰(zhàn)
8.1.1病歷共享和追溯問題
8.1.2病歷責(zé)任意識(shí)薄弱
8.1.3病歷遺失現(xiàn)象
8.1.4電子病歷的出現(xiàn)
8.2大數(shù)據(jù)與電子病歷
8.2.1電子病歷的大數(shù)據(jù)定義
8.2.2基于大數(shù)據(jù)的標(biāo)準(zhǔn)化電子
病歷
8.2.3“大數(shù)據(jù)+云計(jì)算”的電子病歷
存儲(chǔ)
8.2.4基于大數(shù)據(jù)的電子病歷共享和
追溯
8.3電子病歷與數(shù)據(jù)挖掘
8.3.1電子病歷數(shù)據(jù)的深度利用
8.3.2電子病歷的數(shù)據(jù)預(yù)處理
8.3.3多維電子病歷數(shù)據(jù)分析
8.3.4電子病歷數(shù)據(jù)挖掘
8.4我國居民終身電子病歷
8.4.1背景分析
8.4.2實(shí)施方案
8.4.3技術(shù)支持
8.5習(xí)題與實(shí)踐
參考文獻(xiàn)
第9章大數(shù)據(jù)在旅游業(yè)中的應(yīng)用
9.1旅游數(shù)據(jù)的問題與發(fā)展
9.1.1旅游數(shù)據(jù)收集問題
9.1.2旅游數(shù)據(jù)分析問題
9.1.3旅游數(shù)據(jù)應(yīng)用問題
9.1.4旅游數(shù)據(jù)的發(fā)展方向
9.2大數(shù)據(jù)與旅游業(yè)
9.2.1智慧旅游+大數(shù)據(jù)
9.2.2定制旅游+大數(shù)據(jù)
9.2.3精準(zhǔn)營銷+大數(shù)據(jù)
9.3旅游與數(shù)據(jù)挖掘
9.3.1鎖定客戶人群、關(guān)注客戶
需求
9.3.2社交媒體挖掘、增加客戶
忠誠
9.4旅游平臺(tái)
9.4.1旅游平臺(tái)的模式
9.4.2旅游平臺(tái)的技術(shù)
9.5習(xí)題與實(shí)踐
參考文獻(xiàn)
第10章大數(shù)據(jù)在金融業(yè)中的應(yīng)用
——金融大數(shù)據(jù)
10.1金融大數(shù)據(jù)概述
10.1.1什么是金融大數(shù)據(jù)
10.1.2金融大數(shù)據(jù)對(duì)金融業(yè)的
影響
10.1.3金融大數(shù)據(jù)應(yīng)用的實(shí)施
戰(zhàn)略
10.2金融大數(shù)據(jù)的應(yīng)用
10.2.1金融大數(shù)據(jù)的業(yè)務(wù)應(yīng)用
10.2.2金融大數(shù)據(jù)的應(yīng)用舉例
10.3大數(shù)據(jù)與金融創(chuàng)新
10.3.1金融創(chuàng)新的四個(gè)維度
10.3.2金融創(chuàng)新的應(yīng)用舉例
10.4習(xí)題與實(shí)踐
參考文獻(xiàn)
第11章大數(shù)據(jù)在制造業(yè)中的應(yīng)用
——工業(yè)大數(shù)據(jù)
11.1大數(shù)據(jù)下的工業(yè)革命
11.1.1工業(yè)4.0
11.1.2“新工業(yè)革命”和“中國制
造2025”
11.2工業(yè)大數(shù)據(jù)
11.3大數(shù)據(jù)與智能工廠
11.3.1智能工廠的概念、