大數(shù)據(jù)治理是傳統(tǒng)信息治理的延續(xù)和擴(kuò)展,其涉及的內(nèi)容非常廣泛。大數(shù)據(jù)治理確保以正確的方式對數(shù)據(jù)和信息進(jìn)行管理,為大數(shù)據(jù)的有效應(yīng)用保駕護(hù)航,使得數(shù)據(jù)成為一個有機(jī)整體而不是各自為政。大數(shù)據(jù)治理所需的技術(shù)支撐需要涵蓋大數(shù)據(jù)管理、存儲、質(zhì)量、共享與開放、安全與隱私保護(hù)等多個方面。本書首先對大數(shù)據(jù)治理的背景和基本概念進(jìn)行簡要介紹,嘗試為讀者提供對大數(shù)據(jù)治理的基礎(chǔ)認(rèn)識;然后從政策、管理和技術(shù)等多個方面對大數(shù)據(jù)治理相關(guān)的概念和方法加以介紹,對數(shù)據(jù)架構(gòu)管理、元數(shù)據(jù)管理、主數(shù)據(jù)管理、大數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)的標(biāo)準(zhǔn)化、數(shù)據(jù)資產(chǎn)化、數(shù)據(jù)安全與隱私保護(hù)等進(jìn)行深入探討,以期為讀者提供一個比較全面的大數(shù)據(jù)治理的場景。本書適合作為高等院!皵(shù)據(jù)科學(xué)與大數(shù)據(jù)”專業(yè)的本科生、研究生的教材,也可供大數(shù)據(jù)領(lǐng)域的從業(yè)人員閱讀,還可為對大數(shù)據(jù)治理感興趣的廣大讀者提供參考。
王宏志 哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院教授、博士生導(dǎo)師,英才學(xué)院副院長,美國加州大學(xué)歐文分校博士后,微軟亞洲研究院鑄星計劃訪問學(xué)者,青年龍江學(xué)者。其研究方向為大數(shù)據(jù)管理與分析、數(shù)據(jù)庫系統(tǒng)、工業(yè)大數(shù)據(jù)等。在VLDB, SIGMOD等國內(nèi)外重要會議和期刊發(fā)表學(xué)術(shù)論文200余篇,出版學(xué)術(shù)專著三本,其論文被SCI收錄80余次,他引1800余次,授權(quán)發(fā)明專利22項。獲得微軟學(xué)者、中國優(yōu)秀數(shù)據(jù)庫工程師、IBM博士英才等稱號,獲得黑龍江省自然科學(xué)一等獎和教育部高等學(xué)?萍歼M(jìn)步一等獎各一項,獲黑龍江省青年科技獎、寶鋼優(yōu)秀教師獎、CSC-IBM獎教金。先后主持國家自然科學(xué)基金重點(diǎn)項目、國家支撐計劃課題、國家博士后特別資助等10余個項目。其主講的MOOC課程“大數(shù)據(jù)算法”獲批第一批全國精品在線開放課程。中國計算機(jī)學(xué)會杰出會員,中國計算機(jī)學(xué)會哈爾濱分部主席、ACM SIGMOD中國秘書長、教育部高等學(xué)校計算機(jī)類專業(yè)教學(xué)指導(dǎo)委員會計算機(jī)系統(tǒng)專家委員會委員、中國數(shù)據(jù)庫專業(yè)委員會常務(wù)委員、黑龍江省數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)委員會副主任委員、中國大數(shù)據(jù)專家委員會委員、哈爾濱工業(yè)大學(xué)計算學(xué)部校友會秘書長、ACM數(shù)據(jù)科學(xué)學(xué)科標(biāo)準(zhǔn)編寫組專家、黑龍江省“頭雁團(tuán)隊”成員。
第1 章 大數(shù)據(jù)治理的背景和基本概念………………………………………………… 1
1. 1 大數(shù)據(jù)治理的定義………………………………………………………… 2
1. 2 大數(shù)據(jù)治理的應(yīng)用………………………………………………………… 3
1. 2. 1 大數(shù)據(jù)治理的任務(wù)…………………………………………………… 3
1. 2. 2 數(shù)據(jù)治理與數(shù)據(jù)管理的區(qū)別…………………………………………… 4
1. 2. 3 大數(shù)據(jù)治理的典型案例……………………………………………… 4
1. 3 大數(shù)據(jù)治理的挑戰(zhàn)………………………………………………………… 7
1. 3. 1 大數(shù)據(jù)的發(fā)展和現(xiàn)狀………………………………………………… 7
1. 3. 2 當(dāng)下面臨的挑戰(zhàn)……………………………………………………… 8
1. 4 本書的主要內(nèi)容…………………………………………………………… 9
第2 章 數(shù)據(jù)架構(gòu)管理……………………………………………………………… 11
2. 1 數(shù)據(jù)架構(gòu)概述…………………………………………………………… 12
2. 2 IBM 數(shù)據(jù)架構(gòu)參考模型………………………………………………… 13
2. 2. 1 邏輯層……………………………………………………………… 14
2. 2. 2 垂直層……………………………………………………………… 16
2. 3 企業(yè)數(shù)據(jù)架構(gòu)參考模型………………………………………………… 17
2. 4 CESI 大數(shù)據(jù)參考架構(gòu)模型……………………………………………… 18
2. 5 大數(shù)據(jù)技術(shù)參考架構(gòu)…………………………………………………… 19
2. 6 數(shù)據(jù)湖(Data Lake) …………………………………………………… 20
2. 7 面向大數(shù)據(jù)的數(shù)據(jù)架構(gòu)實(shí)現(xiàn)…………………………………………… 21
2. 7. 1 Hadoop ……………………………………………………………… 21
2. 7. 2 Storm ……………………………………………………………… 23
2. 7. 3 Spark ……………………………………………………………… 24
2. 7. 4 三種架構(gòu)的比較分析………………………………………………… 25
2. 8 數(shù)據(jù)架構(gòu)設(shè)計原則……………………………………………………… 25
第3 章 元數(shù)據(jù)管理………………………………………………………………… 27
3. 1 元數(shù)據(jù)概述……………………………………………………………… 28
3. 1. 1 定義………………………………………………………………… 28
3. 1. 2 組織方式…………………………………………………………… 29
3. 1. 3 作用和意義………………………………………………………… 31
3. 2 業(yè)務(wù)元數(shù)據(jù)……………………………………………………………… 32
3. 2. 1 意義………………………………………………………………… 32
3. 2. 2 概念………………………………………………………………… 33
3. 2. 3 實(shí)踐要點(diǎn)…………………………………………………………… 34
3. 3 技術(shù)元數(shù)據(jù)……………………………………………………………… 34
3. 3. 1 意義………………………………………………………………… 34
3. 3. 2 概念………………………………………………………………… 35
3. 3. 3 實(shí)踐要點(diǎn)…………………………………………………………… 36
3. 4 元數(shù)據(jù)管理……………………………………………………………… 36
3. 4. 1 元數(shù)據(jù)管理方案…………………………………………………… 37
3. 4. 2 元數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范………………………………………………… 39
3. 4. 3 元數(shù)據(jù)管理的成熟度………………………………………………… 40
第4 章 主數(shù)據(jù)管理………………………………………………………………… 42
4. 1 概述……………………………………………………………………… 43
4. 1. 1 主數(shù)據(jù)的概念……………………………………………………… 43
4. 1. 2 主數(shù)據(jù)的類型……………………………………………………… 44
4. 1. 3 主數(shù)據(jù)管理的基本思路……………………………………………… 44
4. 2 主數(shù)據(jù)管理系統(tǒng)………………………………………………………… 45
4. 2. 1 主數(shù)據(jù)管理的架構(gòu)設(shè)計……………………………………………… 46
4. 2. 2 主數(shù)據(jù)管理的核心功能……………………………………………… 50
4. 2. 3 主數(shù)據(jù)管理的實(shí)現(xiàn)風(fēng)格……………………………………………… 50
4. 3 主數(shù)據(jù)管理的成熟度…………………………………………………… 52
第5 章 大數(shù)據(jù)集成………………………………………………………………… 56
5. 1 數(shù)據(jù)集成的基本概念…………………………………………………… 57
5. 1. 1 數(shù)據(jù)集成的定義…………………………………………………… 57
5. 1. 2 數(shù)據(jù)集成的分類…………………………………………………… 58
5. 1. 3 數(shù)據(jù)集成的難點(diǎn)…………………………………………………… 59
5. 2 傳統(tǒng)數(shù)據(jù)集成…………………………………………………………… 60
5. 2. 1 聯(lián)邦數(shù)據(jù)庫系統(tǒng)…………………………………………………… 61
5. 2. 2 中間件集成………………………………………………………… 62
5. 2. 3 數(shù)據(jù)倉庫…………………………………………………………… 63
5. 3 傳統(tǒng)數(shù)據(jù)集成的關(guān)鍵技術(shù)……………………………………………… 65
5. 3. 1 模式匹配…………………………………………………………… 65
5. 3. 2 數(shù)據(jù)映射…………………………………………………………… 66
5. 4 跨界數(shù)據(jù)集成…………………………………………………………… 67
5. 4. 1 基于階段的集成…………………………………………………… 67
5. 4. 2 基于特征的集成…………………………………………………… 68
5. 4. 3 基于語義的集成…………………………………………………… 68
第6 章 數(shù)據(jù)質(zhì)量管理……………………………………………………………… 71
6. 1 概述……………………………………………………………………… 72
6. 1. 1 數(shù)據(jù)質(zhì)量定義……………………………………………………… 72
6. 1. 2 數(shù)據(jù)質(zhì)量問題……………………………………………………… 74
6. 2 缺失值填充……………………………………………………………… 76
6. 2. 1 什么是缺失值……………………………………………………… 76
6. 2. 2 缺失值處理方法…………………………………………………… 77
6. 2. 3 缺失值處理例析…………………………………………………… 79
6. 3 實(shí)體識別與真值發(fā)現(xiàn)…………………………………………………… 81
6. 3. 1 什么是實(shí)體識別…………………………………………………… 81
6. 3. 2 基于規(guī)則的實(shí)體識別方法…………………………………………… 81
6. 3. 3 什么是真值發(fā)現(xiàn)…………………………………………………… 84
6. 3. 4 真值發(fā)現(xiàn)方法……………………………………………………… 85
6. 5 錯誤檢測與修復(fù)………………………………………………………… 85
6. 5. 1 格式內(nèi)容清洗……………………………………………………… 85
6. 5. 2 邏輯錯誤清洗……………………………………………………… 86
6. 5. 3 非需求數(shù)據(jù)清洗…………………………………………………… 87
6. 6 面向大數(shù)據(jù)的數(shù)據(jù)清洗………………………………………………… 87
6. 6. 1 大數(shù)據(jù)清洗的探索………………………………………………… 87
6. 6. 2 時間序列錯誤清洗………………………………………………… 88
6. 6. 3 基于眾包的數(shù)據(jù)清洗………………………………………………… 90
第7 章 數(shù)據(jù)標(biāo)準(zhǔn)化………………………………………………………………… 92
7. 1 數(shù)據(jù)標(biāo)準(zhǔn)化概述………………………………………………………… 93
7. 1. 1 數(shù)據(jù)標(biāo)準(zhǔn)…………………………………………………………… 93
7. 1. 2 數(shù)據(jù)標(biāo)準(zhǔn)管理……………………………………………………… 94
7. 1. 3 企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)化…………………………………………………… 95
7. 2 數(shù)據(jù)標(biāo)準(zhǔn)化例析………………………………………………………… 95
7. 2. 1 工業(yè)大數(shù)據(jù)………………………………………………………… 95
7. 2. 2 信息技術(shù)元數(shù)據(jù)注冊系統(tǒng)…………………………………………… 97
第8 章 數(shù)據(jù)資產(chǎn)化………………………………………………………………… 98
8. 1 數(shù)據(jù)資產(chǎn)管理概述……………………………………………………… 99
8. 1. 1 數(shù)據(jù)資產(chǎn)…………………………………………………………… 99
8. 1. 2 數(shù)據(jù)資產(chǎn)管理……………………………………………………… 100
8. 2 數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)與評估…………………………………………………… 101
8. 2. 1 數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)……………………………………………………… 101
8. 2. 2 數(shù)據(jù)資產(chǎn)評估……………………………………………………… 102
8. 3 數(shù)據(jù)交易與數(shù)據(jù)定價…………………………………………………… 103
8. 3. 1 數(shù)據(jù)交易………………………………………………………… 103
8. 3. 2 數(shù)據(jù)定價………………………………………………………… 106
8. 4 拓展: 大數(shù)據(jù)拍賣模型………………………………………………… 107
8. 4. 1 問題背景………………………………………………………… 107
8. 4. 2 基本拍賣模型……………………………………………………… 107
8. 4. 3 擴(kuò)展的Vickrey 拍賣模型…………………………………………… 108
8. 4. 4 擴(kuò)展的序貫拍賣模型……………………………………………… 111
第9 章 數(shù)據(jù)安全與隱私保護(hù)………………………………………………… 114
9. 1 概述……………………………………………………………………… 115
9. 1. 1 基本概念………………………………………………………… 115
9. 1. 2 數(shù)據(jù)安全與數(shù)據(jù)管理生命周期……………………………………… 116
9. 2 數(shù)據(jù)安全存儲、傳輸與訪問…………………………………………… 117
9. 2. 1 加密存儲和傳輸…………………………………………………… 117
9. 2. 2 訪問控制………………………………………………………… 120
9. 3 數(shù)據(jù)安全檢索與處理…………………………………………………… 121
9. 3. 1 安全檢索………………………………………………………… 121
9. 3. 2 安全處理………………………………………………………… 124
9. 4 隱私保護(hù)………………………………………………………………… 125
9. 4. 1 基本概念………………………………………………………… 125
9. 4. 2 數(shù)據(jù)脫敏………………………………………………………… 127
9. 4. 3 k-匿名…………………………………………………………… 128
9. 2. 4 差分隱私………………………………………………………… 130