大數(shù)據(jù)管理系統(tǒng)原理與技術(shù)
定 價(jià):69 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:王宏志[等]編著
- 出版時(shí)間:2020/1/1
- ISBN:9787111636779
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:334頁;
- 紙張:膠版紙
- 版次:1
- 開本:16K
《大數(shù)據(jù)管理系統(tǒng)原理與技術(shù)》介紹了多種數(shù)據(jù)庫管理系統(tǒng)的基本概念以及代表性數(shù)據(jù)庫管理系統(tǒng)的使用和優(yōu)化方法,覆蓋了傳統(tǒng)的關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫,以及列族、鍵值、文檔、圖等NoSQL數(shù)據(jù)庫系統(tǒng)。
通過閱讀《大數(shù)據(jù)管理系統(tǒng)原理與技術(shù)》,讀者可以較全面地了解支撐大數(shù)據(jù)應(yīng)用所需的數(shù)據(jù)庫管理系統(tǒng)的概念、特征和相關(guān)技術(shù),并且可以學(xué)習(xí)代表性關(guān)系數(shù)據(jù)庫系統(tǒng)的使用方法,將理論和實(shí)際相結(jié)合。
《大數(shù)據(jù)管理系統(tǒng)原理與技術(shù)》可作為大數(shù)據(jù)相關(guān)專業(yè)本科生和研究生教材,也可供從事大數(shù)據(jù)相關(guān)工作的工程技術(shù)人員參考使用。
要進(jìn)行有效的大數(shù)據(jù)處理和計(jì)算,選擇適當(dāng)?shù)臄?shù)據(jù)庫管理系統(tǒng)并對(duì)其進(jìn)行配置、編程和調(diào)優(yōu)是非常關(guān)鍵的環(huán)節(jié)。在大數(shù)據(jù)場(chǎng)景下,單一的數(shù)據(jù)庫管理系統(tǒng)無法滿足所有類型數(shù)據(jù)管理的需要,因此大數(shù)據(jù)相關(guān)專業(yè)的學(xué)生和從業(yè)者需要了解不同類型的數(shù)據(jù)庫管理系統(tǒng),以解決不同場(chǎng)景下的實(shí)際問題。
《大數(shù)據(jù)管理系統(tǒng)原理與技術(shù)》基于作者多年的教學(xué)和工程經(jīng)驗(yàn)編寫而成,旨在幫助讀者掌握面向大數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)的原理和應(yīng)用方法。
大數(shù)據(jù)計(jì)算的重要支撐是有效管理數(shù)據(jù),研發(fā)以數(shù)據(jù)為核心的應(yīng)用系統(tǒng)的重要任務(wù)之一就是選擇數(shù)據(jù)庫管理系統(tǒng),對(duì)其進(jìn)行配置、編程和調(diào)優(yōu)。由于大數(shù)據(jù)的多樣性,單一的數(shù)據(jù)庫管理系統(tǒng)難以滿足所有類型數(shù)據(jù)管理的需要,因而除傳統(tǒng)的成熟關(guān)系數(shù)據(jù)庫產(chǎn)品之外,還出現(xiàn)了面向不同數(shù)據(jù)和應(yīng)用特點(diǎn)的數(shù)據(jù)庫管理系統(tǒng),這使得數(shù)據(jù)庫管理系統(tǒng)的選擇和使用更加具有挑戰(zhàn)性。因而,掌握多種數(shù)據(jù)庫管理系統(tǒng)對(duì)于大數(shù)據(jù)領(lǐng)域從業(yè)者來說非常重要。針對(duì)這一需求,本書試圖介紹面向大數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)知識(shí)。
本書系統(tǒng)介紹了面向大數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)的基本原理和應(yīng)用,以及關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、多種NoSQL數(shù)據(jù)庫管理系統(tǒng)等。考慮到讀者的多樣性,本書針對(duì)不同種類的數(shù)據(jù)庫介紹了基本原理、使用方法和案例。
本書兼顧深度和廣度,選取典型數(shù)據(jù)庫系統(tǒng)進(jìn)行了介紹。對(duì)于關(guān)系數(shù)據(jù)庫,介紹了其相關(guān)的基本概念以及典型關(guān)系數(shù)據(jù)庫系統(tǒng)MySQL。對(duì)于數(shù)據(jù)倉庫,介紹了其基本概念和基于Hadoop的數(shù)據(jù)倉庫系統(tǒng)Hive。本書還重點(diǎn)介紹了NoSQL數(shù)據(jù)庫系統(tǒng),并選取比較典型的鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫分別介紹了其原理與應(yīng)用。
本書適用于本科生和研究生的數(shù)據(jù)庫管理系統(tǒng),大數(shù)據(jù)管理等相關(guān)課程,也可以作為大數(shù)據(jù)系統(tǒng)開發(fā)、分布式系統(tǒng)、數(shù)據(jù)庫系統(tǒng)等課程的補(bǔ)充教材或課外讀物。本書也可作為大數(shù)據(jù)技術(shù)方面的職業(yè)培訓(xùn)教材,同時(shí),還可供大數(shù)據(jù)領(lǐng)域的從業(yè)人員參考使用。
針對(duì)不同層次的教學(xué)要求,教師可以從本書中選擇不同的內(nèi)容。如果教學(xué)偏重講授原理,可以著重講授本書的概念和原理部分,而將后面的具體系統(tǒng)作為實(shí)例。如果教學(xué)偏重講授技術(shù)和應(yīng)用,可以著重講授本書中系統(tǒng)的使用和開發(fā),而對(duì)各類數(shù)據(jù)庫管理系統(tǒng)只介紹基本概念,原理部分的深度視學(xué)時(shí)數(shù)而定。需要注意的是,數(shù)據(jù)庫系統(tǒng)原理及使用是相輔相成的:只有深入了解了原理,才能對(duì)數(shù)據(jù)庫管理系統(tǒng)進(jìn)行高效應(yīng)用,對(duì)于大數(shù)據(jù)管理系統(tǒng)來說尤其如此;反之,只有真正應(yīng)用了數(shù)據(jù)庫管理系統(tǒng),才能對(duì)相關(guān)的原理有深入的認(rèn)知。
本書可以獨(dú)立學(xué)習(xí),但是建議讀者有一些離散數(shù)學(xué)、計(jì)算機(jī)系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng)的先修知識(shí)。盡管本書對(duì)數(shù)據(jù)庫知識(shí)進(jìn)行了簡(jiǎn)單介紹,但是其深度和廣度難以與專門的數(shù)據(jù)庫管理系統(tǒng)教材相比,建議讀者在學(xué)習(xí)第2章和第3章時(shí)與數(shù)據(jù)庫管理系統(tǒng)教材相互參考。具有一些分布式系統(tǒng)的知識(shí)對(duì)本書第4~8章的學(xué)習(xí)會(huì)有所幫助,建議讀者在學(xué)習(xí)這幾章時(shí)與分布式系統(tǒng)教材相互參考。
隨著數(shù)據(jù)量和數(shù)據(jù)形態(tài)的不斷變化,面向大數(shù)據(jù)的數(shù)據(jù)管理系統(tǒng)一直處于不斷變化之中,盡管本書盡可能兼顧深度和廣度,但是,限于筆者的水平,在內(nèi)容安排、表述等方面的不當(dāng)之處在所難免,敬請(qǐng)讀者在閱讀過程中不吝提出寶貴建議,以期改進(jìn)本書。讀者的任何意見和建議請(qǐng)發(fā)至郵箱,與本書相關(guān)的信息也會(huì)在微信公眾號(hào)“大數(shù)據(jù)與數(shù)據(jù)科學(xué)家”發(fā)布。
感謝哈爾濱工業(yè)大學(xué)的李建中教授、高宏教授以及海量數(shù)據(jù)計(jì)算研究中心諸位同事的指導(dǎo),以及在專業(yè)上對(duì)我的幫助。
在本書撰寫過程中,哈爾濱工業(yè)大學(xué)的張夢(mèng)、陳翔等同學(xué)在資料翻譯、搜集和整理以及文本校對(duì)、作圖等多個(gè)方面提供了幫助和支持,在此表示感謝。
感謝Ne04j中國總代理松鼠山科技有限公司對(duì)圖數(shù)據(jù)庫部分的技術(shù)支持,其專業(yè)的知識(shí)使得這一部分的質(zhì)量得到了提升。
感謝北京華育興業(yè)科技有限公司的企業(yè)專家對(duì)本書編寫提出了很多建議,并通過“教育部一華育興業(yè)產(chǎn)學(xué)合作協(xié)同育人”項(xiàng)目在課程和教學(xué)資源建設(shè)方面提供了大力支持。
非常感謝我的愛人黎玲利副教授一直以來對(duì)我的支持,以及在大數(shù)據(jù)管理領(lǐng)域和我的探討。在本書寫作期間,感謝我的母親和岳母幫忙料理家務(wù),照顧我的寶寶“壯壯”,使我有時(shí)間從事本書的寫作。
最后,關(guān)于大數(shù)據(jù)管理方面的研究和本書的寫作還得到了國家自然科學(xué)基金項(xiàng)目(編號(hào):U1509216,U1866602)和微軟亞洲研究院的資助,在此一并表示感謝。
王宏志,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授、博士生導(dǎo)師,英才學(xué)院副院長。研究方向?yàn)榇髷?shù)據(jù)、數(shù)據(jù)科學(xué)、數(shù)據(jù)管理與分析。在VLDB、SIGMOD等國內(nèi)外重要會(huì)議和期刊上發(fā)表學(xué)術(shù)論文200余篇,出版學(xué)術(shù)專著兩本,其論文被SCI收錄50余次,他引千余次。獲黑龍江省自然科學(xué)一等獎(jiǎng)和教育部高等學(xué)校科技進(jìn)步一等獎(jiǎng)各一項(xiàng),獲黑龍江省青年科技獎(jiǎng)、寶鋼優(yōu)秀教師獎(jiǎng)等。先后主持10余個(gè)國家自然科學(xué)基金重點(diǎn)項(xiàng)目、國家支撐計(jì)劃課題、國家博士后特別資助項(xiàng)目等。主講的MOOC課程“大數(shù)據(jù)算法”入選第一批全國精品在線開放課程。主要社會(huì)兼職有ACMSIGMOD中國秘書長、ACM數(shù)據(jù)科學(xué)學(xué)科標(biāo)準(zhǔn)編寫組專家、中國計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫專業(yè)委員會(huì)常務(wù)委員、黑龍江省數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)委員會(huì)副主任委員、中國計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)委員等。
何震瀛,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)學(xué)院副教授,中國計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫專業(yè)委員會(huì)委員、大數(shù)據(jù)專業(yè)委員會(huì)通信委員。主要研究興趣是數(shù)據(jù)管理和數(shù)據(jù)分析等。主持和參加20余項(xiàng)預(yù)研、核高基、863、國家自然科學(xué)基金項(xiàng)目。多年來,在數(shù)據(jù)管理、數(shù)據(jù)分析等方面進(jìn)行了大量研究工作,發(fā)表論文70余篇。在海量數(shù)據(jù)管理和分析方面,作為獨(dú)立開發(fā)者完成并行海量信息查詢和分析系統(tǒng)的開發(fā),實(shí)現(xiàn)了海量信息的秒級(jí)分析;該軟件連同硬件平臺(tái)一起,獲得國家科技進(jìn)步二等獎(jiǎng)。參與研發(fā)的數(shù)據(jù)庫系統(tǒng)已應(yīng)用在國家海洋局某重大專項(xiàng)中(作為數(shù)據(jù)的保險(xiǎn)箱)。
王鵬,畢業(yè)于哈爾濱工業(yè)大學(xué)軟件工程專業(yè),研究生學(xué)歷。曾就職于中國普天信息技術(shù)研究院,并擔(dān)任架構(gòu)師、技術(shù)總監(jiān)等職使。曾代表企業(yè)主導(dǎo)網(wǎng)絡(luò)存儲(chǔ)國家行業(yè)標(biāo)準(zhǔn)制定,擁有相關(guān)專利3項(xiàng)。2013年開始從事大數(shù)據(jù)領(lǐng)域的技術(shù)研發(fā)工作,F(xiàn)就職于北京華育興業(yè)科技有限公司,任首席技術(shù)官,主要從事金融、電信、電力及教育等行業(yè)海量數(shù)據(jù)分析挖掘工作。主要社會(huì)兼職包括中國大數(shù)據(jù)與智能計(jì)算產(chǎn)業(yè)聯(lián)盟副秘書長、甲骨文大數(shù)據(jù)專家、黑龍江省人工智能學(xué)會(huì)理事、四川省計(jì)算機(jī)協(xié)會(huì)理事等,致力于幫助全國高校進(jìn)行大數(shù)據(jù)及人工智能專業(yè)的建設(shè)與咨詢工作。
李春靜,工學(xué)碩士,現(xiàn)任北京華育興業(yè)科技有限公司大數(shù)據(jù)講師,并承擔(dān)高校大數(shù)據(jù)技術(shù)與應(yīng)用資源建設(shè)工作。主要從事Hadoop、HBase、Hive、Spark、大數(shù)據(jù)庫、機(jī)器學(xué)習(xí)等課程研發(fā)工作。研究興趣為大數(shù)據(jù)應(yīng)用、機(jī)器學(xué)習(xí)和智能自動(dòng)化。曾以首作者在國內(nèi)核心期刊上發(fā)表論文2篇,參與大型煤礦信息化項(xiàng)目1個(gè)、國家醫(yī)療大數(shù)據(jù)項(xiàng)目2個(gè)。參與編寫大數(shù)據(jù)教材1本。
本書編委會(huì)
前言
第1章 緒論
1.1 大數(shù)據(jù)的基本概念
1.2 數(shù)據(jù)庫管理系統(tǒng)
1.2.1 數(shù)據(jù)庫管理系統(tǒng)的基本概念
1.2.2 數(shù)據(jù)庫管理系統(tǒng)的發(fā)展歷史
1.2.3 數(shù)據(jù)庫管理系統(tǒng)的要素
1.3 大數(shù)據(jù)對(duì)數(shù)據(jù)庫管理系統(tǒng)的需求和挑戰(zhàn)
1.4 本書結(jié)構(gòu)
第2章 關(guān)系型數(shù)據(jù)庫管理系統(tǒng)
2.1 關(guān)系數(shù)據(jù)庫概述
2.1.1 關(guān)系模型
2.1.2 關(guān)系數(shù)據(jù)的存儲(chǔ)
2.1.3 關(guān)系數(shù)據(jù)庫的索引
2.1.4 關(guān)系數(shù)據(jù)庫中的查詢處理算法
2.1.5 并發(fā)控制
2.1.6 數(shù)據(jù)庫恢復(fù)
2.2 關(guān)系數(shù)據(jù)庫MySQL概述
2.3 MySQL應(yīng)用
2.3.1 SQL概述
2.3.2 數(shù)據(jù)定義語句
2.3.3 數(shù)據(jù)處理語句
2.3.4 事務(wù)和鎖定聲明
2.3.5 其他
2.4 存儲(chǔ)過程
2.4.1 概述
2.4.2 建立存儲(chǔ)過程
2.4.3 調(diào)用存儲(chǔ)過程
2.4.4 查詢存儲(chǔ)過程
2.4.5 刪除存儲(chǔ)過程
2.5 視圖
2.6 分區(qū)
2.7 復(fù)制
2.8 MySQL的Java客戶端JDBC
2.8.1 JDBC概述
2.8.2 JDBCAPI
2.8.3 Java通過JDBCAPI操作MySQL
第3章 數(shù)據(jù)倉庫Hive
3.1 數(shù)據(jù)倉庫概述
3.1.1 數(shù)據(jù)倉庫的概念和特征
3.1.2 數(shù)據(jù)倉庫的體系結(jié)構(gòu)
3.1.3 數(shù)據(jù)倉庫的模型
3.1.4 數(shù)據(jù)倉庫關(guān)鍵技術(shù)
3.1.5 數(shù)據(jù)倉庫與大數(shù)據(jù)
3.2 Hive概述
3.2.1 Hive存儲(chǔ)結(jié)構(gòu)
3.2.2 Hive體系結(jié)構(gòu)
3.2.3 Hive的任務(wù)執(zhí)行流程
3.3 Hive的特征
3.3.1 一致性
3.3.2 可擴(kuò)展性
3.3.3 事務(wù)
3.4 Hive的基本概念
3.4.1 基本數(shù)據(jù)類型
3.4.2 數(shù)據(jù)類型轉(zhuǎn)換
3.4.3 復(fù)雜數(shù)據(jù)類型
3.4.4 文本文件數(shù)據(jù)編碼
3.4.5 數(shù)據(jù)讀取模式
3.4.6 文件格式與壓縮
3.4.7 Hive壓縮
3.4.8 Hive關(guān)鍵字
3.5 Hive的使用
3.5.1 Hive命令
3.5.2 HiveDDL
3.5.3 HiveDML
3.5.4 HiveQL基本查詢
3.5.5 Hive函數(shù)
3.5.6 HiveQL高級(jí)查詢
3.6 面向大數(shù)據(jù)的優(yōu)化策略
3.6.1 分桶
3.6.2 視圖和索引
3.6.3 模式設(shè)計(jì)
3.7 Hive的調(diào)優(yōu)
3.7.1 使用EXPLAIN查看執(zhí)行計(jì)劃
3.7.2 Hive配置管理
3.7.3 限制調(diào)整
3.7.4 JOIN優(yōu)化
3.7.5 本地模式
3.7.6 并行執(zhí)行
3.7.7 嚴(yán)格模式
3.7.8 調(diào)整Mapper和Reducer個(gè)數(shù)
3.7.9 JVM重用
3.7.10 動(dòng)態(tài)分區(qū)調(diào)整
3.7.11 推測(cè)執(zhí)行
3.7.12 單個(gè)MapReduce中的多個(gè)GROUPBY
3.7.13 虛擬列
3.8 Java通過JDBC操作Hive
……
第4章 NoSQL概述
第5章 鍵值數(shù)據(jù)庫
第6章 列族數(shù)據(jù)庫
第7章 非關(guān)系型文檔數(shù)據(jù)庫
第8章 非關(guān)系型圖數(shù)據(jù)庫