国产中文字幕手机视频,欧美.性黄视频男同志gay,亚洲色图欧美色

本書從Hadoop的原理和使用出發(fā)，在重點介紹Hadoop生態(tài)系統(tǒng)的重要組件HDFS、MapReduce、YARN、Hive和Spark的同時，注重大數據分析能力的全面提高。本書共分13章，主要內容包括Hadoop簡介、HDFS文件系統(tǒng)、YARN資源管理、MapReduce計算框架、Hive簡介、Hive數據定義、Hive數據操作、Hive數據查詢、Spark簡介、Spark大數據處理、Spark機器學習流程、Spark有監(jiān)督學習模型和Spark無監(jiān)督學習模型。本書內容豐富、體系新穎、結構合理、文字精練，適合作為普通高等院校信息類專業(yè)Hadoop大數據分析課程的教材，也可以作為數據科學行業(yè)相關從業(yè)人員的自學教材。

隨著信息技術的普及和應用，各行各業(yè)產生了大量的數據，人們持續(xù)不斷地探索處理這些數據的方法，以期大限度地從中挖掘有用信息。面對如潮水般不斷增加的數據，人們不再滿足于數據的查詢和統(tǒng)計分析，而是期望從數據中提取信息或者知識為決策服務。數據挖掘技術突破數據分析技術的種種局限，結合統(tǒng)計學、數據庫、機器學習等技術解決從數據中發(fā)現(xiàn)新的信息并輔助決策這一難題，是正在飛速發(fā)展的前沿學科。近年來，隨著教育部新工科建設的不斷推進，大數據技術受到廣泛關注。數據挖掘作為大數據技術的重要實現(xiàn)手段，能夠挖掘數據的關聯(lián)規(guī)則，實現(xiàn)數據的分類、聚類、異常檢測和時間序列分析等，解決商務管理、生產控制、市場分析、工程設計和科學探索等各行各業(yè)中的數據分析與信息挖掘問題。

Hadoop是一系列分布式存儲和計算軟件，由Doug Cutting創(chuàng)建，能夠支持互聯(lián)網數據量級別的系統(tǒng)。狹義的Hadoop項目僅包含Hadoop Common、HDFS、YARN和MapReduce 4個組件。廣義的Hadoop項目還包含了其他一些衍生性的項目組件，它們或多或少依賴以上4個核心組件，如數據存儲依賴于HDFS、作業(yè)調度和資源管理依賴YARN，同時它們還解決了一些特定領域的問題。常用的包括Spark、HBase、Hive、Sqoop、Oozie、Impala、Hue、Pig等。

截至2019年1月，共有283所高校獲批數據科學與大數據技術專業(yè)，其中985及211高校占比13%。目前國內大數據人才缺口更是達到百萬級。由于其開源性、易用性和強大的數據分析能力，Hadoop已成為世界范圍內應用廣泛的數據科學工具和語言之一。目前，Hadoop大數據分析與挖掘逐漸成為高校信息類專業(yè)的必修課，同時，作為面向各專業(yè)的通識課也廣受歡迎。

本書作為立足于應用型本科數據科學與大數據教學的Hadoop核心課教材，具有如下特色：

（1）內容安排合理且全面，從Hadoop的安裝配置、分布式數據處理、分布式數據倉庫到分布式機器學習，循序漸進，深入淺出。

（2）難度適中，適用于本科中高年級的核心課教材，僅需掌握Python基本編程和Linux基本操作就可以學習本書，對Java編程及數學和算法知識不作為必要基礎。

（3）理論與案例相結合，理論與實踐相結合，包含了泰坦尼克號乘客生存分析、航班準點數據處理、鳶尾花數據建模等實踐案例。

本書主要內容分為以下3部分：

第1部分：Hadoop核心基礎，包括第1～4章。第1章為Hadoop簡介，包括Hadoop的相關背景、基本概念、安裝、配置和運行等。第2章為HDFS文件系統(tǒng)，包括HDFS架構、文件庫和常用操作等。第3章為YARN資源管理，包括YARN架構、調度策略和常用操作等。第4章為MapReduce計算框架，包括各MapReduce原理、流程、詞頻統(tǒng)計和數據連接的實現(xiàn)等。

第2部分：Hive數據倉庫，包括第5～8章。第5章為Hive簡介，包括Hive的相關背景、基本概念、安裝、配置和運行等。第6章為Hive數據定義，包括數據庫操作、數據表操作、數據格式、外部表和分區(qū)表等。第7章為數據操作，包括數據導入、數據插入和數據導出等。第8章為Hive數據查詢，包括基本查詢、數據聚合和數據連接等。

第3部分：Spark數據分析，包括第9～13章。第9章為Spark簡介，包括Spark的相關背景、基本概念、安裝、配置和運行等。第10章為Spark大數據處理，包括大數據的選擇、聚合、引用、篩選、連接和變形等。第11章為Spark機器學習流程，包括數據探索、劃分、填充、特征選擇、建模調優(yōu)和測試評估等。第12章為Spark有監(jiān)督學習模型，包括線性、決策樹、隨機森林、神經網絡和協(xié)同過濾等。第13章為Spark無監(jiān)督學習模型，包括k均值聚類、主成分分析和關聯(lián)分析模型等。

本書例子中的所有數據都可在GitHub上公開下載，地址為https://github.com/ yepdata/hadoop_textbook。

本書由高永彬、錢亮宏和方志軍編著。具體分工如下：高永彬編寫第1～4章；方志軍編寫第5～8章，錢亮宏編寫第9～13章。全書由范磊和許華根主審。同時感謝戴仁月、嚴娟和劉敏對本書的貢獻。

由于編者水平有限，加之時間倉促，書中難免存在疏漏和不足之處，敬請老師和同學批評指正。

編者

2019年5月

你還可能感興趣

我要評論