Cloudera Hadoop大数据平台实战指南

✍ Scribed by 宋立桓、陈建平

Publisher: 清华大学出版社
Year: 2019
Tongue: Chinese
Leaves: 260
Category: Library

No coin nor oath required. For personal study only.

✦ Synopsis

对于入门和学习大数据技术的读者来说，大数据技术的生态圈和知识体系过于庞大，可能还没有开始学习就已经陷入众多的陌生名词和泛泛的概念中。本书的切入点明确而清晰，从Hadoop 生态系统的明星 Cloudera 入手，逐步引出各类大数据基础和核心应用框架。本书分为18章，系统介绍Hadoop 生态系统大数据相关的知识，包括大数据概述、Cloudera Hadoop平台的安装部署、HDFS分布式文件系统、MapReduce计算框架、资源管理调度框架YARN 、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具Flume、分布式消息系统Kafka、ETL工具Kettle、Spark计算框架等内容，最后给出两个综合实操案例，以巩固前面所学的知识点。本书既适合Hadoop初学者、大数据技术工程师和大数据技术爱好者自学使用，亦可作为高等院校和培训机构大数据相关课程的培训用书。

✦ Table of Contents

封面
扉页
内容简介
版权页
推荐序一
推荐序二
推荐序三
前言
目录
第1章　大数据概述
1.1　大数据时代的数据特点
1.2　大数据时代的发展趋势——数据将成为资产
1.3　大数据时代处理数据理念的改变
1.4　大数据时代的关键技术
1.5　大数据时代的典型应用案例
1.6　Hadoop概述和介绍
第2章　Cloudera大数据平台介绍
2.1　Cloudera简介
2.2　Cloudera的Hadoop发行版CDH简介
2.3　Cloudera Manager大数据管理平台介绍
2.4　Cloudera平台参考部署架构
第3章　Cloudera Manager及CDH离线安装部署
3.1　安装前的准备工作
3.2　Cloudera Manager及CDH安装
3.3　添加其他大数据组件
第4章　分布式文件系统HDFS
4.1　HDFS简介
4.2　HDFS体系结构
4.3　HDFS 2.0新特性
4.4　HDFS操作常用shell命令
4.5　Java 编程操作HDFS实践
4.6　HDFS的参数配置和规划
4.7　使用Cloudera Manager启用HDFS HA
第5章　分布式计算框架Map Reduce
5.1　Map Reduce概述
5.2　Map Reduce原理介绍
5.3　Map Reduce编程——单词示例解析
5.4　Map Reduce应用开发
第6章　资源管理调度框架YARN
6.1　YARN产生背景
6.2　YARN框架介绍
6.3　YARN工作原理
6.4　YARN框架和Map Reduce1.0框架对比
6.5　CDH集群的YARN参数调整
第7章　数据仓库Hive
7.1　Hive简介
7.2　Hive体系架构和应用场景
7.3　Hive的数据模型
7.4　Hive实战操作
7.5　基于Hive的应用案例
第8章　数据迁移工具Sqoop
8.1　Sqoop概述
8.2　Sqoop工作原理
8.3　Sqoop版本和架构
8.4　Sqoop实战操作
第9章　分布式数据库HBase
9.1　HBase概述
9.2　HBase数据模型
9.3　HBase生态地位和系统架构
9.4　HBase运行机制
9.5　HBase操作实战
第10章　分布式协调服务Zoo Keeper
10.1　Zoo Keeper的特点
10.2　ZooKeeper的工作原理
10.3　ZooKeeper典型应用场景
第11章　准实时分析系统Impala
11.1　Impala概述
11.2　Impala组件构成
11.3　Impala系统架构
11.4　Impala的查询处理流程
11.5　Impala和Hive的关系和对比
11.6　Impala安装
11.7　Impala入门实战操作
第12章　日志采集工具Flume
12.1　Flume概述
12.2　Flume体系结构
12.3　Flume安装和集成
12.4　Flume操作实例介绍
第13章　分布式消息系统Kafka
13.1　Kafka架构设计
13.2　Kafka原理解析
13.3　Kafka安装和部署
13.4　Java 操作Kafka消息处理实例
13.5　Kafka与HDFS的集成
第14章　大数据ETL工具Kettle
14.1　ETL原理
14.2　Kettle简介
14.3　Kettle完整案例实战
14.4　Kettle调度和命令
14.5　Kettle使用原则
第15章　大规模数据处理计算引擎Spark
15.1　Spark简介
15.2　Spark架构设计
15.3　Spark编程实例
15.4　Spark SQL实战
15.5　Spark Streaming实战
15.6　Spark MLlib实战
第16章　大数据全栈式开发语言Python
16.1　Python简介
16.2　Python安装和配置
16.3　Python入门
16.4　Python数据科学库pandas入门
16.5　Python绘图库matplotlib入门
第17章　大数据实战案例：实时数据流处理项目
17.1　项目背景介绍
17.2　业务需求分析
17.3　项目技术架构
17.4　项目技术组成
17.5　项目实施步骤
17.6　项目总结
第18章　大数据实战案例：用户日志综合分析项目
18.1　项目背景介绍
18.2　项目设计目的
18.3　项目技术架构和组成
18.4　项目实施步骤
正文结束

📜 SIMILAR VOLUMES

Hadoop大数据分析实战

📁 Hadoop大数据分析实战

✍ [美] 斯里达尔？奥拉著李垚译 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书详细阐述了与Hadoop 3大数据分析相关的基本解决方案，主要包括Hadoop简介、大数据分析概述、基于MapReduce的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。此外，本书还提供了相应的示例、代码，以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相关专业的教材和教学参考书，也可作为相关开发人员的自学教材和参考手册。

实战Hadoop大数据处理

📁 实战Hadoop大数据处理

✍ 曾刚 📂 Library 📅 2015 🏛 清华大学出版社 🌐 Chinese

《实战Hadoop大数据处理》以“大数据”为起点，较详细地介绍了Hadoop的相关知识。全书共分为9章，介绍了大数据的基本理论、Hadoop生态系统、Hadoop的安装、HDFS分布式文件系统、MapReduce的原理及开发、HBase数据库、Hive数据仓库、Sqoop数据转换工具，最后结合实际介绍了大数据在智能交通和情报分析中的应用。本书力求用浅显的语言、生动的案例、详细的操作步骤向广大读者介绍Hadoop；力求深入浅出，把复杂的理论与实际案例相结合，用平实的语言把深奥的原理简单化；力求图文并茂，通过适当的图表把零乱的知识点有序地展现在读者面前；力求紧跟时代步伐，尽量结合较新版本的软件阐述

实战大数据

📁 实战大数据

✍ 鲍两; 李倩 📂 Library 📅 2014 🏛 清华大学出版社 🌐 Chinese

“数据是重要资产”已成为大家的共识，众多公司都在争相分析、挖掘大数据背后的信息资源。本书在此背景下，对目前大数据及其相关技术的发展进行总结，理论联系实践，既不缺乏理论深度又具有实用价值。 本书共12章，内容包括大数据的概念、特点、发展历史，数据获取与存储，数据抽取和清洗，数据集成，数据的查询、分析与建模，异构数据采集，文档的存储与检索，异种数据的统一访问与转换，基于微博的股票市场预测系统实例，海量视频检索系统实例，HDFS云文件系统实例。 本书适合大数据技术初学者、大数据从业人员和研究人员，也可以作为高等院校相关专业师生的教学参考书。

图灵程序设计丛书：大规模数据处理入门与实战（套装全10册 Kafka权威指南 F

📁 图灵程序设计丛书：大规模数据处理入门与实战（套装全10册 Kafka权威指南 Flink基础教程数据科学实战 SQL反模式 SQL必知必会（第4版） Spark快速大数据分析数据科学入门 Python数据挖掘入门与实践 Hadoop安全：大数据平台隐私保护 Hadoop数据分析）

✍ Bill Karwin; Ben Forta; 舒特; 奥尼尔; 卡劳; 肯维尼斯科; 温德尔; 扎哈里亚; 格鲁斯; Robert Layton; 本·斯派维 📂 Library 📅 2018 🏛 人民邮电出版社有限公司 🌐 Chinese

Python+Spark 2.0+Hadoop机器学习与大数据实战

📁 Python+Spark 2.0+Hadoop机器学习与大数据实战

✍ 林大贵 📂 Library 📅 2018 🏛 清华大学出版社 🌐 Chinese

本书从浅显易懂的“大数据和机器学习”原理说明入手，讲述大数据和机器学习的基本概念，如分类、分析、训练、建模、预测、机器学习（推荐引擎）、机器学习（二元分类）、机器学习（多元分类）、机器学习（回归分析）和数据可视化应用等。书中不仅加入了新近的大数据技术，还丰富了“机器学习”内容。为降低读者学习大数据技术的门槛，书中提供了丰富的上机实践操作和范例程序详解，展示了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机，如何建立Hadoop集群，再建立Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校，参照书中介绍的搭

124-数据中台实战课

📁 124-数据中台实战课

✍ it-ebooks 📂 Library 🏛 iBooker it-ebooks 🌐 Chinese