《实战Hadoop大数据处理》以“大数据”为起点,较详细地介绍了Hadoop的相关知识。全书共分为9章,介绍了大数据的基本理论、Hadoop生态系统、Hadoop的安装、HDFS分布式文件系统、MapReduce的原理及开发、HBase数据库、Hive数据仓库、Sqoop数据转换工具,最后结合实际介绍了大数据在智能交通和情报分析中的应用。本书力求用浅显的语言、生动的案例、详细的操作步骤向广大读者介绍Hadoop;力求深入浅出,把复杂的理论与实际案例相结合,用平实的语言把深奥的原理简单化;力求图文并茂,通过适当的图表把零乱的知识点有序地展现在读者面前;力求紧跟时代步伐,尽量结合较新版本的软件阐述
Hadoop大数据分析实战
✍ Scribed by [美] 斯里达尔?奥拉 著 李垚 译
- Publisher
- 清华大学出版社
- Year
- 2019
- Tongue
- Chinese
- Leaves
- 381
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
本书详细阐述了与Hadoop 3大数据分析相关的基本解决方案,主要包括Hadoop简介、大数据分析概述、基于MapReduce的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处 理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。
✦ Table of Contents
封面
扉页
内容简介
版权页
译者序
前言
目录
第1章 Hadoop简介
1.1 Hadoop分布式文件系统
1.2 MapReduce框架
1.3 YARN
1.4 其他变化内容
1.5 安装Hadoop 3
1.6 本章小结
第2章 大数据分析概述
2.1 数据分析简介
2.2 大数据简介
2.2 使用Apache Hadoop的分布式计算
2.4 MapReduce框架
2.5 Hive
2.6 Apache Spark
2.7 基于Tableau的可视化操作
2.8 本章小结
第3章 基于MapReduce的大数据处理
3.1 MapReduce框架
3.2 MapReduce作业类型
3.3 MapReduce模式
3.4 本章小结
第4章 Python-Hadoop科学计算和大数据分析
4.1 安装操作
4.2 数据分析
4.3 本章小结
第5章 R-Hadoop统计数据计算
5.1 概述
5.2 R语言和Hadoop间的集成方法
5.3 数据分析
5.4 本章小结
第6章 Apache Spark批处理分析
6.1 SparkSQL和DataFrame
6.2 DataFrame API和SQL API
6.3 模式—数据的结构
6.4 加载数据集
6.5 保存数据集
6.6 聚合
6.7 连接
6.8 本章小结
第7章 Apache Spark实时数据分析
7.1 数据流
7.2 Spark Streaming
7.3 fileStream
7.4 转换
7.5 检查点
7.6 驱动程序故障恢复
7.7 与流平台的互操作性(Apache Kafka)
7.8 处理事件时间和延迟日期
7.9 容错示意图
7.10 本章小结
第8章 Apache Flink批处理分析
8.1 Apache Flink简介
8.2 安装Flink
8.3 使用Flink集群UI
8.4 批处理分析
8.5 本章小结
第9章 Apache Flink流式处理
9.1 流式执行模型简介
9.2 利用DataStream API进行数据处理
9.3 本章小结
第10章 大数据可视化技术
10.1 数据可视化简介
10.2 Tableau
10.3 图表类型
10.4 基于Python的数据可视化
10.5 基于R的数据可视化
10.6 大数据可视化工具
10.7 本章小结
第11章 云计算简介
11.1 概念和术语
11.2 目标和收益
11.3 风险和挑战
11.4 角色和边界
11.5 云特征
11.6 云交付模型
11.7 云部署模型
11.8 本章小结
第12章 使用亚马逊Web服务
12.1 Amazon Elastic Compute Cloud
12.2 启用多个AMI实例
12.3 AWS Lambda
12.4 Amazon S3简介
12.5 Amazon DynamoDB
12.6 Amazon Kinesis Data Streams
12.7 AWS Glue
12.8 Amazon EMR
12.9 本章小结
正文结束
📜 SIMILAR VOLUMES
本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术,全书共9章。第1章详细介绍开发Spark框架的Scala编程语言;第2~4、7~8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5~6章主要讲解大数据环境中常见的辅助系统,HBase数据库以及Kafka流处理平台,包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理;第9章是一个综合项目,利用Sp
对于入门和学习大数据技术的读者来说,大数据技术的生态圈和知识体系过于庞大,可能还没有开始学习就已经陷入众多的陌生名词和泛泛的概念中。本书的切入点明确而清晰,从Hadoop 生态系统的明星 Cloudera 入手,逐步引出各类大数据基础和核心应用框架。 本书分为18章,系统介绍Hadoop 生态系统大数据相关的知识,包括大数据概述、Cloudera Hadoop平台的安装部署、HDFS分布式文件系统、MapReduce计算框架、资源管理调度框架YARN 、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具F
使用Python进行数据分析是十分便利且高效的,因此它被认为是最优秀的数据分析工具之一。本书从理论和实战两个角度对Python数据分析工具进行了介绍,并采用理论分析和Python实践相结合的形式,按照数据分析的基本步骤对数据分析的理论知识以及相应的Python库进行了详细的介绍,让读者在了解数据分析的基本理论知识的同时能够快速上手实现数据分析程序。 本书适用于对数据分析有浓厚兴趣但不知从何下手的初学者,在阅读数据分析的基础理论知识的同时可以通过Python实现简单的数据分析程序,从而快速对数据分析的理论和实现两个层次形成一定的认知。
<p>“数据是重要资产”已成为大家的共识,众多公司都在争相分析、挖掘大数据背后的信息资源。本书在此背景下,对目前大数据及其相关技术的发展进行总结,理论联系实践,既不缺乏理论深度又具有实用价值。</p> <p>本书共12章,内容包括大数据的概念、特点、发展历史,数据获取与存储,数据抽取和清洗,数据集成,数据的查询、分析与建模,异构数据采集,文档的存储与检索,异种数据的统一访问与转换,基于微博的股票市场预测系统实例,海量视频检索系统实例,HDFS云文件系统实例。</p> <p>本书适合大数据技术初学者、大数据从业人员和研究人员,也可以作为高等院校相关专业师生的教学参考书。</p>
<p>企业管理人员进行营销资源配置、精准锁定营销目标的必读书,美国商学院MBA营销分析课程指定用书,以真实的商业场景和案例数据展现营销分析在商业实践中的巨大作用。在这本书中,来自美国弗吉尼亚大学达顿商学院的三位专家介绍了当今最有价值的营销分析方法与工具,并为如何成功运用这些工具提供了实务方法。书中的每一部分都包含了提供统计背景与案例研究的技术性说明。所有这些案例研究都附加有被支持者用于制定决策的真实数据。随着你实践性学习的开展,你将会对营销分析的重要性形成更深刻的理解,学会把量化分析法整合到你的管理领悟力中,掌握诸如回归分析与聚类分析等核心的统计工具,并发现如何在实验设计中避免常见的易犯错误。