实战Hadoop大数据处理

✍ Scribed by 曾刚

Publisher: 清华大学出版社
Year: 2015
Tongue: Chinese
Leaves: 277
Category: Library

No coin nor oath required. For personal study only.

✦ Synopsis

《实战Hadoop大数据处理》以“大数据”为起点，较详细地介绍了Hadoop的相关知识。全书共分为9章，介绍了大数据的基本理论、Hadoop生态系统、Hadoop的安装、HDFS分布式文件系统、MapReduce的原理及开发、HBase数据库、Hive数据仓库、Sqoop数据转换工具，最后结合实际介绍了大数据在智能交通和情报分析中的应用。本书力求用浅显的语言、生动的案例、详细的操作步骤向广大读者介绍Hadoop；力求深入浅出，把复杂的理论与实际案例相结合，用平实的语言把深奥的原理简单化；力求图文并茂，通过适当的图表把零乱的知识点有序地展现在读者面前；力求紧跟时代步伐，尽量结合较新版本的软件阐述大数据处理的相关知识。本书适合作为Hadoop技术的初学者、工程技术人员、大专院校研究生或高年级本科生的学习用书或参考书。

✦ Table of Contents

封面
扉页
内容简介
版权页
前言
目录
第1章　大数据概述
1.1　大数据简介
1.2　大数据处理技术简介
1.3　大数据带来的挑战
1.4　大数据的研究与发展方向
第2章　Hadoop简介
2.1　Hadoop项目起源
2.2　Hadoop的由来
2.3　Hadoop核心组件及相关项目简介
2.4　Hadoop的版本衍化
2.5　Hadoop的发展趋势
第3章　Hadoop的安装
3.1　安装Ubuntu Server
3.2　配置SSH公钥认证
3.3　安装配置Hadoop
3.4　双Name Node分布式安装Hadoop 2.2.0
第4章　HDFS文件系统
4.1　互联网时代对存储系统的新要求
4.2　HDFS系统的特点
4.3　HDFS文件系统
4.4　HDFS Shell命令
4.5　API访问HDFS
4.6　HDFS的高可用性
4.7　HDFS中小文件存储问题
第5章　MapReduce原理及开发
5.1　初识MapReduce
5.2　MapReduce工作原理
5.3　Shuffle和Sort
5.4　任务的执行
5.5　故障处理
5.6　作业调度
5.7　MapReduce编程接口
5.8　MapReduce应用开发
第6章　HBase数据库
6.1　HBase介绍
6.2　HBase架构与原理
6.3　安装HBase
6.4　HBase Shell操作
6.5　基于API使用HBase
6.6　MapReduce操作HBase数据
6.7　HBase优化
第7章　Hive数据仓库
7.1　Hive简介
7.2　Hive的安装
7.3　Hive QL讲解
7.4　Hive复杂类型
7.5　Hive函数
第8章　数据整合
8.1　大数据整合问题
8.2　Sqoop 1.4X整合工具
8.3　Sqoop2整合工具
第9章　典型应用案例介绍
9.1　大数据在智能交通中的应用
9.2　大数据在情报分析中的应用
正文结束
参考文献

📜 SIMILAR VOLUMES

Hadoop大数据分析实战

📁 Hadoop大数据分析实战

✍ [美] 斯里达尔？奥拉著李垚译 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书详细阐述了与Hadoop 3大数据分析相关的基本解决方案，主要包括Hadoop简介、大数据分析概述、基于MapReduce的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。此外，本书还提供了相应的示例、代码，以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相关专业的教材和教学参考书，也可作为相关开发人员的自学教材和参考手册。

Cloudera Hadoop大数据平台实战指南

📁 Cloudera Hadoop大数据平台实战指南

✍ 宋立桓、陈建平 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

对于入门和学习大数据技术的读者来说，大数据技术的生态圈和知识体系过于庞大，可能还没有开始学习就已经陷入众多的陌生名词和泛泛的概念中。本书的切入点明确而清晰，从Hadoop 生态系统的明星 Cloudera 入手，逐步引出各类大数据基础和核心应用框架。本书分为18章，系统介绍Hadoop 生态系统大数据相关的知识，包括大数据概述、Cloudera Hadoop平台的安装部署、HDFS分布式文件系统、MapReduce计算框架、资源管理调度框架YARN 、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具F

实战大数据

📁 实战大数据

✍ 鲍两; 李倩 📂 Library 📅 2014 🏛 清华大学出版社 🌐 Chinese

“数据是重要资产”已成为大家的共识，众多公司都在争相分析、挖掘大数据背后的信息资源。本书在此背景下，对目前大数据及其相关技术的发展进行总结，理论联系实践，既不缺乏理论深度又具有实用价值。 本书共12章，内容包括大数据的概念、特点、发展历史，数据获取与存储，数据抽取和清洗，数据集成，数据的查询、分析与建模，异构数据采集，文档的存储与检索，异种数据的统一访问与转换，基于微博的股票市场预测系统实例，海量视频检索系统实例，HDFS云文件系统实例。 本书适合大数据技术初学者、大数据从业人员和研究人员，也可以作为高等院校相关专业师生的教学参考书。

Python+Spark 2.0+Hadoop机器学习与大数据实战

📁 Python+Spark 2.0+Hadoop机器学习与大数据实战

✍ 林大贵 📂 Library 📅 2018 🏛 清华大学出版社 🌐 Chinese

本书从浅显易懂的“大数据和机器学习”原理说明入手，讲述大数据和机器学习的基本概念，如分类、分析、训练、建模、预测、机器学习（推荐引擎）、机器学习（二元分类）、机器学习（多元分类）、机器学习（回归分析）和数据可视化应用等。书中不仅加入了新近的大数据技术，还丰富了“机器学习”内容。为降低读者学习大数据技术的门槛，书中提供了丰富的上机实践操作和范例程序详解，展示了如何在单机Windows系统上通过Virtual Box虚拟机安装多机Linux虚拟机，如何建立Hadoop集群，再建立Spark开发环境。书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校，参照书中介绍的搭

Spark大数据处理: 原理、算法与实例

📁 Spark大数据处理: 原理、算法与实例

✍ 刘军; 林文辉; 方澄 📂 Library 📅 2016 🏛 清华大学出版社 🌐 Chinese

刘军，男，1976年生人，博士，副教授，硕士生导师，北京邮电大学数据科学中心主任。2003年至2007年任职于IBM中国研究院，担任高级研究员及部门经理，建立IBM中国研究院电信融合网络管理研究方向，主持研发Websphere及Tivoli电信产品线中多项关键技术，期间发表多篇国际会议及刊物论文，并申请获得多项美国专利。2007年至2012年创办欢城（北京）科技有限公司，开创中国无端网络游戏产业，并担任中国软件协会网页游戏专业委员会委员。公司产品多次荣获国内互联网业界奖项，2008年获中国互联网协会“运营价值Webgame”奖项。2012年至今在北京邮电大学信息与通信工程学院任教，研究

图灵程序设计丛书：大规模数据处理入门与实战（套装全10册 Kafka权威指南 F

📁 图灵程序设计丛书：大规模数据处理入门与实战（套装全10册 Kafka权威指南 Flink基础教程数据科学实战 SQL反模式 SQL必知必会（第4版） Spark快速大数据分析数据科学入门 Python数据挖掘入门与实践 Hadoop安全：大数据平台隐私保护 Hadoop数据分析）

✍ Bill Karwin; Ben Forta; 舒特; 奥尼尔; 卡劳; 肯维尼斯科; 温德尔; 扎哈里亚; 格鲁斯; Robert Layton; 本·斯派维 📂 Library 📅 2018 🏛 人民邮电出版社有限公司 🌐 Chinese