本书是将大数据这一计算机前沿科学和基本应用有机结合的典范教材,全面介绍大数据和相关的基础知识,由浅入深地剖析大数据的分析处理方法和技术手段,突出介绍大数据最新的发展趋势和技术成果。本书的一大亮点是每章中都使用图表对大数据与传统数据处理方式进行对比。另外,本书注重启发式的学习策略,便于读者理解和掌握。全书每章均包括实际应用案例与关键词注释,方便读者查阅和自学,同时配备习题和参考答案。本书体系完整、内容丰富、注重应用、前瞻性强、适用性好,并有开放式的课程教学网站(http://www.cmu.edu.cn/computer)提供技术支持。本书既可以作为普通高校大数据技术的基础教材,也可以作为职业培
Hadoop大数据技术原理与应用
✍ Scribed by 黑马程序员
- Publisher
- 清华大学出版社
- Year
- 2019
- Tongue
- Chinese
- Leaves
- 304
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
本书围绕 Hadoop 生态圈相关系统介绍大数据处理架构。全书共 11章,其中,第 12 章主要带领大家认识 Hadoop以及学会搭建 Hadoop 集群;第 3~5 章讲解分布式文件系统(HDFS)分布式计算框架MapReduce 以及分布式协调服务;第 6 章讲解 Hadoop 2.0 新特性,包含 YARN 和高可用特性;第7~10 章主要讲解 Hadoop 生态圈的相关辅助系统,包括 Hive,Flume,Azkaban 和 Sqop;第 11 章是一个综合项目一网站流量日志数据分析系统,目的是教会大家如何利用 Hadoop 生态圈技术构建大数据系统架构并进行开发,同时加深对 Hadoop 技术的理解。
本书附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习本书中的内容,还提供了在线管疑,欢迎读者关注。
本书可作为高等院校本、专科计算机相关专业,信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
✦ Table of Contents
封面
扉页
内容简介
版权页
序言
前言
目录
第1章 初识Hadoop
1.1 大数据概述
1.2 大数据的应用场景
1.3 Hadoop概述
1.4 本章小结
1.5 课后习题
第2章 搭建Hadoop集群
2.1 安装准备
2.2 Hadoop集群搭建
2.3 Hadoop集群测试
2.4 Hadoop集群初体验
2.5 本章小结
2.6 课后习题
第3章 HDFS分布式文件系统
3.1 HDFS的简介
3.2 HDFS的架构和原理
3.3 HDFS的Shell操作
3.4 HDFS的Java API操作
3.5 本章小结
3.6 课后习题
第4章 MapReduce分布式计算框架
4.1 MapReduce概述
4.2 MapReduce工作原理
4.3 MapReduce编程组件
4.4 MapReduce运行模式
4.5 MapReduce性能优化策略
4.6 MapReduce经典案例———倒排索引
4.7 MapReduce经典案例———数据去重
4.8 MapReduce经典案例———Top N
4.9 本章小结
4.10 课后习题
第5章 Zookeeper分布式协调服务
5.1 初识Zookeeper
5.2 数据模型
5.3 Zookeeper的 Watch机制
5.4 Zookeeper的选举机制
5.5 Zookeeper分布式集群部署
5.6 Zookeeper的Shell操作
5.7 Zookeeper的Java API操作
5.8 Zookeeper典型应用场景
5.9 本章小结
5.10 课后习题
第6章 Hadoop2.0新特性
6.1 Hadoop2.0改进与提升
6.2 YARN资源管理框架
6.3 HDFS的高可用
6.4 本章小结
6.5 课后习题
第7章 Hive数据仓库
7.1 数据仓库简介
7.2 Hive简介
7.3 Hive的安装
7.4 Hive的管理
7.5 Hive内置数据类型
7.6 Hive数据模型操作
7.7 Hive数据操作
7.8 本章小结
7.9 课后习题
第8章 Flume日志采集系统
8.1 Flume概述
8.2 Flume基本使用
8.3 Flume采集方案配置说明
8.4 Flume的可靠性保证
8.5 Flume拦截器
8.6 案例———日志采集
8.7 本章小结
8.8 课后习题
第9章 工作流管理器(Azkaban)
9.1 工作流管理器概述
9.2 Azkaban概述
9.3 Azkaban部署
9.4 Azkaban使用
9.5 本章小结
9.6 课后习题
第10章 Sqoop数据迁移
10.1 Sqoop概述
10.2 Sqoop安装配置
10.3 Sqoop指令介绍
10.4 Sqoop数据导入
10.5 Sqoop数据导出
10.6 本章小结
10.7 课后习题
第11章 综合项目———网站流量日志数据分析系统
11.1 系统概述
11.2 模块开发———数据采集
11.3 模块开发———数据预处理
11.4 模块开发———数据仓库开发
11.5 模块开发———数据分析
11.6 模块开发———数据导出
11.7 模块开发———日志分析系统报表展示
11.8 本章小结
正文结束
📜 SIMILAR VOLUMES
本书基于国家电网有限公司系统SG186和SG-ERP等重大信息化工程的设计、项目建设及组织应用全 过程,总结了多项重大信息化项目的经验,运用了信息化与大数据应用技术的理论,力求反映电力信息 化与大数据应用工程技术的最新成果。 全书共分9章,主要内容包括绪论、电力大数据应用工程技术基础理论、电力大数据应用工程技术基 础知识、电力业务数据应用工程技术与案例分析、电力云数据中心工程技术与案例分析、电网GIS平台数 据工程技术与案例分析、变电站智能化数据平台技术与案例分析、大型电力企业国际业务数据工程与案 例分析、智能车联网数据管理平台技术与案例分析。 本书理论联系实际,通过电力大数据应用工程技术的实
本书强调了大数据的宝贵价值,介绍了常用的数据分析技术与方法,论述了大数据分析的思维特征,紧扣大数据的特点演示了可视化分析与可视化挖掘的方法,详细讨论了数据清洗与元数据管理,对大数据的风险予以充分揭示,同时提出了大数据风险管理的对策,对大数据治理作了简介。 本书具有很强的实用性、可操作性和指导性,对于企业管理人员、企业数据分析人员、业务分析人员和市场营销人员,政府监管机构如证监会、银监局、保监会的监管人员,审计师、注册会计师,纪检监察和司法机关执纪执法人员有参考价值,同时可供高等院校相关专业的师生参阅。
大数据是互联网、移动应用、社交网络和物联网等技术发展的必然趋势,大数据应用成为当前最为热门的信息技术应用领域。本书由浅入深,首先概述性地分析了大数据的发展背景、基本概念,从业务的角度分析了大数据应用的主要业务价值和业务需求,在此基础上介绍大数据的技术架构和关键技术,结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。最后,对大数据面临的挑战和未来的趋势进行了展望。 本书既具有技术深度,又具有很强的可操作性,提供了一个系统性、架构性的大数据应用实践指南,纲要性地指导大数据应用实践,推动大数据技术在各个行业的广泛应用。
<p>本书内容分为三个部分,第一部分为互联网大数据的概述;第二部分为互联网大数据的获取与存储,包括了静态或动态WEB页面内容获取技术、结构化或非结构化数据的存储、常见的开源系统等;第二部分为处理与分析技术,包括了文本数据预处理、数据内容的语义分析技术、文本内容分类技术、聚类分析、大数据中的隐私保护、大数据可视化等内容;第三部分为综合应用。</p>
本书详细介绍了大数据技术的基础理论和最新主流前沿技术,全书共分为10章,分别介绍我们目前面临的数字化信息社会的大数据时代、大数据技术基本概念、云计算网络、大数据采集与预处理、大数据存储、计算模式与处理系统、查询显示与交互、大数据分析与数据挖掘、隐私与安全、大数据技术发展前景,同时包括行业案例研究(银行、保险、证券、金融行业),典型系统与相关大数据分析实例。本书主要作为高等院校计算机专业、信息管理专业、经济类专业、管理类专业相关本科生和研究生专业基础课的教材,也可以作为干部培训、职业技术教育以及职业培训机构的云计算与大数据分析技术的专业训练教材。对从事云计算与大数据分析工作的财政金融、政府管理、