在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。 《大数据之路:阿里巴巴大数据实践》就是在此背景下完成的。《大数据之路:阿里巴巴大数据实践》中讲到的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计
大数据实践
✍ Scribed by 刘鹏、张燕、袁晓东和黄必栋
- Publisher
- 清华大学出版社
- Year
- 2018
- Tongue
- Chinese
- Leaves
- 236
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
本书内容涵盖了目前使用广泛的大数据处理系统Hadoop生态圈中的几大核心软件系统:分布式大数据处理系统Hadoop、数据库HBase、数据仓库工具Hive、内存大数据计算框架Spark和Spark SQL,详细介绍了它们的架构、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等内容。本书对上述几大系统的各种安装部署方式给出了详细步骤,常用命令也都有具体示例介绍,是一本实操性很强的工具书,能帮助初学者快速掌握这几款常用的大数据处理系统。 本书以浅显易懂的语言风格和图文并茂的操作示例带读者迈入大数据实践之门,可以作为培养应用型人才的课程教材,也可作为开发人员的自学教材和参考手册。
✦ Table of Contents
封面
扉页
内容简介
版权页
编写委员会
总序
前言
目录
第1章 大数据概述
1.1从数据库到大数据库
1.2大数据库的类型
1.3大数据库的应用
习题1
参考文献
第2章 Hadoop基础
2.1Hadoop简介
2.2Hadoop部署
2.3Hadoop常用命令
2.4HDFS常用命令
实验1 Hadoop实验
习题2
参考文献
第3章 Hadoop数据库HBase
3.1HBase简介
3.2HBase部署
3.3HBase配置
3.4HBase Shell
3.5HBase模式设计
3.6HBase安全
实验2 HBase集群搭建
习题3
参考文献
第4章 数据仓库工具Hive
4.1Hive简介
4.2Hive部署
4.3Hive配置
4.4Hive接口
4.5Hive SQL
4.6Hive操作实例
实验3 Hive实验
习题4
参考文献
第5章 内存大数据计算框架Spark
5.1Spark简介
5.2Spark部署
5.3Spark配置
5.4Spark RDD
5.5Spark Shell
实验4 Spark Standalone集群搭建
习题5
参考文献
第6章 Spark SQL
6.1Spark SQL简介
6.2分布式SQL引擎
6.3使用DataFrame API处理结构化数据
实验5 Thrift JDBC/ODBC Server的搭建与测试
习题6
参考文献
正文结束
附录A大数据和人工智能实验环境
附录B Hadoop环境要求
附录C名词解释
📜 SIMILAR VOLUMES
Python是信息管理与信息系统、电子商务等信息管理类本科学生进行数据分析所需要掌握的基础性语言和分析工具,是未来学生掌握大数据分析技术的学习基础。本书共分12章,着重讲述Python语言和数据分析工具包的应用。 第1章主要介绍Python的发展历史、特点、集成开发环境、内置模块、帮助的使用等内容; 第2章主要介绍Python语言的基础知识; 第3章主要介绍Python中的常用数据结构,包括序列、字典、集合等,以及函数的定义和调用等; 第4章主要介绍Python中类、对象和方法的相关内容; 第5章主要介绍Python进行数据分析常用的NumPy、Pandas、Matplotlib、SciPy和
大数据时代,我们需要对各种海量数据进行筛选、清洗、挖掘,在这个过程中,获取有效数据的方式方法和模型算法成为了整个数据挖掘过程的重点,MATLAB作为一个数据挖掘工具,如何正确和准确地使用它成为了重中之重。针对实际应用数据挖掘技术的要求,本书既介绍了数据挖掘的基础理论和技术,又较为详细地介绍了各种算法以及MATLAB程序。本书共分4篇,分别介绍了数据挖掘的基本概念、技术与算法以及应用实例。期望通过大量的实例分析帮助广大读者掌握数据挖掘技术,并应用于实际的研究中,提高对海量数据信息的处理及挖掘能力。本书针对性和实用性强,具有较高的理论和实用价值。本书作者就职于部队高校,专攻数据挖掘,并应用于大量实
<p>“数据是重要资产”已成为大家的共识,众多公司都在争相分析、挖掘大数据背后的信息资源。本书在此背景下,对目前大数据及其相关技术的发展进行总结,理论联系实践,既不缺乏理论深度又具有实用价值。</p> <p>本书共12章,内容包括大数据的概念、特点、发展历史,数据获取与存储,数据抽取和清洗,数据集成,数据的查询、分析与建模,异构数据采集,文档的存储与检索,异种数据的统一访问与转换,基于微博的股票市场预测系统实例,海量视频检索系统实例,HDFS云文件系统实例。</p> <p>本书适合大数据技术初学者、大数据从业人员和研究人员,也可以作为高等院校相关专业师生的教学参考书。</p>
大数据是互联网、移动应用、社交网络和物联网等技术发展的必然趋势,大数据应用成为当前最为热门的信息技术应用领域。本书由浅入深,首先概述性地分析了大数据的发展背景、基本概念,从业务的角度分析了大数据应用的主要业务价值和业务需求,在此基础上介绍大数据的技术架构和关键技术,结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。最后,对大数据面临的挑战和未来的趋势进行了展望。 本书既具有技术深度,又具有很强的可操作性,提供了一个系统性、架构性的大数据应用实践指南,纲要性地指导大数据应用实践,推动大数据技术在各个行业的广泛应用。
本书侧重于大数据的实践性技术,系统地介绍了主流大数据平台及工具的安装部署、管理维护和应用开发。平台和工具的选择均为当前业界主流的开源产品,因此,对于读者来说,有很强的可操作性。本书涉及的开源技术包括:HDFS、MapReduce、YARN、Zookeeper、HBase、Hive、Sqoop、Storm、Kafka、Flume等。除介绍一般性的背景知识、安装部署、管理维护和应用开发技术外,还特别注重案例实践,重要的技术点以实际工作场景或案例为依托,使读者能快速入门,参考案例动手实践,通过具体深入的实践,体会大数据的技术本质特征,领略大数据技术带来的创新理念,更好地理解和把握信息技术的发展趋势。