大数据分析与计算: Big Data Analytics
✍ Scribed by 汤羽; 林迪; 范爱华
- Publisher
- 清华大学出版社
- Year
- 2018
- Tongue
- Chinese
- Leaves
- 501
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
大数据应用已成为行业热点和产业发展新增长点,数据科学与计算技术也是最新的前沿领域,其中,大数据计算分析提供了核心的技术支撑。本书从大数据计算系统的三个层次对数据模型、处理算法、计算模型与架构、开发技术标准等内容进行了综合性的介绍,重点阐述了各类数据分析算法和MapReduce,图并行计算,交互式处理,流计算,内存计算等计算架构。本书适合作为数据科学与大数据计算技术、计算机科学与技术、互联网应用系统、物联网工程等专业相关课程的教材。
✦ Table of Contents
封面
扉页
内容简介
版权页
前言
目录
第1章 绪论
1.1 数据与数据科学
1.2 大数据概念
1.3 大数据技术特征
参考文献
习题
第2章 大数据计算体系
2.1 大数据计算架构
2.2 数据存储系统
2.3 数据处理平台
2.4 数据应用系统
参考文献
习题
第3章 大数据标准与模式
3.1 大数据标准体系
3.2 大数据计算模式
参考文献
习题
第4章 数据采集方法
4.1 系统日志采集
4.2 网络数据采集
4.3 数据采集接口
参考文献
习题
第5章 数据清洗与规约方法
5.1 数据预处理研究现状
5.2 数据质量问题分类
5.3 数据清洗技术
5.4 数据归约
5.5 数据清洗工具
参考文献
习题
第6章 数据分析算法
6.1 C4.5算法
6.2 k-均值算法
6.3 支持向量机
6.4 Apriori算法
6.5 EM算法
6.6 PageRank算法
6.7 AdaBoost算法
6.8 k-邻近算法
6.9 朴素贝叶斯
6.10 分类回归树算法
参考文献
习题
第7章 文本读写技术
7.1 读取文本文件
7.2 写入文本文件
7.3 处理二进制数据
7.4 数据库的使用
参考文献
习题
第8章 数据处理技术
8.1 合并数据集
8.2 数据转换
8.3 字符串操作
参考文献
习题
第9章 数据分析技术
9.1 NumPy工具包
9.2 Pandas工具包
9.3 Scikit-Learn工具包
参考文献
习题
第10章 数据可视化技术
10.1 Matplotlib绘图
10.2 Mayavi2绘图
10.3 其他图形化工具
参考文献
习题
第11章 Hadoop生态系统
11.1 Hadoop系统架构
11.2 HDFS分布式文件系统
11.3 分布式存储架构
11.4 HBase索引与检索
11.5 资源管理与作业调度
参考文献
习题
第12章 MapReduce计算模型
12.1 分布式并行计算系统
12.2 MapReduce计算架构
12.3 键值对与输入格式
12.4 映射与化简
12.5 应用编程接口
参考文献
习题
第13章 图并行计算框架
13.1 图基本概念
13.2 BSP模型
13.3 Pregel图计算引擎
13.4 Hama开源框架
13.5 应用编程接口
参考文献
习题
第14章 交互式计算模式
14.1 数据模型
14.2 存储结构
14.3 并行查询
14.4 开源实现
参考文献
习题
第15章 流计算系统
15.1 流计算模型
15.2 Storm计算架构
15.3 工作机制实现
15.4 Storm编程接口
参考文献
习题
第16章 内存计算模式
16.1 分布式缓存体系
16.2 内存数据库
16.3 内存云MemCloud
16.4 Spark内存计算
参考文献
习题
第17章 基于医疗数据的临床决策分析应用
17.1 国内外研究现状及发展动态分析
17.2 技术路线和方案
参考文献
习题
第18章 基于医保数据的预测分析应用
18.1 数据准备阶段
18.2 模型变量选择和转换
18.3 建模过程
18.4 模型效果
参考文献
习题
第19章 互联网电商数据的分析应用
19.1 电商流程管理分析
19.2 用户消费行为分析
19.3 送货速度相关性分析
19.4 总结
参考文献
习题
第20章 金融和经济数据的分析应用
20.1 企业对创新经济活动推动的影响分析
20.2 信贷风险模型评估
20.3 中小能源型企业的信用评价分析
参考文献
习题
正文结束
图书资源支持
📜 SIMILAR VOLUMES
本书系统而全面地介绍了云存储安全相关的关键技术及其最新研究成果。首先对云存储做一概述; 然后从云存储安全体系结构说起,按照云存储安全的需求层次,依次介绍云存储虚拟化安全、云存储系统身份认证与访问控制、加密云存储系统、密文云存储信息检索、云存储服务的数据完整性审计、云存储数据备份与恢复等内容; 最后介绍大数据时代的云存储安全。 云存储服务是大数据时代数据存储的基础,保障云存储安全是大数据分析与计算的基石。本书内容由浅入深,按照云存储安全的需求层次以及保障数据安全的逻辑层次,对关键技术逐一进行介绍。全书共分9章,每章都是从概述开始,根据需求逐步介绍,主要是最前沿的成果,然后对相关领域的研究工作进行
<p>《大数据分析与数据挖掘》综合大数据分析与数据挖掘的理论、技术和实际案例,以丰富的产学合作实务案例,深入浅出地剖析从大数据中掏金的秘诀。全书内容涵盖大数据分析与数据挖掘的基本概念、数据准备、大数据分析的方法与实证及相关的进阶运用,并佐以R语言及例题实作,提升读者的数据挖掘实战能力,开拓对大数据分析的洞察视野。</p> <p>随着移动通信和行动装置普及、物联网和网络发展,以及云端技术的不断进步,现今数据产生、搜集和储存方式比以往更为方便。数据挖掘与大数据分析可以从海量数据中,找到值得参考的样型或规则,转换成有价值的信息、洞察或知识,创造更多新价值。</p> <p>本书主要介绍数据挖掘与大
本书在阐述云计算和大数据关系的基础上,介绍了云计算和大数据的基本概念、技术及应用。全书内容如下: 第1~4章讲述云计算的概念和原理,包括云计算的概论、基础、虚拟化、应用; 第5~8章讲述大数据概述及基础,包括大数据概念和发展背景、大数据系统架构概述、分布式通信与协同、大数据存储; 第9~13章讲述大数据处理,包括分布式处理、Hadoop MapReduce解析、Spark解析、流计算、集群资源管理与调度; 第14章讲述综合实践(在OpenStack平台上搭建Hadoop并进行数据分析)。 本书结合实际应用及实践过程来讲解相关概念、原理和技术,实用性较强。适合作为本科院校计算机、云计算、大数据及
本书定位于大数据专业核心技术——实时计算,重点讨论大数据应用场景中的数据特点和应用需求的实时流计算技术。本书通过对分布式实时计算系统的分析,将学习部分按功能性质划分成四个模块,分别为Kafka数据流处理模块、Strom实时计算模块、HBase数据存储模块和Zookeeper分布式协调模块。对此四个工作模块进行教学化处理,形成HBase基础操作、Zookeeper集群管理、配置Storm集群等核心课程体系,并配以实例使学习者便于理解,易于上手,掌握实时计算Storm相关的基础知识和实际业务系统的开发能力。本书主要针对具有软件编程基础(特别是数据技术)的学生和专业工程师,特别是数据科学、数据分析专
本书共分七章,主要内容包括:大数据与数据分析、大数据存储、大数据分析工具、大数据与信息安全、基于二部图网络的电子商务推荐算法研究、基于位置的社交网络好友推荐算法研究、基于稀有类分类的信用卡欺诈识别研究。