<p>《大数据分析与数据挖掘》综合大数据分析与数据挖掘的理论、技术和实际案例,以丰富的产学合作实务案例,深入浅出地剖析从大数据中掏金的秘诀。全书内容涵盖大数据分析与数据挖掘的基本概念、数据准备、大数据分析的方法与实证及相关的进阶运用,并佐以R语言及例题实作,提升读者的数据挖掘实战能力,开拓对大数据分析的洞察视野。</p> <p>随着移动通信和行动装置普及、物联网和网络发展,以及云端技术的不断进步,现今数据产生、搜集和储存方式比以往更为方便。数据挖掘与大数据分析可以从海量数据中,找到值得参考的样型或规则,转换成有价值的信息、洞察或知识,创造更多新价值。</p> <p>本书主要介绍数据挖掘与大
大数据离线分析
✍ Scribed by 傅德谦、赵向兵、张林涛、刘鸣涛
- Publisher
- 清华大学出版社
- Year
- 2017
- Tongue
- Chinese
- Leaves
- 182
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
本书基于开源Hadoop大数据生态圈的主流离线分析工具Hive和Pig,通过技术讲解和案例实战相结合的方式,介绍了海量数据离线分析的技术方法。本书内容主要包括Hive数据库表、基于HiveQL的常规操作、视图、索引和Pig等数据处理分析和基础工具知识,Hive函数、Pig Latin编程、ETL工具Sqoop和工作流引擎Oozie等相关高级技术,以及实际项目案例。本书既可供学习大数据离线分析技术的本科和高职高专学生作为教材,也可供从事数据分析相关工作的技术人员作为参考资料。
✦ Table of Contents
封面
扉页
内容简介
版权页
丛书编委会
前言
目录
绪论
第1章 走进Hive
1.1 Hive简介
1.2 Hive的安装部署
1.3 Hive命令
1.4 数据类型和文件格式
本章小结
习题
第2章 HiveQL数据定义
2.1 数据库的创建与查询
2.2 数据库的修改与删除
2.3 创建表
2.4 修改表
2.5 删除表
2.6 分区表
2.7 桶表
本章小结
习题
第3章 HiveQL数据操作
3.1 数据加载与导出
3.2 数据查询
3.3 抽样查询
本章小结
习题
第4章 HiveQL视图和索引
4.1 视图
4.2 索引
本章小结
习题
第5章 Hive的函数
5.1 函数简介
5.2 用户自定义函数UDF
5.3 用户自定义聚合函数UDAF
5.4 用户自定义表生成函数UDTF
5.5 UDF的标注
本章小结
习题
第6章 认识Pig
6.1 初识Pig
6.2 安装、运行Pig
本章小结
习题
第7章 Pig基础
7.1 命令行工具Grunt
7.2 Pig数据类型
本章小结
习题
第8章 Pig Latin编程
8.1 Pig Latin介绍
8.2 关系操作
8.3 用户自定义函数UDF
8.4 开发工具
本章小结
习题
第9章 数据ETL工具Sqoop
9.1 安装Sqoop
9.2 数据导入
9.3 数据导出
本章小结
习题
第10章 Hadoop工作流引擎Oozie
10.1 Oozie是什么
10.2 Oozie的安装
10.3 Oozie的编写与运行
10.4 Oozie控制台
10.5 Oozie的高级特性
本章小结
习题
第11章 离线计算实例
11.1 微博历史数据分析
11.2 电商销售数据分析
本章小结
正文结束
参考文献
📜 SIMILAR VOLUMES
本书共分七章,主要内容包括:大数据与数据分析、大数据存储、大数据分析工具、大数据与信息安全、基于二部图网络的电子商务推荐算法研究、基于位置的社交网络好友推荐算法研究、基于稀有类分类的信用卡欺诈识别研究。
本书详细阐述了与Hadoop 3大数据分析相关的基本解决方案,主要包括Hadoop简介、大数据分析概述、基于MapReduce的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处 理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。
本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术,全书共9章。第1章详细介绍开发Spark框架的Scala编程语言;第2~4、7~8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5~6章主要讲解大数据环境中常见的辅助系统,HBase数据库以及Kafka流处理平台,包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理;第9章是一个综合项目,利用Sp
Python 在衍生工具分析领域占据重要地位,使机构能够快速、有效地提供定价、交易及风险管理的结果。本书精心介绍了有效定价期权的四个领域:基于巿场定价的过程、完善的巿场模型、数值方法及技术。书中的内容分为三个部分。第一部分着眼于影响股指期权价值的风险,以及股票和利率的相关实证发现。第二部分包括套利定价理论、离散及连续时间的风险中性定价,并介绍Carr-Madan和Lewis这两种流行的傅里叶期权定价方法。最后,第三部分探究基于巿场定价的整个过程,以及定价奇异、复杂期权(衍生工具)所用的蒙特卡罗摸拟。 本书兼具实用与学习价值,提供完整独立的Python脚本、模块及5000行以上代码。英文原