𝔖 Scriptorium
✦   LIBER   ✦

📁

Spark全栈数据分析

✍ Scribed by Russell Jurney


Publisher
电子工业出版社
Year
2018
Tongue
Chinese
Leaves
345
Category
Library

⬇  Acquire This Volume

No coin nor oath required. For personal study only.

✦ Synopsis


本书介绍了作者提出的敏捷数据科学的方法论,结合作者在行业中多年的实际工作经验,为数据科学团队提供了一套以类似敏捷开发的方法开展数据科学研究的实践经验。全书基于Spark做全栈数据分析,书中展示了工业界一些常见工具的使用,包括从前端显示到后端处理的各个环节,手把手帮助数据科学家快速将理论转化为真正面向用户的应用程序,从而让读者在利用数据创造真正价值的同时,也能不断完善自己的研究。本书适合初学者阅读,数据科学家、工程师、分析师都能在本书中有所收获。

✦ Table of Contents


封面
书名
版权
目录
第Ⅰ部分 准备工作
第1章 理论
导论
定义
方法学
敏捷数据科学宣言
瀑布模型的问题
研究与应用开发
敏捷软件开发的问题
最终质量:偿还技术债
瀑布模型的拉力
数据科学过程
设置预期
数据科学团队的角色
认清机遇与挑战
适应变化
过程中的注意事项
代码审核与结对编程
敏捷开发的环境:提高生产效率
用大幅打印实现想法
第2章 敏捷工具
可伸缩性=易用性
敏捷数据科学之数据处理
搭建本地环境
配置要求
配置Vagrant
下载数据
搭建EC2环境
下载数据
下载并运行代码
下载代码
运行代码
Jupyter笔记本
工具集概览
敏捷开发工具栈的要求
Python 3
使用JSON行和Parquet序列化事件
收集数据
使用Spark进行数据处理
使用MongoDB发布数据
使用Elasticsearch搜索数据
使用Apache Kafka分发流数据
使用PySpark Streaming处理流数据
使用scikit-learn与Spark MLlib进行机器学习
使用Apache Airflow(孵化项目)进行调度
反思我们的工作流程
轻量级网络应用
展示数据
本章小结
第3章 数据
飞行航班数据
航班准点情况数据
OpenFlights数据库
天气数据
敏捷数据科学中的数据处理
结构化数据vs.半结构化数据
SQL vs.NoSQL
SQL
NoSQL与数据流编程
Spark:SQL+NoSQL
NoSQL中的表结构
数据序列化
动态结构表的特征提取与呈现
本章小结
第Ⅱ部分 攀登金字塔
第4章 记录收集与展示
整体使用
航班数据收集与序列化
航班记录处理与发布
把航班记录发布到MongoDB
在浏览器中展示航班记录
使用Flask和pymongo提供航班信息
使用Jinja2渲染HTML5页面
敏捷开发检查站
列出航班记录
使用MongoDB列出航班记录
数据分页
搜索航班数据
创建索引
发布航班数据到Elasticsearch
通过网页搜索航班数据
本章小结
第5章 使用图表进行数据可视化
图表质量:迭代至关重要
用发布/装饰模型伸缩数据库
一阶形式
二阶形式
三阶形式
选择一种形式
探究时令性
查询并展示航班总数
提取“金属”(飞机(实体))
提取机尾编号
评估飞机记录
数据完善
网页表单逆向工程
收集机尾编号
自动化表单提交
从HTML中提取数据
评价完善后的数据
本章小结
第6章 通过报表探索数据
提取航空公司为实体
使用PySpark把航空公司定义为飞机的分组
在MongoDB中查询航空公司数据
在Flask中构建航空公司页面
添加回到航空公司页面的链接
创建一个包括所有航空公司的主页
整理半结构化数据的本体关系
改进航空公司页面
给航空公司代码加上名称
整合维基百科内容
把扩充过的航空公司表发布到MongoDB
在网页上扩充航空公司信息
调查飞机(实体)
SQL嵌套查询vs.数据流编程
不使用嵌套查询的数据流编程
Spark SQL中的子查询
创建飞机主页
在飞机页面上添加搜索
创建飞机制造商的条形图
对飞机制造商条形图进行迭代
实体解析:新一轮图表迭代
本章小结
第7章 进行预测
预测的作用
预测什么
预测分析导论
进行预测
探索航班延误
使用PySpark提取特征
使用scikit-learn构建回归模型
读取数据
数据采样
向量化处理结果
准备训练数据
向量化处理特征
稀疏矩阵与稠密矩阵
准备实验
训练模型
测试模型
小结
使用Spark MLlib构建分类器
使用专用结构加载训练数据
处理空值
用Route(路线)替代FlightNum(航班号)
对连续变量分桶以用于分类
使用pyspark.ml.feature向量化处理特征
用Spark ML做分类
本章小结
第8章 部署预测系统
把scikit-learn应用部署为网络服务
scikit-learn模型的保存与读取
提供预测模型的准备工作
为航班延误回归分析创建API
测试API
在产品中使用API
使用Airflow部署批处理模式Spark ML应用
在生产环境中收集训练数据
Spark ML模型的训练、存储与加载
在MongoDB中创建预测请求
从MongoDB中获取预测请求
使用Spark ML以批处理模式进行预测
用MongoDB保存预测结果
在网络应用中展示批处理预测结果
用Apache Airflow(孵化项目)自动化工作流
小结
用Spark Streaming部署流式计算模式Spark ML应用
在生产环境中收集训练数据
Spark ML模型的训练、存储、读取
发送预测请求到Kafka
用Spark Streaming进行预测
测试整个系统
本章小结
第9章 改进预测结果
解决预测的问题
什么时候需要改进预测
改进预测表现
黏附试验法:找出黏性好的
为试验建立严格的指标
把当日时间作为特征
纳入飞机数据
提取飞机特征
在分类器模型中纳入飞机特征
纳入飞行时间
本章小结
附录A 安装手册
安装Hadoop
安装Spark
安装MongoDB
安装MongoDB的Java驱动
安装mongo-hadoop
编译mongo-hadoop
安装pymongo_spark
安装Elasticsearch
安装Elasticsearch的Hadoop支持库
配置我们的Spark环境
安装Kafka
安装scikit-learn
安装Zeppelin


📜 SIMILAR VOLUMES


全栈数据之门
✍ 任柳江 📂 Library 📅 2017 🏛 电子工业出版社 🌐 Chinese

<p>《全栈数据之门》以数据分析领域最热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange 3来理解算法的一些细节。对于机器学习,既有常用算法kNN与Kmeans的应用,决策树与随机森林的实战,还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上,使用Spark的ML/MLlib库集成了前面的各部分内容,让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。</p> <p>《全栈数据之门》不是从入门到精通地介绍某一种技术,可以把《全栈数据

Spark大数据分析与实战
✍ 黑马程序员 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术,全书共9章。第1章详细介绍开发Spark框架的Scala编程语言;第2~4、7~8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5~6章主要讲解大数据环境中常见的辅助系统,HBase数据库以及Kafka流处理平台,包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理;第9章是一个综合项目,利用Sp

列表数据分析: 列表数据分析
✍ 戴维•诺克; 彼得•J•伯克; 等 📂 Library 📅 2011 🏛 格致出版社 🌐 Chinese

<p>《列表数据分析》由三种讨论交互表分析的小册子组成,分别是《对数线性模型》、《流动表分析》和《关联模型》。列表数据在分析和理解社会流动和社会分层方面具有重要的作用。《列表数据分析》首先介绍了用于检验变量间关系的对数线性模型及其应用,然后考察了各类流动表数据分析模型的异同,最后特别介绍了双向表、三向表中的关联模型、偏关联模型和条件关联模型及其实际应用。</p>

数据分析方法
✍ 施锡铨; 范正绮 📂 Library 📅 1997 🏛 上海财经大学出版社 🌐 Chinese
数据分析与数据挖掘
✍ 喻梅 于健 主编;王建荣 王庆节 副主编 📂 Library 📅 2018 🏛 清华大学出版社 🌐 Chinese

《数据分析与数据挖掘》主要介绍数据挖掘和数据分析的基本概念和方法,包括数据的基本属性和概念、数据预处理技术、数据立方体和OLAP技术、频繁模式挖掘、回归分析、分类、聚类、离群点分析。书中涉及到的模型和算法均给予了相应的实例。

探索性数据分析
✍ Frederick Mosteller; John W. Tukey; David C. Hoaglin 📂 Library 📅 1998 🏛 中国统计出版社 🌐 Chinese

<p>探索性数据分析,ISBN:9787503723476,作者:(美)DavidC.Hoaglin,(美)FrederickMosteller,(美)JohnW.Tukey著;陈忠琏,郭德媛译</p>