<p>本书介绍了作者提出的敏捷数据科学的方法论,结合作者在行业中多年的实际工作经验,为数据科学团队提供了一套以类似敏捷开发的方法开展数据科学研究的实践经验。全书基于Spark做全栈数据分析,书中展示了工业界一些常见工具的使用,包括从前端显示到后端处理的各个环节,手把手帮助数据科学家快速将理论转化为真正面向用户的应用程序,从而让读者在利用数据创造真正价值的同时,也能不断完善自己的研究。本书适合初学者阅读,数据科学家、工程师、分析师都能在本书中有所收获。</p>
全栈数据之门
✍ Scribed by 任柳江
- Publisher
- 电子工业出版社
- Year
- 2017
- Tongue
- Chinese
- Leaves
- 396
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
《全栈数据之门》以数据分析领域最热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange 3来理解算法的一些细节。对于机器学习,既有常用算法kNN与Kmeans的应用,决策树与随机森林的实战,还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上,使用Spark的ML/MLlib库集成了前面的各部分内容,让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。
《全栈数据之门》不是从入门到精通地介绍某一种技术,可以把《全栈数据之门》当成一本技术文集,内容定位于数据科学的全栈基础入门,全部内容来自当前业界最实用的技能,有非常基础的,也有比较深入的,有些甚至需要深入领悟才能理解。
《全栈数据之门》适用于任何想在数据领域有所作为的人,包括学生、爱好者、在职人员与科研工作者。无论想从事数据分析、数据工程、数据挖掘或者机器学习,或许都能在书中找到一些之前没有接触过的内容。
✦ Table of Contents
扉 页
版权页
自序
目录
前言
0x1 Linux,自由之光
0x10 Linux,你是我的眼
0x11 Linux基础,从零开始
01 Linux之门
02 文件操作
03 权限管理
04 软件安装
05 实战经验
0x12 Sed与Grep,文本处理
01 文本工具
02 grep的使用
03 grep家族
04 sed的使用
05 综合案例
0x13 数据工程,必备Shell
01 Shell分析
02 文件探索
03 内容探索
04 交差并补
05 其他常用的命令
06 批量操作
07 结语
0x14 Shell快捷键,Emacs之门
01 提高效率
02 光标移动
03 文本编辑
04 命令搜索
05 Emacs入门
06 Emacs思维
0x15 缘起Linux,一入Mac误终身
01 开源生万物
02 有钱就换Mac
03 程序员需求
04 非程序员需求
05 一入Mac误终身
0x16 大成就者,集群安装
01 离线安装
02 Host与SSH配置
03 sudo与JDK环境
04 准备Hadoop包
05 开启HTTP与配置源
06 安装ambari-server
07 后续服务安装
08 结语
0x2 Python,道法自然
0x20 Python,灵犀一指
0x21 Python基础,兴趣为王
01 第一语言
02 数据结构
03 文件读写
04 使用模块
05 函数式编程
06 一道面试题
07 兴趣驱动
0x22 喜新厌旧,2迁移3
01 新旧交替
02 基础变化
03 编码问题
04 其他变化
05 2to3脚本
06 PySpark配置
07 喜新厌旧
0x23 Anaconda,IPython
01 Anaconda
02 安装与配置
03 pip与源
04 IPython与Jupyter
05 结语
0x24 美不胜收,Python工具
01 缘起
02 调试与开发
03 排版与格式化
04 辅助工具
05 实用推荐
0x25 numpy基础,线性代数
01 numpy的使用
02 索引与切片
03 变形与统计
04 矩阵运算
05 实用方法
06 结语
0x26 numpy实战,PCA降维
01 PCA介绍
02 数据均值化
03 协方差矩阵
04 特征值与向量
05 数据映射降维
06 sklearn实现
0x3 大数据,其大无外
0x30 太大数据,极生两仪
0x31 神象住世,Hadoop
01 Hadoop
02 HDFS
03 角色与管理
04 文件操作
05 结语
0x32 分治之美,MapReduce
01 map与reduce函数
02 分而治之
03 Hello,World
04 Streaming接口
0x33 Hive基础,蜂巢与仓库
01 引言
02 Hive接口
03 分区建表
04 分区机制
05 数据导入/导出
06 Hive-QL
07 结语
0x34 Hive深入,实战经验
01 排序与分布式
02 多表插入与mapjoin
03 加载map-reduce脚本
04 使用第三方UDF
05 实战经验
06 生成唯一ID
0x35 HBase库,实时业务
01 理论基础
02 Shell操作
03 关联Hive表
04 数据导入
05 实用经验
0x36 SQL与NoSQL,Sqoop为媒
01 SQL与NOSQL
02 从MySQL导入HDFS
03 增量导入
04 映射到Hive
05 导入Hive表
06 从HDFS导出到MySQL
07 从Hive导出到MySQL
0x4 数据分析,见微知著
0x40 大数据分析,鲁班为祖师
0x41 SQL技能,必备MySQL
01 SQL工具
02 基础操作
03 查询套路
04 join查询
05 union与exists
06 实战经验
0x42 快刀awk,斩乱数据
01 快刀
02 一二三要点
03 一个示例
04 应用与统计
05 斩乱麻
0x43 Pandas,数据之框
01 数据为框
02 加载数据
03 行列索引
04 行列操作
05 合并聚合
06 迭代数据
07 结语
0x44 Zeppelin,一统江湖
01 心潮澎湃
02 基本使用
03 SQL与可视化
04 安装Zeppelin
05 配置Zeppelin
06 数据安全
07 使用心得
0x45 数据分组,聚合窗口
01 MySQL聚合
02 Spark聚合
03 非聚合字段
04 Hive实现
05 group_concat
06 Hive窗口函数
07 DataFrame窗口
08 结语
0x46 全栈分析,六层内功
01 引言
02 MySQL版本
03 awk版本
04 Python版本
05 Hive版本
06 map-reduce版本
07 Spark版本
08 结语
0x5 机器学习,人类失控
0x50 机器学习,琅琊论断
0x51 酸酸甜甜,Orange
01 可视化学习
02 数据探索
03 模型与评估
04 组件介绍
05 与Python进行整合
06 结语
0x52 sklearn,机器学习
01 sklearn介绍
02 数据预处理
03 建模与预测
04 模型评估
05 模型持久化
06 三个层次
0x53 特征转换,量纲伸缩
01 特征工程
02 独热编码
03 sklearn示例
04 标准化与归一化
05 sklearn与Spark实现
06 结语
0x54 描述统计,基础指标
01 描述性统计
02 Pandas实现
03 方差与协方差
04 Spark-RDD实现
05 DataFrame实现
06 Spark-SQL实现
07 结语
0x55 模型评估,交叉验证
01 测试与训练
02 评价指标
03 交叉验证
04 验证数据
05 OOB数据
0x56 文本特征,词袋模型
01 自然语言
02 中文分词
03 词袋模型
04 词频统计
05 TF-IDF
06 结语
0x6 算法预测,占天卜地
0x60 命由己做,福自己求
0x61 近朱者赤,相亲kNN
01 朴素的思想
02 算法介绍
03 分类与回归
04 k与半径
05 优化计算
06 实例应用
0x62 物以类聚,Kmeans
01 算法描述
02 建立模型
03 理解模型
04 距离与相似性
05 降维与可视化
06 无监督学习
0x63 很傻很天真,朴素贝叶斯
01 朴素思想
02 概率公式
03 三种实现
04 sklearn示例
05 朴素却不傻
0x64 菩提之树,决策姻缘
01 缘起
02 Orange演示
03 scikit-learn模拟
04 熵与基尼指数
05 决策过程分析
06 Spark模拟
07 结语
0x65 随机之美,随机森林
01 树与森林
02 处处随机
03 sklearn示例
04 MLlib示例
05 特点与应用
0x66 自编码器,深度之门
01 深度学习
02 特征学习
03 自动编码器
04 Keras代码
05 抗噪编码器
0x7 Spark,唯快不破
0x70 人生苦短,快用Spark
0x71 PySpark之门,强者联盟
01 全栈框架
02 环境搭建
03 分布式部署
04 示例分析
05 两类算子
06 map与reduce
07 AMPLab的野心
0x72 RDD算子,计算之魂
01 算子之道
02 获取数据
03 过滤与排序
04 聚合数据
05 join连接
06 union与zip
07 读写文件
08 结语
0x73 分布式SQL,蝶恋飞舞
01 SQL工具
02 命令行CLI
03 读Hive数据
04 将结果写入Hive
05 读写MySQL数据
06 读写三种文件
0x74 DataFrame,三角之恋
01 DataFrame
02 生成数据框
03 合并与join
04 select操作
05 SQL操作
06 自定义UDF
07 三角之恋
0x75 神器之父,Scala入世
01 Spark与Scala
02 Scala REPL
03 编译Scala
04 sbt编译
05 示例分析
06 编译提交
0x76 机器之心,ML套路
01 城市套路深
02 算法与特征工程
03 管道工作流
04 OneHotEncoder示例
05 ML回归实战
06 特征处理与算法
07 拟合与评估
0x8 数据科学,全栈智慧
0x80 才高八斗,共分天下
0x81 自学数据,神蟒领舞
01 机器学习
02 语言领域
03 Python数据生态
04 相关资料
05 书籍推荐
06 性感的职业
0x82 数据科学,七大技能
01 七大技能
02 SQL与NoSQL技能
03 Linux工具集
04 Python或者R语言生态
05 Hadoop与Spark生态
06 概率、统计与线性代数
07 机器学习与深度学习
08 业务及杂项
09 结语
0x83 大无所大,生态框架
01 计算生态
02 离线计算
03 交互分析
04 实时处理
05 算法挖掘
06 发行版本
07 其他工具
0x84 集体智慧,失控哲学
01 数据是宝
02 一分为二
03 回归统一
04 聚少成多
05 你中有我
06 从小看大
07 大事化小
08 少即是多
0x85 一技之长,一生之用
01 一技之长
02 数据分析相关
03 Python相关
04 Hadoop相关
05 Spark相关
06 模型相关
07 算法相关
08 一生之用
0x86 知识作谱,数据为栈
01 知识作谱
02 理论基础
03 Python/R编程
04 分析与可视化
05 大数据
06 ETL与特征工程
07 机器学习与深度学习
08 工具与库
09 全栈为用
📜 SIMILAR VOLUMES
<p>《全栈技能修炼:使用Angular和SpringBoot打造全栈应用》涉及很多平台、框架和类库等,主要有前端使用的Angular,后端使用的Spring Boot框架、Spring Security安全框架,数据库涉及MongoDB、Elasticsearch和Redis。此外,还会学习函数式编程、响应式编程(RxJS)、Redux等理念,Swagger、JaVers等工具及Rest、WebSocket、微服务等概念。</p> <p>一本书是无法深入这些技术细节的,这也不是本书的目标。希望通过本书,可以帮助读者开启一扇门,真正掌握这些让人眼花缭乱的编程语言、框架、平台、IDE等技术背后