机器学习: Python实践
✍ Scribed by 魏贞原
- Publisher
- 电子工业出版社
- Year
- 2018
- Tongue
- Chinese
- Leaves
- 229
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
本书系统地讲解了机器学习的基本知识,以及在实际项目中使用机器学习的基本步骤和方法;详细地介绍了在进行数据处理、分析时怎样选择合适的算法,以及建立模型并优化等方法,通过不同的例子展示了机器学习在具体项目中的应用和实践经验,是一本非常好的机器学习入门和实践的书籍。不同于很多讲解机器学习的书籍,本书以实践为导向,使用 scikit-learn 作为编程框架,强调简单、快速地建立模型,解决实际项目问题。读者通过对本书的学习,可以迅速上手实践机器学习,并利用机器学习解决实际问题。本书非常适合于项目经理、有意从事机器学习开发的程序员,以及高校相关专业在的读学生阅读。
✦ Table of Contents
扉页
版权页
序言
前言
目录
第一部分 初始
1 初识机器学习
1.1 学习机器学习的误区
1.2 什么是机器学习
1.3 Python中的机器学习
1.4 学习机器学习的原则
1.5 学习机器学习的技巧
1.6 这本书不涵盖以下内容
1.7 代码说明
1.8 总结
2 Python机器学习的生态圈
2.1 Python
2.2 SciPy
2.3 scikit-learn
2.4 环境安装
2.4.1 安装Python
2.4.2 安装SciPy
2.4.3 安装scikit-learn
2.4.4 更加便捷的安装方式
2.5 总结
3 第一个机器学习项目
3.1 机器学习中的Hello World项目
3.2 导入数据
3.2.1 导入类库
3.2.2 导入数据集
3.3 概述数据
3.3.1 数据维度
3.3.2 查看数据自身
3.3.3 统计描述数据
3.3.4 数据分类分布
3.4 数据可视化
3.4.1 单变量图表
3.4.2 多变量图表
3.5 评估算法
3.5.1 分离出评估数据集
3.5.2 评估模式
3.5.3 创建模型
3.5.4 选择最优模型
3.6 实施预测
3.7 总结
4 Python和SciPy速成
4.1 Python速成
4.1.1 基本数据类型和赋值运算
4.1.2 控制语句
4.1.3 复杂数据类型
4.1.4 函数
4.1.5 with语句
4.2 NumPy速成
4.2.1 创建数组
4.2.2 访问数据
4.2.3 算数运算
4.3 Matplotlib速成
4.3.1 绘制线条图
4.3.2 散点图
4.4 Pandas速成
4.4.1 Series
4.4.2 DataFrame
4.5 总结
第二部分 数据理解
5 数据导入
5.1 CSV文件
5.1.1 文件头
5.1.2 文件中的注释
5.1.3 分隔符
5.1.4 引号
5.2 Pima Indians数据集
5.3 采用标准Python类库导入数据
5.4 采用NumPy导入数据
5.5 采用Pandas导入数据
5.6 总结
6 数据理解
6.1 简单地查看数据
6.2 数据的维度
6.3 数据属性和类型
6.4 描述性统计
6.5 数据分组分布(适用于分类算法)
6.6 数据属性的相关性
6.7 数据的分布分析
6.8 总结
7 数据可视化
7.1 单一图表
7.1.1 直方图
7.1.2 密度图
7.1.3 箱线图
7.2 多重图表
7.2.1 相关矩阵图
7.2.2 散点矩阵图
7.3 总结
第三部分 数据准备
8 数据预处理
8.1 为什么需要数据预处理
8.2 格式化数据
8.3 调整数据尺度
8.4 正态化数据
8.5 标准化数据
8.6 二值数据
8.7 总结
9 数据特征选定
9.1 特征选定
9.2 单变量特征选定
9.3 递归特征消除
9.4 主要成分分析
9.5 特征重要性
9.6 总结
第四部分 选择模型
10 评估算法
10.1 评估算法的方法
10.2 分离训练数据集和评估数据集
10.3 K折交叉验证分离
10.4 弃一交叉验证分离
10.5 重复随机分离评估数据集与训练数据集
10.6 总结
11 算法评估矩阵
11.1 算法评估矩阵
11.2 分类算法矩阵
11.2.1 分类准确度
11.2.2 对数损失函数
11.2.3 AUC图
11.2.4 混淆矩阵
11.2.5 分类报告
11.3 回归算法矩阵
11.3.1 平均绝对误差
11.3.2 均方误差
11.3.3 决定系数(R2)
11.4 总结
12 审查分类算法
12.1 算法审查
12.2 算法概述
12.3 线性算法
12.3.1 逻辑回归
12.3.2 线性判别分析
12.4 非线性算法
12.4.1 K近邻算法
12.4.2 贝叶斯分类器
12.4.3 分类与回归树
12.4.4 支持向量机
12.5 总结
13 审查回归算法
13.1 算法概述
13.2 线性算法
13.2.1 线性回归算法
13.2.2 岭回归算法
13.2.3 套索回归算法
13.2.4 弹性网络回归算法
13.3 非线性算法
13.3.1 K近邻算法
13.3.2 分类与回归树
13.3.3 支持向量机
13.4 总结
14 算法比较
14.1 选择最佳的机器学习算法
14.2 机器学习算法的比较
14.3 总结
15 自动流程
15.1 机器学习的自动流程
15.2 数据准备和生成模型的Pipeline
15.3 特征选择和生成模型的Pipeline
15.4 总结
第五部分 优化模型
16 集成算法
16.1 集成的方法
16.2 装袋算法
16.2.1 装袋决策树
16.2.2 随机森林
16.2.3 极端随机树
16.3 提升算法
16.3.1 AdaBoost
16.3.2 随机梯度提升
16.4 投票算法
16.5 总结
17 算法调参
17.1 机器学习算法调参
17.2 网格搜索优化参数
17.3 随机搜索优化参数
17.4 总结
第六部分 结果部署
18 持久化加载模型
18.1 通过pickle序列化和反序列化机器学习的模型
18.2 通过joblib序列化和反序列化机器学习的模型
18.3 生成模型的技巧
18.4 总结
第七部分 项目实践
19 预测模型项目模板
19.1 在项目中实践机器学习
19.2 机器学习项目的Python模板
19.3 各步骤的详细说明
步骤1:定义问题
步骤2:理解数据
步骤3:数据准备
步骤4:评估算法
步骤5:优化模型
步骤6:结果部署
19.4 使用模板的小技巧
19.5 总结
20 回归项目实例
20.1 定义问题
20.2 导入数据
20.3 理解数据
20.4 数据可视化
20.4.1 单一特征图表
20.4.2 多重数据图表
20.4.3 思路总结
20.5 分离评估数据集
20.6 评估算法
20.6.1 评估算法——原始数据
20.6.2 评估算法——正态化数据
20.7 调参改善算法
20.8 集成算法
20.9 集成算法调参
20.10 确定最终模型
20.11 总结
21 二分类实例
21.1 问题定义
21.2 导入数据
21.3 分析数据
21.3.1 描述性统计
21.3.2 数据可视化
21.4 分离评估数据集
21.5 评估算法
21.6 算法调参
21.6.1 K近邻算法调参
21.6.2 支持向量机调参
21.7 集成算法
21.8 确定最终模型
21.9 总结
22 文本分类实例
22.1 问题定义
22.2 导入数据
22.3 文本特征提取
22.4 评估算法
22.5 算法调参
22.5.1 逻辑回归调参
22.5.2 朴素贝叶斯分类器调参
22.6 集成算法
22.7 集成算法调参
22.8 确定最终模型
22.9 总结
附录A
A.1 IDE PyCharm介绍
A.2 Python文档
A.3 SciPy、NumPy、Matplotlib和Pandas文档
A.4 树模型可视化
A.5 scikit-learn的算法选择路径
A.6 聚类分析
📜 SIMILAR VOLUMES
这本书通过数学解释和编程例子描述了机器学习的概念。每一章的内容都是从技术的基本原理和基于真实数据集工作实例开始的。在应用算法的指导下,每种技术都有各自的优点和缺点。本书提供了python中的代码示例。Python现在已经被全世界所接受。首先,它是免费、开源的。
《Python+TensorFlow机器学习实战》通过开发实例和项目案例,详细介绍TensorFlow开发所涉及的主要内容。书中的每个知识点都通过实例进行通俗易懂的讲解,便于读者轻松掌握有关TensorFlow开发的内容和技巧,并能够得心应手地使用TensorFlow进行开发。 《Python+TensorFlow机器学习实战》内容共分为11章,首先介绍TensorFlow的基本知识,通过实例逐步深入地讲解线性回归、支持向量机、神经网络算法和无监督学习等常见的机器学习算法模型。然后通过TensorFlow在自然语言文本处理、语音识别、图形识别和人脸识别等方面的成功应用讲解TensorFlow的
本书是为大学本科、研究生学习参考材料,以讲原理、完全开放源代码、使用公开数据集、实验效果演示为特色。既适合本科生、研究生教学使用,也适合自学。 为了配合教师教学及同学们自学,本书提供了配套教学的ppt和所有章节的源代码。
机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。 本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些