数据挖掘实用机器学习技术
✍ Scribed by Ian H.Witten; Eibe Frank
- Publisher
- 机械工业出版社
- Year
- 2006
- Tongue
- Chinese
- Leaves
- 384
- Series
- 计算机科学丛书
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
书签已装载,
书签制作方法请找 [email protected]
完全免费
《数据挖掘实用机器学习技术(原书第2版)》介绍数据挖掘的基本理论与实践方法。主要内容包括:各种模型(决策树、关联规则、线性模型、聚类、贝叶斯网以及神经网络)以及在实践中的运用,所存在缺陷的分析。安全地清理数据集、建立以及评估模型的预测质量的方法,并且提供了一个公开的数据挖掘工作平台Weka。Weka系统拥有进行数据挖掘任务的图形用户界面,有助于理解模型,是一个实用并且深受欢迎的工具。
海报:
✦ Table of Contents
封面
书名
版权
前言
目录
1.1 数据挖掘和机器学习
第一部分 机器学习工具与技术第1章 绪论
1.1.1 描述结构模式
1.1.2 机器学习
1.1.3 数据挖掘
1.2 简单的例子:天气问题和其他
1.2.1 天气问题
1.2.2 隐形眼镜:一个理想化的问题
1.2.4 CPU性能:介绍数值预测
1.2.3 鸢尾花:一个经典的数值型数据集
1.2.5 劳资协商:一个更真实的例子
1.2.6 大豆分类:一个经典的机器学习的成功例子
1.3 应用领域
1.3.1 决策包含评判
1.3.2 图像筛选
1.3.3 负载预测
1.3.4 诊断
1.3.5 市场和销售
1.3.6 其他应用
1.4 机器学习和统计学
1.5 用于搜索的概括
1.5.1 枚举概念空间
1.5.2 偏差
1.6 数据挖掘和道德
1.7 补充读物
2.1 概念
第2章 输入:概念、实例和属性
2.2 样本
2.3 属性
2.4 输入准备
2.4.1 数据收集
2.4.2 ARFF格式
2.4.3 稀疏数据
2.4.4 属性类型
2.4.5 残缺值
2.4.7 了解数据
2.4.6 不正确的值
2.5 补充读物
第3章 输出:知识表达
3.1 决策表
3.2 决策树
3.3 分类规则
3.4 关联规则
3.5 包含例外的规则
3.6 包含关系的规则
3.7 数值预测树
3.8 基于实例的表达
3.9 聚类
3.10 补充读物
第4章 算法:基本方法
4.1 推断基本规则
4.1.1 残缺值和数值属性
4.1.2 讨论
4.2 统计建模
4.2.1 残缺值和数值属性
4.2.2 用于文档分类的贝叶斯模型
4.2.3 讨论
4.3 分治法:创建决策树
4.3.1 计算信息量
4.3.2 高度分支属性
4.3.3 讨论
4.4 覆盖算法:建立规则
4.4.2 一个简单的覆盖算法
4.4.1 规则与树
4.4.3 规则与决策列
4.5 挖掘关联规则
4.5.1 项集
4.5.2 关联规则
4.5.3 有效地建立规则
4.5.4 讨论
4.6 线性模型
4.6.1 数值预测:线性回归
4.6.2 线性分类:Logistic回归
4.6.3 使用感知器的线性分类
4.6.4 使用Winnow的线性分类
4.7 基于实例的学习
4.7.1 距离函数
4.7.2 有效寻找最近邻
4.7.3 讨论
4.8 聚类
4.8.1 基于距离的迭代聚类
4.8.2 快速距离计算
4.9 补充读物
4.8.3 讨论
第5章 可信度:评估机器学习结果
5.1 训练和测试
5.2 预测性能
5.3 交叉验证
5.4 其他估计法
5.4.1 留一法
5.4.2 自引导法
5.5 数据挖掘方案比较
5.6 预测概率
5.6.1 二次损失函数
5.6.2 信息损失函数
5.6.3 讨论
5.7 计算成本
5.7.1 成本敏感分类
5.7.2 成本敏感学习
5.7.3 上升图
5.7.4 ROC曲线
5.7.5 反馈率-精确率曲线
5.7.6 讨论
5.7.7 成本曲线
5.8 评估数值预测
5.9 最短描述长度原理
5.10 聚类方法中应用MDL原理
5.11 补充读物
第6章 实现:真正的机器学习方案
6.1.1 数值属性
6.1 决策树
6.1.2 残缺值
6.1.3 修剪
6.1.4 估计误差率
6.1.5 决策树归纳的复杂度
6.1.6 从决策树到规则
6.1.7 C4.5:选择和选项
6.1.8 讨论
6.2.1 选择测试的标准
6.2 分类规则
6.2.2 残缺值,数值属性
6.2.3 生成好的规则
6.2.4 使用全局优化
6.2.5 从局部决策树中获得规则
6.2.6 包含例外的规则
6.2.7 讨论
6.3 扩展线性模型
6.3.1 最大边际超平面
6.3.2 非线性类边界
6.3.3 支持向量回归
6.3.4 核感知器
6.3.5 多层感知器
6.3.6 反向传播法
6.3.7 径向基函数网络
6.3.8 讨论
6.4.1 减少样本集数量
6.4.2 修剪干扰样本集
6.4 基于实例的学习
6.4.3 属性加权
6.4.4 推广样本集
6.4.5 用于推广样本集的距离函数
6.4.6 推广的距离函数
6.4.7 讨论
6.5 数值预测
6.5.1 模型树
6.5.2 建树
6.5.3 修剪树
6.5.5 残缺值
6.5.4 名词性属性
6.5.6 模型树归纳伪代码
6.5.7 从模型树到规则
6.5.8 局部加权线性回归
6.5.9 讨论
6.6 聚类
6.6.1 选择聚类的个数
6.6.2 递增聚类
6.6.3 类别效用
6.6.4 基于概率的聚类
6.6.5 EM算法
6.6.6 扩展混合模型
6.6.7 贝叶斯聚类
6.6.8 讨论
6.7 贝叶斯网络
6.7.1 做出预测
6.7.2 学习贝叶斯网络
6.7.3 算法细节
6.7.4 用于快速学习的数据结构
6.7.5 讨论
第7章 转换:处理输入和输出
7.1 属性选择
7.1.1 独立于方案的选择
7.1.2 搜索属性空间
7.1.3 特定方案选择
7.2 离散数值属性
7.2.1 无指导离散
7.2.2 基于熵的离散
7.2.3 其他离散方法
7.2.4 基于熵和基于误差的离散
7.2.5 离散属性转换成数值属性
7.3 一些有用的转换
7.3.1 主分量分析
7.3.2 随机投影
7.3.3 从文本到属性向量
7.4.1 改进决策树
7.4 自动数据清理
7.3.4 时间序列
7.4.2 稳健回归
7.4.3 侦察异情
7.5 组合多种模型
7.5.1 装袋
7.5.2 考虑成本的装袋
7.5.3 随机化
7.5.4 提升
7.5.5 叠加回归
7.5.6 叠加logistic回归
7.5.7 选择树
7.5.8 Logistic模型树
7.5.9 堆栈
7.5.10 误差纠正输出编码
7.6 使用没有类标的数据
7.6.1 用于分类的聚类
7.6.2 联合训练
7.6.3 EM和联合训练
7.7 补充读物
第8章 继续:扩展和应用
8.1 从大型的数据集里学习
8.2 融合领域知识
8.3 文本和网络挖掘
8.4 对抗情形
8.5 无处不在的数据挖掘
8.6 补充读物
9.1 Weka中包含了什么
第二部分 Weka机器学习平台第9章 Weka简介
9.2 如何使用Weka
9.3 Weka的其他应用
9.4 如何得到Weka
第10章 Explorer界面
10.1 开始着手
10.1.1 准备数据
10.1.2 将数据载入探索者
10.1.3 建立决策树
10.1.4 查看结果
10.1.5 重做一遍
10.1.6 运用模型
10.1.7 运行错误的处理
10.2 探索“探索者”
10.2.1 载入及过滤文件
10.2.2 训练和测试学习方案
10.2.3 自己动手:用户分类器
10.2.4 使用元学习器
10.2.5 聚类和关联规则
10.3 过滤算法
10.2.6 属性选择
10.2.7 可视化
10.3.1 无指导属性过滤器
10.3.2 无指导实例过滤器
10.3.3 有指导过滤器
10.4 学习算法
10.4.1 贝叶斯分类器
10.4.2 树
10.4.3 规则
10.4.4 函数
10.4.6 其他的杂项分类器
10.4.5 懒惰分类器
10.5 元学习算法
10.5.1 装袋和随机化
10.5.2 提升
10.5.3 合并分类器
10.5.5 优化性能
10.5.6 针对不同任务重新调整分类器
10.5.4 成本敏感学习
10.6 聚类算法
10.7 关联规则学习器
10.8 属性选择
10.8.1 属性子集评估器
10.8.2 单一属性评估器
10.8.3 搜索方法
第11章 Knowledge Flow界面
11.1 开始着手
11.2 知识流组件
11.3 配置及连接组件
11.4 递增学习
第12章 Experimenter界面
12.1 开始着手
12.1.1 运行一个实验
12.1.2 分析所得结果
12.2 简单设置
12.3 高级设置
12.4 分析面板
12.5 将运行负荷分布到多个机器上
第13章 命令行界面
13.1 开始着手
13.2 Weka的结构
13.2.1 类,实例和包
13.2.2 weka.core包
13.2.3 weka.classifiers包
13.2.4 其他包
13.3 命令行选项
13.3.1 通用选项
13.2.5 Javadoc索引
13.3.2 具体方案相关的选项
第14章 嵌入式机器学习
14.1 一个简单的数据挖掘程序
14.2 讲解代码
14.2.1 main()
14.2.2 MessageClassifier()
14.2.3 updateData()
14.2.4 classifyMessage()
15.1.1 buildClassifier()
15.1.2 makeTree()
第15章 编写新学习方案
15.1 一个分类器范例
15.1.3 computeInfoGain()
15.1.4 classifyInstance()
15.1.5 main()
15.2 与实现分类器有关的惯例
参考文献
索引
📜 SIMILAR VOLUMES
书签已装载, 书签制作方法请找 [email protected] 完全免费 大数据时代应用机器学习方法解决数据挖掘问题的实用指南。 洞察隐匿于大数据中的结构模式,有效指导数据挖掘实践和商业应用。 weka系统的主要开发者将丰富的研发、商业应用和教学实践的经验和技术融会贯通。 广泛覆盖在数据挖掘实践中采用的算法和机器学习技术,着眼于解决实际问题 避免过分要求理论基础和数学知识,重点在于告诉读者“如何去做”,同时包括许多算法、代码以及具体实例的实现。 将所有的概念都建立在具体实例的基础之上,促使读者首先考虑使用简单的技术。如果简单的技术不足以解决问题,再考虑提升到更为复杂的高
本书借助代表当今数据挖掘和机器学习最高水平的著名开源软件Weka,通过大量的实践操作,使读者了解并掌握数据挖掘和机器学习的相关技能,拉近理论与实践的距离。全书共分9章,主要内容包括Weka介绍、探索者界面、知识流界面、实验者界面、命令行界面、Weka高级应用、Weka API、学习方案源代码分析和机器学习实战。本书系统讲解Weka 3.7.13的操作、理论和应用,内容全面、实例丰富、可操作性强,做到理论与实践的统一。本书适合数据挖掘和机器学习相关人员作为技术参考书使用,也适合用作计算机专业高年级本科生和研究生的教材或教学参考用书。
本书较为全面地论述了机器学习、深度学习、大数据技术与图像处理技术的基本概念、基础原理和基本方法,以农业为应用场景,力求通缩易懂,深入浅出的介绍了与机器学习、深度学习、大数据技术与图像处理技术问题联系密切的内容。全书主要分为4大部分:机器学习、大数据技术和图像处理技术的基础知识;经典的机器学习基本理论和方法,以及深度学习和大数据未来的发展;实践应用;机器学习和人工智能的数学基础与编程基础。