𝔖 Scriptorium
✦   LIBER   ✦

📁

数据挖掘原理

✍ Scribed by David Hand; Heikki Mannila; Padhraic Smyth


Publisher
机械工业出版社
Year
2003
Tongue
Chinese
Leaves
385
Series
计算机科学丛书
Category
Library

⬇  Acquire This Volume

No coin nor oath required. For personal study only.

✦ Synopsis


书签已装载,
书签制作方法请找 [email protected]
完全免费

很多学科都面临着一个普遍问题:如何存储、访问异常庞大的数据集,并用模型来描述和理解它们?这些问题使得人们对数据挖掘技术的兴趣不断增强。长期以来,很多相互独立的不同学科分别致力于数据挖掘的各个方面。本书把信息科学、计算科学和统计学在数据挖掘方面的应用融合在一起,是第一本真正和跨学科教材。
本书由三部分构成。第一部分是基础,介绍了数据挖掘算法及其应用所依赖的基本原理。讲座方法直观易懂,深入浅出。第二部分是数据挖掘算法,系统讲座了如何构建求解特定问题的不同算法。讲座的内容包括用于分类和回归的树及规则、关联规则、信念网络、传统统计模型,以及各种非线性模型,比如神经网络和“基于记忆”的局部模型。第三部分介绍了如何应用前面讲座的算法和原理来解决现实世界中的数据挖掘问题。谈到的问题包括元数据的作用,如何处理残缺数据,以及数据预处理。

✦ Table of Contents


封面
书名
版权
前言
目录
1.1 数据挖掘简介
目录出版者的话专家指导委员会名单译者序中文版序言前言第1章 绪论
1.2 数据集属性
1.3 结构类型:模型和模式
1.4 数据挖掘任务
1.5 数据挖掘算法的组件
1.5.1 评分函数
1.5.2 优化和搜索方法
1.5.3 数据管理策略
1.6 统计和数据挖掘的相互关系
1.7 数据挖掘:打捞、探查还是垂钓
1.8 本章归纳
1.9 补充读物
2.2 测量类型
第2章 测量和数据
2.1 简介
2.3 距离尺度
2.4 数据转化
2.5 数据形式
2.6 单个测量的数据质量
2.7 数据群体的数据质量
2.8 本章归纳
2.9 补充读物
第3章 可视化和探索数据
3.1 简介
3.2 总结数据:几个简单例子
3.3 显示单个变量的一些工具
3.4 显示两个变量间关系的工具
3.5 显示两个以上变量间关系的工具
3.6 主分量分析
3.7 多维缩放
3.8 补充读物
第4章 数据分析和不确定性
4.1 简介
4.2 处理不确定性
4.3 随机变量和它们的关系
4.4 样本和统计推理
4.5 估计
4.5.1 估计量的理想属性
4.5.2 最大似然估计
4.5.3 贝叶斯估计
4.6 假设检验
4.6.1 古典假设检验
4.6.2 数据挖掘中的假设检验
4.7 采样方法
4.8 本章归纳
4.9 补充读物
第5章 数据挖掘算法概览
5.1 简介
5.2 建立树分类器的CART算法
5.3 数据挖掘算法的化约主义观点
5.3.1 用于回归和分类的多层感知器
5.3.2 关联规则学习的APriori算法
5.3.3 检索文本的向量空间算法
5.4 讨论
5.5 补充读物
6.1 概述
第6章 模型和模式
6.2 建模基础
6.3 用于预测的模型结构
6.3.1 具有线性结构的回归模型
6.3.2 用于回归的局部分段模型结构
6.3.3 “基于记忆”的非参数局部模型
6.3.4 模型结构的随机部分
6.3.5 用于分类的预测模型
6.3.6 选择适当复杂度的模型
6.4 概率分布和密度函数模型
6.4.1 一般概念
6.4.2 混合模型
6.4.3 无序范畴型数据的联合分布
6.4.4 因式分解和高维空间中的独立性
6.5 维度效应
6.5.1 高维数据的变量选择
6.5.2 高维数据的变换
6.6 用于结构化数据的模型
6.7 模式结构
6.7.1 数据矩阵中的模式
6.7.2 字符串模式
6.8 参考读物
第7章 数据挖掘算法的评分函数
7.1 简介
7.2 对模式进行评价
7 3 预测性评分函数和描述性评分函数
7.3.1 评价预测模型的评分函数
7.3.2 评价描述模型的评分函数
7.4 评价不同复杂度的模型
7.4.1 模型比较的一般概念
7.4.2 再谈偏差-方差
7.4.3 惩罚复杂模型的评分函数
7.4.4 使用外部验证的评分函数
7.5 模型和模式的评价
7.6 鲁棒方法
7.7 补充读物
第8章 搜索和优化方法
8.1 简介
8.2 搜索模型或模式
8.2.1 搜索背景
8.2.2 数据挖掘中的状态空间搜索
8.2.3 简单贪婪搜索算法
8.2.4 系统搜索和搜索启示
8.2.5 分支定界法
8.3 参数优化方法
8.3.1 参数优化:背景
8.3.2 闭合形式解和线性代数方法
8.3.3 优化平滑函数的基于梯度方法
8.3.4 一元参数优化
8.3.5 多元参数优化
8.3.6 约束优化
8.4 存在残缺数据时的优化:EM算法
8.5 在线和单扫描算法
8.6 随机搜索和优化技术
8.7 补充读物
9.1 简介
第9章 描述建模
9.2 通过概率分布和密度描述数据
9.2.1 简介
9.2.2 用来估计概率分布和密度的评分函数
9.2.3 参数密度模型
9.2.4 混合分布和密度
9.2.5 混合模型的EM算法
9.2.6 非参数的密度估计
9.2.7 范畴型数据的联合分布
9.3 聚类分析背景
9.4 基于划分的聚类算法
9.4.1 基于划分聚类的评分函数
9.4.2 基于划分聚类的基本算法
9.5 层次聚类
9.5.1 凝聚方法
9.5.2 分裂方法
9.6 基于混合模型的概率聚类
9.7 补充读物
第10章 用于分类的预测建模
10.1 预测建模概览
10.2 分类建模简介
10.2.1 判别分类和决策边界
10.2.2 分类的概率模型
10.2.3 建立实际的分类器
10.3 感知器
10.4 线性判别式
10.5 树模型
10.6 最近邻方法
10.7 logistic判别式分析
10.8 朴素贝叶斯模型
10.9 其他方法
10.10 分类器的评估和比较
10.11 高维分类的特征选取
10.12 补充读物
第11章 用于回归的预测建模
11.1 简介
11.2 线性模型和最小二乘法拟合
11.2.1 拟合模型的计算问题
11.2.2 线性回归的概率解释
11.2.3 拟合后模型的解释
11.2.4 推理和泛化
11.2.5 模型搜索和建模
11.2.6 模型诊断和审查
11.3 推广的线性模型
11.4 人工神经网络
11.5 其他高度参数化的模型
11.5.1 推广的相加模型
11.5.2 投影追踪回归
11.6 补充读物
第12章 数据组织和数据库
12.1 简介
12.2 存储器层次
12.3 索引结构
12.3.1 B-树
12.3.2 哈希索引
12.5 关系数据库
12.4 多维索引
12.6 操纵表格
12.7 结构化查询语言
12.8 查询的执行和优化
12.9 数据仓库和在线分析处理
12.10 OLAP的数据结构
12.11 字符串数据库
12.12 海量数据集、数据管理和数据挖掘
12.12.1 把数据都放入主存储器
12.12.2 数据挖掘算法的可伸缩版本
12.12.3 考虑磁盘访问的有针对性算法
12.12.4 伪数据集和充分统计量
12.13 补充读物
13.1 简介
第13章 寻找模式和规则
13.2 规则表示
13.3 频繁项集和关联规则
13.3.1 简介
13.3.2 寻找频繁集和关联规则
13.4 推广
13.5 寻找序列中的片段
13.6 选择发现的模式和规则
13.6.1 简介
13.6.2 寻找模式的启发式搜索
13.6.3 有趣度标准
13.7 从局部模式到全局模型
13.8 预测规则归纳
13.9 补充读物
第14章 根据内容检索
14.1 简介
14.2 检索系统的评价
14.2.1 评价检索性能的困难之处
14.2.2 查准率对查全率
14.2.3 查准率和查全率的实践应用
14.3 文本检索
14.3.1 文本的表示
14.3.2 匹配查询和文档
14.3.3 隐含语义索引
14.3.4 文档和文本分类
14.4 对个人偏好建模
14.4.1 相关性反馈
14.4.2 自动推荐系统
14.5 图像检索
14.5.1 图像理解
14.5.2 图像表示
14.5.3 图像查询
14.5.4 图像恒定性
14.5.5 图像检索的推广
14.6 时间序列和序列检索
14.6.1 时间序列数据的全局模型
14.6.2 时间序列的结构和形状
14.7 本章归纳
14.8 补充读物
附录 随机变量
参考文献
索引


📜 SIMILAR VOLUMES


智能数据挖掘
✍ 于晓梅、王红 📂 Library 📅 2018 🏛 清华大学出版社 🌐 Chinese

本书全面总结了不确定数据环境下频繁模式挖掘领域的主要研究成果,从数据模型、问题定义、常用算法等方面系统介绍不确定频繁项集挖掘、不确定序列模式挖掘、不确定频繁子图模式挖掘、不确定高效用项集挖掘和不确定加权频繁项集挖掘技术。重点针对两类典型的不确定数据,即概率数据和容错数据,进行概率频繁模式挖掘和近似频繁模式挖掘的研究,并应用于传统中医药数据环境下,从主观不确定性和客观不确定性两个方面提出相应的解决方案,实现基于不确定数据的高效频繁模式挖掘,并通过实验验证了它们的有效性和实用性。 本书主要面向对数据挖掘和机器学习感兴趣的科研人员和学生,特别适合从事不确定数据挖掘、频繁模式挖掘和关联规则发现以及相关

金融数据挖掘
✍ 刘振亚; 李伟 📂 Library 📅 2016 🏛 中国经济出版社 🌐 Chinese
数据分析与数据挖掘
✍ 喻梅 于健 主编;王建荣 王庆节 副主编 📂 Library 📅 2018 🏛 清华大学出版社 🌐 Chinese

《数据分析与数据挖掘》主要介绍数据挖掘和数据分析的基本概念和方法,包括数据的基本属性和概念、数据预处理技术、数据立方体和OLAP技术、频繁模式挖掘、回归分析、分类、聚类、离群点分析。书中涉及到的模型和算法均给予了相应的实例。

数据挖掘算法原理与实现
✍ 王振武 📂 Library 📅 2015 🏛 清华大学大学出版社 🌐 Chinese

<p>王振武、徐慧编著的这本《数据挖掘算法原理与 实现》对数据挖掘的基本算法进行了系统的介绍,每 种算法不仅包括对算法基本原理的介绍,而且配有大 量的例题以及源代码,并且对源代码进行了分析,这 种理论和实践相结合的方式有助于读者较好地理解和 掌握抽象的数据挖掘算法。   全书共分11章,内容同时涵盖了数据预处理、关 联规则挖掘算法、分类算法和聚类算法,具体章节包 括绪论、数据预处理、关联规则挖掘、决策树分类算 法、贝叶斯分类算法、人工神经网络算法、支持向量 机、k-means聚类算法、k-中心点聚类算法、神经 网络聚类算法以及数据挖掘的发展等内容。   本书可作为高等院校数据挖掘课程的教材,也

大数据挖掘
✍ 赵志升、梁俊花、李静、刘洋 📂 Library 📅 2019 🏛 清华大学出版社 🌐 Chinese

本书详细介绍了大数据挖掘技术,全书分为3篇,共12章。第1篇为大数据分析基础,包括第1~4章,分别为大数据概述、大数据相关技术、数据预处理、R语言工具的使用。第2篇为大数据挖掘技术,包括第5~11章,分别为线性分类方法、分类方法、聚类分析、关联规则、预测方法与离群点诊断、时间序列分析、大数据挖掘可视化。第3篇为大数据挖掘案例,包括第12章,介绍了大数据挖掘应用案例。 本书既可作为高等学校计算机科学与技术、数据科学与大数据技术、统计学、数据分析等专业的高等教育教材,也可作为科研人员、从事大数据相关工作的技术人员的参考书。