机器学习: 实用案例解析
✍ Scribed by Drew Conway; John Myles White
- Publisher
- 机械工业出版社
- Year
- 2013
- Tongue
- Chinese
- Leaves
- 302
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
这本书为机器学习技术提供了一些非常棒的案例研究。它并不想成为一本关于机器学习的工具书或者理论书籍,它注重的是一个学习的过程,因而对于任何有一些编程背景和定量思维的人来说,它都是不错的选择。
——Max Shron OkCupid
机器学习是计算机科学和人工智能中非常重要的一个研究领域,近年来,机器学习不但在计算机科学的众多领域中大显身手,而且成为一些交叉学科的重要支撑技术。本书比较全面系统地介绍了机器学习的方法和技术,不仅详细阐述了许多经典的学习方法,还讨论了一些有生命力的新理论、新方法。
全书案例既有分类问题,也有回归问题;既包含监督学习,也涵盖无监督学习。本书讨论的案例从分类讲到回归,然后讨论了聚类、降维、最优化问题等。这些案例包括分类:垃圾邮件识别,排序:智能收件箱,回归模型:预测网页访问量,正则化:文本回归,最优化:密码破解,无监督学习:构建...
这本书为机器学习技术提供了一些非常棒的案例研究。它并不想成为一本关于机器学习的工具书或者理论书籍,它注重的是一个学习的过程,因而对于任何有一些编程背景和定量思维的人来说,它都是不错的选择。
——Max Shron OkCupid
机器学习是计算机科学和人工智能中非常重要的一个研究领域,近年来,机器学习不但在计算机科学的众多领域中大显身手,而且成为一些交叉学科的重要支撑技术。本书比较全面系统地介绍了机器学习的方法和技术,不仅详细阐述了许多经典的学习方法,还讨论了一些有生命力的新理论、新方法。
全书案例既有分类问题,也有回归问题;既包含监督学习,也涵盖无监督学习。本书讨论的案例从分类讲到回归,然后讨论了聚类、降维、最优化问题等。这些案例包括分类:垃圾邮件识别,排序:智能收件箱,回归模型:预测网页访问量,正则化:文本回归,最优化:密码破解,无监督学习:构建股票市场指数,空间相似度:用投票记录对美国参议员聚类,推荐系统:给用户推荐R语言包,社交网络分析:在Twitter上感兴趣的人,模型比较:给你的问题找到最佳算法。各章对原理的叙述力求概念清晰、表达准确,突出理论联系实际,富有启发性,易于理解。在探索这些案例的过程中用到的基本工具就是R统计编程语言。R语言非常适合用于机器学习的案例研究,因为它是一种用于数据分析的高水平、功能性脚本语言。
本书主要内容:
·开发一个朴素贝叶斯分类器,仅仅根据邮件的文本信息来判断这封邮件是否是垃圾邮件;
·使用线性回归来预测互联网排名前1000网站的PV;
·利用文本回归理解图书中词与词之间的关系;
·通过尝试破译一个简单的密码来学习优化技术;
·利用无监督学习构建股票市场指数,用于衡量整体市场行情的好坏;
·根据美国参议院的投票情况,从统计学的角度对美国参议员聚类;
·通过K近邻算法构建向用户推荐R语言包;
·利用Twitter数据来构建一个“你可能感兴趣的人”的推荐系统;
·模型比较:给你的问题找到最佳算法。
✦ Table of Contents
封面
封底
扉页
版权
O'Reilly Media, Inc.介绍
业界评论
译者序
作者介绍
译者介绍
封面介绍
推荐阅读
推荐阅读
目录
前言
致机器学习的黑客们
本书的组织结构
本书约定
示例代码的使用
联系我们
致谢
第1章 使用R语言
R与机器学习
下载和安装R
Windows
Mac OS X
Linux
集成开发环境和文本编辑器
安装和加载R程序包
机器学习中的R基础
加载程序包和数据
转换日期字符串及处理畸形数据
组织目击地点数据
处理非美国境内的数据
聚合并组织数据
分析数据
深入学习R的参考书目
第2章 数据分析
分析与验证
什么是数据
推断数据的类型
推断数据的含义
数值摘要表
均值、中位数、众数
分位数
标准差和方差
可视化分析数据
列相关的可视化
第3章 分类:垃圾过滤
非此即彼:二分类
漫谈条件概率
试写第一个贝叶斯垃圾分类器
定义分类器并用不易识别的正常邮件进行测试
用所有邮件类型测试分类器
效果改进
第4章 排序:智能收件箱
次序未知时该如何排序
按优先级给邮件排序
邮件优先级的特征
实现一个智能收件箱
用于抽取特征集合的函数
设计用于排序的权重计算策略
Log加权策略
邮件线程活跃度的权重计算
训练和测试排序算法
第5章 回归模型:预测网页访问量
回归模型简介
基准模型
使用虚拟变量的回归模型
线性回归简介
预测网页流量
定义相关性
第6章 正则化:文本回归
数据列之间的非线性关系:超越直线
多项式回归
避免过拟合的方法
使用正则化来避免过拟合
文本回归
逻辑回归来帮忙
第7章 优化:密码破译
优化简介
岭回归
密码破译优化问题
第8章 PCA:构建股票市场指数
无监督学习
主成分分析
第9章 MDS:可视化地研究参议员相似性
基于相似性聚类
距离度量与多维定标简介
如何对美国参议员做聚类
分析参议院记名投票数据
研究通过国会对参议员进行MDS聚类
第10章 kNN:推荐系统
k近邻算法
R语言程序包安装数据
第11章 分析社交图谱
社交网络分析
以图的方式进行思考
用黑客的方法研究Twitter的社交关系图数据
使用Google社交关系图API进行工作
分析Twitter社交网络
区域圈子结构
使用Gephi可视化Twitter聚类网络
机那里“感兴趣的人”引擎
第12章 模型比较
SVM:支持向量机
算法比较
参考文献
图书
论文
📜 SIMILAR VOLUMES
机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。 本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些
<p>机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。</p> <p>本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了
机器学习是当前解决很多人工智能问题的核心技术,深度学习的出现带来了自2012年以来的人工智能复兴。本书是机器学习和深度学习领域的入门与提高教材,系统、深入地讲述机器学习与深度学习的主流方法与理论,并紧密结合工程实践与应用。全书由21章组成,共分为三大部分。第1~3章为第一部分,介绍机器学习的基本原理、所需的数学知识(包括微积分、线性代数、概率论和最优化方法),以及机器学习中的核心概念。第4~20章为第二部分,是本书的主体,介绍各种常用的有监督学习算法、无监督学习算法、半监督学习算法和强化学习算法。对于每种算法,从原理与推导、工程实现和实际应用3个方面进行介绍,对于大多数算法,都配有实验程序。第