<p>本书是机器学习入门书,以Python语言介绍。主要内容包括:机器学习的基本概念及其应用;实践中最常用的机器学习算法以及这些算法的优缺点;在机器学习中待处理数据的呈现方式的重要性,以及应重点关注数据的哪些方面;模型评估和调参的高级方法,重点讲解交叉验证和网格搜索;管道的概念;如何将前面各章的方法应用到文本数据上,还介绍了一些文本特有的处理方法。</p>
NLTK基础教程: 用NLTK和Python库构建机器学习应用
✍ Scribed by 哈登尼亚
- Publisher
- 人民邮电出版社
- Year
- 2017
- Tongue
- Chinese
- Leaves
- 172
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用。全书共分为10章。第1章对NLP进行了简单介绍。第2章、第3章和第4章主要介绍一些通用的预处理技术、专属于NLP领域的预处理技术以及命名实体识别技术等。第5章之后的内容侧重于介绍如何构建一些NLP应用,涉及文本分类、数据科学和数据处理、社交媒体挖掘和大规模文本挖掘等方面。
本书适合 NLP 和机器学习领域的爱好者、对文本处理感兴趣的读者、想要快速学习NLTK的zishenPython程序员以及机器学习领域的研究人员阅读。
✦ Table of Contents
封面
版权声明
内容提要
作者简介
审阅者简介
译者序
前⾔
⽬录
第1章 ⾃然语⾔处理简介
1.1 为什么要学习NLP
1.2 先从Python 开始吧
1.2.1 列表
1.2.2 自助功能
1.2.3 正则表达式
1.2.4 字典
1.2.5 编写函数
1.3 向NLTK 迈进
1.4 练习
1.5 小结
第2章 ⽂本的歧义及其清理
2.1 何谓文本歧义
2.2 文本清理
2.3 语句分离器
2.4 标识化处理
2.5 词干提取
2.6 词形还原
2.7 停用词移除
2.8 罕见词移除
2.9 拼写纠错
2.10 练习
2.11 小结
第3章 词性标注
3.1 何谓词性标注
3.1.1 Stanford标注器
3.1.2 深入了解标注器
3.1.3 顺序性标注器
3.1.4 Brill标注器
3.1.5 基于机器学习的标注器
3.2 命名实体识别(NER)
NER标注器
3.3 练习
3.4 小结
第4章 ⽂本结构解析
4.1 浅解析与深解析
4.2 两种解析方法
4.3 为什么需要进行解析
4.4 不同的解析器类型
4.4.1 递归下降解析器
4.4.2 移位-归约解析器
4.4.3 图表解析器
4.4.4 正则表达式解析器
4.5 依存性文本解析
4.6 语块分解
4.7 信息提取
4.7.1 命名实体识别(NER)
4.7.2 关系提取
4.8 小结
第5章 NLP应⽤
5.1 构建第一个NLP 应用
5.2 其他NLP 应用
5.2.1 机器翻译
5.2.2 统计型机器翻译
5.2.3 信息检索
5.2.4 语音识别
5.2.5 文本分类
5.2.6 信息提取
5.2.7 问答系统
5.2.8 对话系统
5.2.9 词义消歧
5.2.10 主题建模
5.2.11 语言检测
5.2.12 光符识别
5.3 小结
第6章 ⽂本分类
6.1 机器学习
6.2 文本分类
6.3 取样操作
6.3.1 朴素贝叶斯法
6.3.2 决策树
6.3.3 随机梯度下降法
6.3.4 逻辑回归
6.3.5 支持向量机
6.4 随机森林算法
6.5 文本聚类
K均值法
6.6 文本中的主题建模
安装gensim
6.7 参考资料
6.8 小结
第7章 Web爬⾍
7.1 Web 爬虫
7.2 编写第一个爬虫程序
7.3 Scrapy 库中的数据流
7.3.1 Scrapy 库的shell
7.3.2 目标项
7.4 生成网站地图的蜘蛛程序
7.5 目标项管道
7.6 参考资料
7.7 小结
第8章 NLTK 与其他Python库的搭配运⽤
8.1 NumPy
8.1.1 多维数组
8.1.2 基本运算
8.1.3 从数组中提取数据
8.1.4 复杂矩阵运算
8.2 SciPy
8.2.1 线性代数
8.2.2 特征值与特征向量
8.2.3 稀疏矩阵
8.2.4 优化措施
8.3 pandas
8.3.1 读取数据
8.3.2 数列
8.3.3 列转换
8.3.4 噪声数据
8.4 matplotlib
8.4.1 子图绘制
8.4.2 添加坐标轴
8.4.3 散点图绘制
8.4.4 条形图绘制
8.4.5 3D绘图
8.5 参考资料
8.6 小结
第9章 Python中的社交媒体挖掘
9.1 数据收集
Twitter
9.2 数据提取
热门话题
9.3 地理可视化
9.3.1 影响力检测
9.3.2 Facebook
9.3.3 有影响力的朋友
9.4 小结
第10章 ⼤规模⽂本挖掘
10.1 在Hadoop 上使用Python 的不同方式
10.1.1 Python的流操作
10.1.2 Hive/Pig 下的UDF
10.1.3 流封装器
10.2 Hadoop 上的NLTK
10.2.1 用户定义函数(UDF)
10.2.2 Python的流操作
10.3 Hadoop 上的Scikit-learn
10.4 PySpark
10.5 小结
欢迎来到异步社区!
封底
📜 SIMILAR VOLUMES
<p>本书是机器学习入门书,以Python语言介绍。主要内容包括:机器学习的基本概念及其应用;实践中最常用的机器学习算法以及这些算法的优缺点;在机器学习中待处理数据的呈现方式的重要性,以及应重点关注数据的哪些方面;模型评估和调参的高级方法,重点讲解交叉验证和网格搜索;管道的概念;如何将前面各章的方法应用到文本数据上,还介绍了一些文本特有的处理方法。</p>
机器学习是当前解决很多人工智能问题的核心技术,深度学习的出现带来了自2012年以来的人工智能复兴。本书是机器学习和深度学习领域的入门与提高教材,系统、深入地讲述机器学习与深度学习的主流方法与理论,并紧密结合工程实践与应用。全书由21章组成,共分为三大部分。第1~3章为第一部分,介绍机器学习的基本原理、所需的数学知识(包括微积分、线性代数、概率论和最优化方法),以及机器学习中的核心概念。第4~20章为第二部分,是本书的主体,介绍各种常用的有监督学习算法、无监督学习算法、半监督学习算法和强化学习算法。对于每种算法,从原理与推导、工程实现和实际应用3个方面进行介绍,对于大多数算法,都配有实验程序。第