<p>1、适合对自然语言处理及机器学习应用领域有兴趣的读者。 2、适合对现代搜索引擎相关算法有兴趣的读者。 3、适合对大数据分析、数据挖掘应用有兴趣的读者。 4、适合互联网行业的不同层次从业者。 5、适合从事搜索引擎优化的网络营销读者。 6、适合高校中学习计算机、软件工程等相关专业的读者。</p> <p>本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式进行组织。着重介绍了机器学习在搜索引擎中的应用,包括中文分词、聚类、分类等核心的机器学习算法,并结合示例加以介绍和分析,使读者可以更好地理解机器学习在搜索引擎中的
Elasticsearch大数据搜索引擎
✍ Scribed by 罗刚
- Publisher
- 电子工业出版社
- Year
- 2018
- Tongue
- Chinese
- Leaves
- 228
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
Elasticsearch搜索集群系统在生产和生活中发挥着越来越重要的作用。本书介绍了Elasticsearch的使用、原理、系统优化与扩展应用。本书用例子说明了Java、Python、Scala和PHP的编程API,其中在Java搜索界面实现上,介绍了使用Spring实现微服务开发。为了扩展Elasticsearch的功能,本书以中文分词和英文文本分析为例介绍了插件开发方法。本书介绍了使用Elasticsearch作为数据管理平台的日志监控与分析方法,介绍了使用OCR从图像中提取文本以及问答式搜索的开发方法。
✦ Table of Contents
扉页
版权
前言
目录
第1章 使用Elasticsearch
1.1 基本概念
1.2 安装
1.3 搜索集群
1.4 创建索引
1.5 使用Java客户端接口
1.5.1 创建索引
1.5.2 增加、删除与修改数据
1.5.3 分析器
1.5.4 数据导入
1.5.5 通过摄取快速导入数据
1.5.6 索引库结构
1.5.7 查询
1.5.8 区间查询
1.5.9 排序
1.5.10 分布式搜索
1.5.11 过滤器
1.5.12 高亮显示
1.5.13 分页
1.5.14 通过聚合实现分组查询
1.5.15 文本列的聚合
1.5.16 遍历数据
1.5.17 索引文档
1.5.18 Percolate
1.6 RESTClient
1.6.1 使用摄取
1.6.2 代码实现摄取
1.7 使用Jest
1.8 Python客户端
1.9 Scala客户端
1.10 PHP客户端
1.11 SQL支持
1.12 本章小结
第2章 开发插件
2.1 搜索中文
2.1.1 中文分词原理
2.1.2 中文分词插件原理
2.1.3 开发中文分词插件
2.1.4 中文AnalyzerProvider
2.1.5 字词混合索引
2.2 搜索英文
2.2.1 句子切分
2.2.2 标注词性
2.3 使用测试套件
2.4 本章小结
第3章 管理搜索集群
3.1 节点类型
3.2 管理集群
3.3 写入权限控制
3.4 使用X-Pack
3.5 快照
3.6 Zen发现机制
3.7 联合搜索
3.8 缓存
3.9 本章小结
第4章 源码分析
4.1 Lucene源码分析
4.1.1 Ivy管理依赖项
4.1.2 源码结构介绍
4.2 Gradle
4.3 Guice
4.4 Joda-Time
4.5 Transport
4.6 线程池
4.7 模块
4.8 Netty
4.9 分布式
4.10 本章小结
第5章 搜索相关性
5.1 BM25检索模型
5.1.1 使用BM25检索模型
5.1.2 参数调优
5.2 学习评分
5.2.1 基本原理
5.2.2 准备数据
5.2.3 Elasticsearch学习排名
5.3 本章小结
第6章 搜索引擎用户界面
6.1 JSP实现搜索界面
6.1.1 用于显示搜索结果的自定义标签
6.1.2 使用Listlib
6.1.3 实现翻页
6.2 使用Spring实现的搜索界面
6.2.1 实现REST搜索界面
6.2.2 REST API中的HTTP PUT
6.2.3 Spring-data-elasticsearch
6.2.4 Spring HATEOAS
6.3 实现搜索接口
6.3.1 编码识别
6.3.2 布尔搜索
6.3.3 搜索结果排序
6.4 实现相似文档搜索
6.5 实现AJAX搜索联想词
6.5.1 估计查询词的文档频率
6.5.2 搜索联想词总体结构
6.5.3 服务器端处理
6.5.4 浏览器端处理
6.5.5 拼音提示
6.5.6 部署总结
6.5.7 Suggester
6.6 推荐搜索词
6.6.1 挖掘相关搜索词
6.6.2 使用多线程计算相关搜索词
6.7 查询意图理解
6.7.1 拼音搜索
6.7.2 无结果处理
6.8 集成其他功能
6.8.1 拼写检查
6.8.2 分类统计
6.8.3 相关搜索
6.8.4 再次查找
6.8.5 搜索日志
6.9 查询分析
6.9.1 历史搜索词记录
6.9.2 日志信息过滤
6.9.3 信息统计
6.9.4 挖掘日志信息
6.9.5 查询词意图分析
6.10 部署网站
6.10.1 部署到Web服务器
6.10.2 防止攻击
6.11 本章小结
第7章 OCR文字识别
7.1 Tesseract
7.2 使用TensorFlow识别文字
7.3 OpenCV
7.3.1 预处理
7.3.2 文字区域提取
7.3.3 纠正偏斜
7.3.4 Linux环境支持
7.4 JavaCV
7.5 本章小结
第8章 问答式搜索
8.1 生成表示语义的代码
8.2 信息整合
8.2.1 实体对齐
8.2.2 编辑距离
8.2.3 Jaro-Winkler距离
8.2.4 比较器
8.2.5 Cleaner
8.2.6 运行过程
8.2.7 遗传算法调整参数
8.3 自动问答
8.3.1 问句处理器
8.3.2 自动发现答案
8.4 本章小结
第9章 Elastic系统监控
9.1 Logstash
9.1.1 使用Logstash
9.1.2 插件
9.1.3 数据库输入插件
9.2 Filebeat
9.3 消息过期
9.4 Kibana
9.5 Flume
9.6 Kafka
9.7 Graylog
9.8 物联网数据
9.9 本章小结
反侵权盗版声明
📜 SIMILAR VOLUMES
书签已装载, 书签制作方法请找 [email protected] 完全免费 《21世纪高等学校精品教材•搜索引擎与信息检索教程》从教学的角度出发,全面阐述了搜索引擎技术和信息检索技术,包括:搜索引擎的基本原理与技术、搜索引擎的数据结构和搜索引擎的爬虫、信息获取与信息检索技术、分类与聚类技术以及Web信息检索技术。随着搜索引擎技术的发展和不断完善,越来越多的人开始对搜索引擎原理和技术进行研究,越来越多的人喜欢上了搜索引擎。《21世纪高等学校精品教材•搜索引擎与信息检索教程》适合高等院校计算机科学与技术专业以及相关专业的高年级学生和研究生阅读参考,也适合相关领域的工程技术人员
<p>《走进搜索引擎(第2版)》由搜索引擎开发研究领域三位年轻的博士生精心编写,作者们希望将自己对搜索引擎的理解和实际应用相结合,让未接触过搜索引擎原理和方法的读者也能轻松读懂该书的大部分内容。</p> <p>《走进搜索引擎(第2版)》在第1版的基础上,删除了搜索引擎历史等章节,并对错误和不足进行了修订和补充,同时增加了潘雪峰编写的第6章“搜索引擎日志分析”,花贵春编写的第7章“排序学习(LearningtoRank)”和梁斌编写的第8章“搜索引擎的性能调优”三个主要章节,变更的内容约占第1版的一半。</p>