Elasticsearch搜索集群系统在生产和生活中发挥着越来越重要的作用。本书介绍了Elasticsearch的使用、原理、系统优化与扩展应用。本书用例子说明了Java、Python、Scala和PHP的编程API,其中在Java搜索界面实现上,介绍了使用Spring实现微服务开发。为了扩展Elasticsearch的功能,本书以中文分词和英文文本分析为例介绍了插件开发方法。本书介绍了使用Elasticsearch作为数据管理平台的日志监控与分析方法,介绍了使用OCR从图像中提取文本以及问答式搜索的开发方法。
大数据搜索引擎原理分析及编程实现
✍ Scribed by 刘凡平
- Publisher
- 电子工业出版社
- Year
- 2016
- Tongue
- Chinese
- Leaves
- 329
- Category
- Library
No coin nor oath required. For personal study only.
✦ Synopsis
1、适合对自然语言处理及机器学习应用领域有兴趣的读者。 2、适合对现代搜索引擎相关算法有兴趣的读者。 3、适合对大数据分析、数据挖掘应用有兴趣的读者。 4、适合互联网行业的不同层次从业者。 5、适合从事搜索引擎优化的网络营销读者。 6、适合高校中学习计算机、软件工程等相关专业的读者。
本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式进行组织。着重介绍了机器学习在搜索引擎中的应用,包括中文分词、聚类、分类等核心的机器学习算法,并结合示例加以介绍和分析,使读者可以更好地理解机器学习在搜索引擎中的价值。还阐述了大数据给搜索引擎带来的新特性,结合目前大数据分析的主流工具,在搜索引擎中构建知识图谱,以及进行日志反馈学习机制,使得搜索引擎更加智能。本书适合作为互联网行业从业者的技术参考书,也适合作为搜索引擎爱好者的参考读物。
✦ Table of Contents
扉页
版权页
前言
目录
第1章 引 论
1.1 搜索引擎的过去
1.2 搜索引擎的现在
1.3 搜索引擎的未来
1.4 大数据与搜索引擎
1.4.1 搜索价值提升
1.4.2 用户价值提升
1.5 大数据与人工智能
1.5.1 人工智能发展
1.5.2 人工智能技术
1.6 本章小结
第2章 搜索引擎原理与技术
2.1 基本工作原理
2.2 基本模块结构
2.2.1 爬虫服务
2.2.2 索引服务
2.2.3 缓存服务
2.2.4 搜索服务
2.2.5 日志服务
2.3 技术概要
2.3.1 自然语言处理
2.3.2 知识图谱技术
2.3.3 海量数据存储
2.3.4 分布式计算
2.3.5 搜索排序技术
2.4 本章小结
第3章 自然语言处理框架
3.1 英文分词
3.2 中文分词
3.2.1 中文分词概述
3.2.2 基于词库的分词技术
3.2.3 基于条件随机场的中文分词
3.2.4 分词粒度
3.3 词性标注
3.3.1 隐马尔科夫模型概要
3.3.2 隐马尔科夫模型与词性标注
3.4 语义相似度
3.5 依存句法分析
3.5.1 依存句法分析概要
3.5.2 依存句法分析实现
3.6 情感倾向分析
3.7 文档关键词抽取
3.7.1 关键词抽取概述
3.7.2 基于TF-IDF算法
3.7.3 基于TextRank算法
3.8 文档句子相似度分析
3.8.1 句子相似度
3.8.2 文档相似度
3.9 文档核心句抽取
3.10 聚类分类
3.10.1 文本分类
3.10.2 文本聚类
3.11 语种检测
3.12 本章小结
第4章 构建大数据存储引擎
4.1 架构体系
4.1.1 结构概要
4.1.2 服务器上线
4.1.3 服务器下线
4.1.4 数据读取
4.2 数据模型
4.3 数据压缩
4.4 负载均衡
4.5 数据存储逻辑视图
4.6 本章小结
第5章 构建分布式实时计算
5.1 概述
5.2 设计架构
5.2.1 设计思想
5.2.2 基本框架
5.3 运行模式
5.4 负载均衡
5.5 通信设计
5.5.1 基本方式
5.5.2 分布式远程服务调用
5.6 容灾恢复
5.7 数据容错原理
5.8 数据处理设计示例
5.9 本章小结
第6章 分布式可扩展爬虫
6.1 爬虫体系架构
6.1.1 主从分布式结构爬虫
6.1.2 对等分布式结构爬虫
6.1.3 基于分布式计算平台爬虫
6.2 网页解析
6.2.1 状态码处理
6.2.2 链接去重
6.2.3 广告识别
6.2.4 网站地图
6.2.5 非网页数据获取
6.2.6 网页去重
6.2.7 链接提取
6.2.8 爬虫协议
6.3 网页结构化
6.3.1 网页的编码信息
6.3.2 网页的正文信息
6.3.3 网站的关键词信息
6.3.4 网站的标题
6.3.5 网页的发布时间
6.3.6 网站的语言检测
6.3.7 其他结构化数据
6.4 网页抓取策略
6.5 爬虫权限应对
6.6 深网抓取
6.7 抓取更新策略
6.8 本章小结
第7章 大数据构建知识图谱
7.1 概述
7.2 搜索引擎与知识图谱
7.3 可靠数据源选择
7.4 实体抽取
7.5 关系抽取
7.5.1 关系抽取概述
7.5.2 隐藏关系抽取
7.5.3 结构化确定关系抽取
7.5.4 非结构化确定关系抽取
7.6 知识图谱检测
7.6.1 实体关系修正
7.6.2 实体对齐整合
7.6.3 实体歧义分析
7.7 知识推理与计算
7.7.1 知识推理
7.7.2 知识计算
7.8 知识聚类
7.9 智能搜索实现
7.9.1 模式匹配
7.9.2 知识拆解
7.9.3 合并求解
7.10 智能搜索扩展
7.10.1 常识性智能搜索
7.10.2 实时信息智能搜索
7.10.3 可交互式智能搜索
7.11 本章小结
第8章 索引构建机制
8.1 倒排索引
8.1.1 倒排索引概述
8.1.2 索引结构
8.1.3 构建过程
8.1.4 排序规则
8.1.5 索引压缩
8.1.6 更新策略
8.2 分布式存储
8.2.1 存储划分方式
8.2.2 存储平衡策略
8.3 存储索引
8.3.1 二叉搜索树
8.3.2 B树
8.3.3 B+树
8.3.4 B+树与文件索引
8.4 字典树索引
8.4.1 字典树索引概述
8.4.2 字典树索引构建
8.4.3 字典树查询优化
8.5 本章小结
第9章 搜索服务构建
9.1 概述
9.1.1 体系结构
9.1.2 七何分析法
9.1.3 搜索语法
9.1.4 相关性排序
9.1.5 不安全信息过滤
9.2 大数据分布式缓存
9.2.1 缓存结构设计
9.2.2 缓存更新策略
9.3 文本纠错算法
9.3.1 中文文本纠错
9.3.2 英文文本纠错
9.4 结果显示算法
9.4.1 动态摘要
9.4.2 关键词高亮算法
9.4.3 网页快照
9.5 搜索智能提示
9.6 网页排序
9.6.1 基于PageRank的网页重要性评价
9.6.2 基于Hits算法的网页权威性评价
9.6.3 Hilltop算法
9.6.4 网页作弊评价
9.6.5 网页排序调试
9.7 个性化搜索
9.7.1 个性化搜索示例
9.7.2 人工神经网络与个性化搜索
9.7.3 地理位置搜索
9.8 图片搜索
9.8.1 基于内容的图片搜索
9.8.2 基于文本的图片搜索
9.9 搜索与广告
9.9.1 广告投放策略
9.9.2 基于User-Based协同过滤的广告投放
9.9.3 基于Item-Based协调过滤的广告投放
9.9.4 基于混合模式的广告投放
9.9.5 广告投放评价
9.10 搜索引擎评价
9.10.1 搜索评价概述
9.10.2 基于准确率、召回率及F值评价
9.10.3 归一化折扣累计增益
9.11 本章小结
第10章 基于用户日志的反馈学习
10.1 基于用户搜索词语的分析
10.1.1 发现搜索词的价值
10.1.2 发现不明意图下的用户行为
10.2 基于用户点击日志的分析
10.2.1 时间与搜索意图的关系
10.2.2 地理位置与搜索意图的关系
10.2.3 点击日志与同义词
10.2.4 点击日志与词语权重
10.2.5 点击日志与新词分类
10.2.6 点击日志与知识图谱
10.2.7 点击日志与网页重排序
10.2.8 点击日志与网页评价
10.3 基于用户的特征分析
10.3.1 用户跟踪
10.3.2 用户群体特征
10.3.3 用户个体特征
10.4 本章小结
📜 SIMILAR VOLUMES
<p>在大数据时代,R以其强大的数据分析挖掘、可视化绘图等功能,越来越受到社会各个领域的青睐。现在,R的计算引擎、性能、程序包都得到了提升,其中R与大数据分析平台Hadoop的结合,实现了R对大数据的分析式处理分析。这些不仅大大扩展了R的应用,也扩大了R在各行业的需求。</p> <p>为了更好地适应新形势,掌握大数据分析处理的相关知识是很有必要的。本书从理论基础、方法、实证三方面详细地阐释了R和RHadoop的相关理论、技术以及应用,使读者了解大数据的基础概念,掌握R以及Rhadoop大数据分析技术。本书不仅适合高等院校的各相关专业的本专科生、研究生,也适合零编程基础的科研人员以及对大数据分
本书是《数据库原理及应用》(黄雪华等编著,清华大学出版社出版)的配套实验教材。全书包括两部分内容: 第1部分为SQL Server 2008 R2数据库管理系统的管理与维护;第2部分为Oracle 11g数据库管理系统的管理与维护。每个部分均包含两章内容:前一章详细介绍所使用的软件的安装;后一章提供了操作详细的10个实验,分别是熟悉软件环境、数据库的创建与管理、数据库表的创建与管理、简单查询、连接和嵌套查询、完整性约束、视图操作、索引的创建与管理、存储过程的创建与管理、触发器的创建与管理。 全书体系完整、结构合理、内容翔实、实例丰富,操作过程讲述细致、步骤详细,内容完全符合理论教材,实验选取符
<p>《搜索引擎:原理技术与系统》系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。《搜索引擎:原理技术与系统》分三篇共13章内容,从基本工作原理概述,到一个小型简单搜索引擎具体细节的实现,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后介绍了面向主题和个性化的web信息服务,阐述了中文网页自动分类等技术及其应用。《搜索引擎:原理技术与系统》层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。</p>
本书基于国家电网有限公司系统SG186和SG-ERP等重大信息化工程的设计、项目建设及组织应用全 过程,总结了多项重大信息化项目的经验,运用了信息化与大数据应用技术的理论,力求反映电力信息 化与大数据应用工程技术的最新成果。 全书共分9章,主要内容包括绪论、电力大数据应用工程技术基础理论、电力大数据应用工程技术基 础知识、电力业务数据应用工程技术与案例分析、电力云数据中心工程技术与案例分析、电网GIS平台数 据工程技术与案例分析、变电站智能化数据平台技术与案例分析、大型电力企业国际业务数据工程与案 例分析、智能车联网数据管理平台技术与案例分析。 本书理论联系实际,通过电力大数据应用工程技术的实
“这本书是越来越多的信息检索文献里的一本好书” ——Donald H. Kraft,计算机评论 “学术巨匠齐聚一堂编撰了一部信息检索的优秀教材。Stefan Bu ̈ttcher、Charles Clarke和Gordon Cormack以合计超过五十年的研究经验,组成了横跨三代的信息检索研究泰斗组合……这本书是所有信息检索研究者和从业人员的必读教材!” ——来自由Amit Singhal撰写的序言 信息检索奠定了现代搜索引擎的基石。本书介绍了现代搜索技术的核心主题,包括了算法、数据结构、索引、检索和评价。重点在于实现和实验;每一章都有练习和对学生项目的建议。Wumpu