自制搜索引擎 - (EPUB全文下载)

文件大小:0.6 mb。
文件格式:epub 格式。
书籍内容:

版权信息
书名:自制搜索引擎
作者:[日] 山田浩之 末永匡
译者:胡屹
ISBN:978-7-115-41170-9
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
图灵社区会员 人民邮电出版社(zhanghaichuan@ptpress.com.cn) 专享 尊重版权
版权声明
声明
译者序
前言
第 1 章 搜索引擎是如何工作的
1-1 理解搜索引擎的构成
什么是搜索引擎
构成搜索引擎的组件
与搜索引擎相关的组件
1-2  实现了快速全文搜索的索引结构
全文搜索的两种方法
倒排索引的结构
倒排索引的构建方法
倒排索引中的术语
1-3 深入理解倒排索引
倒排索引= 词典+ 倒排文件
从倒排索引中查找单词
将单词的位置信息加入倒排文件中
从倒排索引中查找短语
1-4 制作中文文档的倒排索引
分割中文句子的方法
权衡分割方法
1-5 实现倒排索引
实现词典
实现倒排文件
1-6 使用倒排索引进行检索
布尔检索
使用倒排索引的检索处理流程
关联度的计算方法
信息检索中的检索
1-7 构建倒排索引
使用内存构建倒排索引
使用二级存储构建倒排索引
静态索引构建和动态索引构建
1-8 准备要检索的文档
收集数据
数据规范化
第 2 章 准备全文搜索引擎的检索样本
2-1 全文搜索引擎 wiser
wiser 的构成
准备用于检索的文档
2-2 安装 wiser
构建 wiser
启动 wiser
解压缩 Wikipedia 的副本
2-3 运行 wiser
构建倒排索引
使用倒排索引查询
比较 grep 和 wiser 的运行速度
第 3 章 构建倒排索引
3-1 复习有关倒排索引的知识
提取词元
为每个词元创建倒排列表
3-2 构建倒排索引
在存储器上创建倒排列表
倒排列表和倒排文件的数据结构
从源代码级别梳理倒排索引的构建顺序
进一步阅读源代码
第 4 章 开始检索吧
4-1 检索处理的大致流程
充分理解检索处理的流程
4-2 使用倒排索引进行检索
从源代码级别梳理检索处理的流程
解读 split_query_to_tokens() 函数的具体实现
使用具体示例加深对检索处理流程的理解
解读函数 search_docs() 的实现细节
解读函数 search_phrase() 的实现
第 5 章 压缩倒排索引
5-1 压缩的基础知识
压缩倒排索引的好处
倒排索引的压缩方法
倒排文件的压缩方法
压缩的原理
5-2 实现wiser 中的压缩功能
压缩功能源代码的概要
了解无需进行压缩时的操作
抓住 Golomb 编码的要点
解读 Golomb 编码中的编码处理
解读 Golomb 编码的解码处理
第 6 章 挑战wiser的优化及参数的调整
6-1 提高检索处理的效率
优化检索处理
将查询分割为无重复部分的词元序列
6-2 禁用短语检索
分析对 2 字符的字符串进行检索时的行为
分析对 3 字符的字符串进行检索时的行为
6-3 改变检索结果的输出顺序
作为检索结果排序核心的指标
按照文档大小降序排列的检索结果
6-4 让1 个字符的查询也能检索出结果
获取以特定字符开头的词元的列表
合并检索到的结果
6-5 调整控制倒排索引更新的缓冲区容量
确认由缓冲区容量的差异带来的不同效果
用 sar 命令分析负载
6-6 调整只有英文字母的词元的分割方法
如何避免用英文单词检索时准确率下降的问题
如何判断某字符是否属于索引对象
修改负责分割词元的函数
6-7 确认压缩的效果
观察Golomb 编码的效果
对比压缩启用前后的索引大小
第 7 章 为今后更加深入的学习做准备
7-1 wiser 没能实现的功能
倒排索引之外的全文搜索索引
高效处理大规模数据的存储器
利用缓存提高检索的速度
使用各种各样的压缩方法
优化搜索结果的排名
调整准确率和召回率
降低检索结果排序处理的负载
并行处理
结合对属性的筛选过滤
分面搜索
7-2 全文搜索引擎 Groonga 的特点
通过词元的部分一致检索提升召回率
使用内存映射文件
片段
7-3 实现出考虑到用户意图的搜索引擎
引入停用词
应对词素解析的错误
处理全角字符和半角字符
对查询进行归一化
留意布尔检索的解析过程
通过词素解析器适当地解析查询
对错误的输入进行修正
输入补全
建议用户检索相关的关键词
7-4 收集、提取文档时的要点
制作爬虫时的处理要点
在提取文本时需要处理的要点
附录
A-1 深度话题
近几年的压缩方法
动态索引构建
分布式索引
A-2 wiser 中的文本提取和存储
用于处理 XML 的 2 种 API——DOM 和 SAX
提取文档的标题和正文
掌握状态的迁移
构建文档数据库
后记
版权声明
KENSAKU ENGINE JISAKU NYUMON
by Hiroyuki Yamada, Tasuku Suenaga
Copyright © 2014 Hiroyuki Yamada, Tasuku Suenaga
All rights reserved.
Original Japanese edition published by Gijyutsu-Hyoron Co., Ltd., Tokyo
 
This Simplified Chinese language edition published by arrangement with Gijyutsu-Hyoron Co., Ltd., Tokyo in care of Tuttle-Mori Agency, Inc., Tokyo
 
本书中文简体字版由 Gijyutsu-Hyoron Co., Ltd. 授权人民邮电出版社独家出版。未经出版者书面许 ............

书籍插图:
书籍《自制搜索引擎》 - 插图1
书籍《自制搜索引擎》 - 插图2

以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。

版权声明:书云(openelib.org)是世界上最大的在线非盈利图书馆之一,致力于让每个人都能便捷地了解我们的文明。我们尊重著作者的知识产权,如您认为书云侵犯了您的合法权益,请参考版权保护声明,通过邮件openelib@outlook.com联系我们,我们将及时处理您的合理请求。 数研咨询 流芳阁 研报之家 AI应用导航 研报之家
书云 Open E-Library » 自制搜索引擎 - (EPUB全文下载)