这就是搜索引擎_核心技术详解 - (EPUB全文下载)
文件大小:6.54 mb。
文件格式:epub 格式。
书籍内容:
目 录
前言
第1章 搜索引擎及其技术架构
1.1 搜索引擎为何重要
1.1.1 互联网的发展
1.1.2 商业搜索引擎公司的发展
1.1.3 搜索引擎的重要地位
1.2 搜索引擎技术发展史
1.2.1 史前时代:分类目录的一代
1.2.2 第一代:文本检索的一代
1.2.3 第二代:链接分析的一代
1.2.4 第三代:用户中心的一代
1.3 搜索引擎的3个目标
1.4 搜索引擎的3个核心问题
1.4.1 3个核心问题
1.4.2 与技术发展的关系
1.5 搜索引擎的技术架构
第2章 网络爬虫
2.1 通用爬虫框架
2.2 优秀爬虫的特性
2.3 爬虫质量的评价标准
2.4 抓取策略
2.4.1 宽度优先遍历策略(Breath First)
2.4.2 非完全PageRank策略(Partial PageRank)
2.4.3 OCIP策略(Online Page Importance Computation)
2.4.4 大站优先策略(Larger Sites First)
2.5 网页更新策略
2.5.1 历史参考策略
2.5.2 用户体验策略
2.5.3 聚类抽样策略
2.6 暗网抓取(Deep Web Crawling)
2.6.1 查询组合问题
2.6.2 文本框填写问题
2.7 分布式爬虫
2.7.1 主从式分布爬虫(Master-Slave)
2.7.2 对等式分布爬虫(Peer to Peer)
本章提要
本章参考文献
第3章 搜索引擎索引
3.1 索引基础
3.1.1 单词—文档矩阵
3.1.2 倒排索引基本概念
3.1.3 倒排索引简单实例
3.2 单词词典
3.2.1 哈希加链表
3.2.2 树形结构
3.3 倒排列表(Posting List)
3.4 建立索引
3.4.1 两遍文档遍历法(2-Pass In-Memory Inversion)
3.4.2 排序法(Sort-based Inversion)
3.4.3 归并法(Merge-based Inversion)
3.5 动态索引
3.6 索引更新策略
3.6.1 完全重建策略(Complete Re-Build)
3.6.2 再合并策略(Re-Merge)
3.6.3 原地更新策略(In-Place)
3.6.4 混合策略(Hybrid)
3.7 查询处理
3.7.1 一次一文档(Doc at a Time)
3.7.2 一次一单词(Term at a Time)
3.7.3 跳跃指针(Skip Pointers)
3.8 多字段索引
3.8.1 多索引方式
3.8.2 倒排列表方式
3.8.3 扩展列表方式(Extent List)
3.9 短语查询
3.9.1 位置信息索引(Position Index)
3.9.2 双词索引(Nextword Index)
3.9.3 短语索引(Phrase Index)
3.9.4 混合方法
3.10 分布式索引(Parallel Indexing)
3.10.1 按文档划分(Document Partitioning)
3.10.2 按单词划分(Term Partitioning)
3.10.3 两种方案的比较
本章提要
本章参考文献
第4章 索引压缩
4.1 词典压缩
4.2 倒排列表压缩算法
4.2.1 评价索引压缩算法的指标
4.2.2 一元编码与二进制编码
4.2.3 Elias Gamma算法与Elias Delta算法
4.2.4 Golomb算法与Rice算法
4.2.5 变长字节算法(Variable Byte)
4.2.6 SimpleX 系列算法
4.2.7 PForDelta算法
4.3 文档编号重排序(DocID Reordering)
4.4 静态索引裁剪(Static Index Pruning)
4.4.1 以单词为中心的索引裁剪
4.4.2 以文档为中心的索引裁剪
本章提要
本章参考文献
第5章 检索模型与搜索排序
5.1 布尔模型(Boolean Model)
5.2 向量空间模型(Vector Space Model)
5.2.1 文档表示
5.2.2 相似性计算
5.2.3 特征权重计算
5.3 概率检索模型
5.3.1 概率排序原理
5.3.2 二元独立模型(Binary Independent Model)
5.3.3 BM25模型
5.3.4 BM25F模型
5.4 语言模型方法
5.5 机器学习排序(Learning to Rank)
5.5.1 机器学习排序的基本思路
5.5.2 单文档方法(PointWise Approach)
5.5.3 文档对方法(PairWise Approach)
5.5.4 文档列表方法(ListWise Approach)
5.6 检索质量评价标准
5.6.1 精确率与召回率
5.6.2 P@10指标
5.6.3 MAP指标(Mean Average Precision)
本章提要
本章参考文献
第6章 链接分析
6.1 Web图
6.2 两个概念模型及算法之间的关系
6.2.1 随机游走模型(Random Surfer Model)
6.2.2 子集传播模型
6.2.3 链接分析算法之间的关系
6.3 PageRank算法
6.3.1 从入链数量到PageRank
6.3.2 PageRank计算
6.3.3 链接陷阱(Link Sink)与远程跳转(Teleporting)
6.4 HITS算法(Hypertext Induced Topic Selection)
6.4.1 Hub页面与Authority页面
6.4.2 相互增强关系
6.4.3 HITS算法
6.4.4 HITS算法存在的问题
6.4.5 HITS算法与PageRank算法比较
6.5 SALSA算法
6.5.1 确定计算对象集合
6.5.2 链接关系传播
6.5.3 Authority权值计算
6.6 主题敏感PageRan ............
书籍插图:
以上为书籍内容预览,如需阅读全文内容请下载EPUB源文件,祝您阅读愉快。
书云 Open E-Library » 这就是搜索引擎_核心技术详解 - (EPUB全文下载)