这就是搜索引擎 整理

网络爬虫

  • 抓取策略
    • 宽度优先
    • 非完全pagerank
    • opic策略(cash)
    • 大站优先
  • 更新策略
    • 历史参考(泊松建模)
    • 用户体验
    • 聚类抽样
  • 暗网抓取

  • 分布式爬虫
    • 主从式 url
    • 对等式 (哈希取模 \ 一致性哈希 )

搜索引擎索引

基础

  • 单词-文档
  • 倒排

单词字典

  • 哈希加链表
  • 树形结构

倒排列表

单词 –> 倒排列表

建立列表

  • 两遍
  • 排序 单词id -> 文档ID -> 频率
  • 归并

1 2 5 6 1 2 3 4

索引更新

  • 完全重建
  • 再合并
  • 原地更新
  • 混合策略

查询

  • 一次一文档
  • 一次单词
  • 跳跃指针 `<5 Pos1> 5,1 2,1 5,2 <13 Pos2> 13,1 2,1 5,2

Comments