1. 搜索引擎需要提前获取数据，并对数据做格式化处理。

搜索引擎不可能在得到搜索指令后，现场从互联网上抓取数据返回给客户，原因如下

1.1 他获取网络资源的方式大概有2类：

当然搜索引擎也不是全面接收的，他们有自己的录入标准。这个过程不能保证URL没有遗漏。

由于数量巨大，一般要分地区网口，分机器，分时爬取。经过漫长的爬取，然后保存网页到他们的服务器，如百度快照。

由于有的网站需要登录，有的网站故意设置了反爬虫机制，所以搜索引擎不能保证每个存在的网址都能爬取下来（不管是robots协议还是开发对应的爬取脚本成本太高的原因）。

由于分类是主观的（不管人工还是机器），通常会有误判。

当用户向搜索引擎要求页面时，引擎返回引擎认为对应类别的快照结果。如果用户变换提问方式，就有可能返回其他类别的结果。因此这个环节也可能会丢失我们要找的东西。

由于提取问题过程存在误差，或提取时间过长，也会使这部分的信息不准确。

所以大部分搜索引擎干脆只按标题分类这样同样会遗漏信息。

这种方式更加高效及时（及时程度可以参考百度快照的日期）。

因此，即使你需要的信息不是那么及时，收藏关注网站本身也会得到更全的消息。