本文通过四点来说明:
1. 搜索引擎需要提前获取数据,并对数据做格式化处理。
搜索引擎不可能在得到搜索指令后,现场从互联网上抓取数据返回给客户,原因如下
1.1 他获取网络资源的方式大概有2类:
- 根据一些种子网址,遍历递归每个url,逐渐扩充网址库。
- 接受每个站长的推送网址,当每个站点的信息增加后,站长可以把这个提交给各个搜索引擎。
当然搜索引擎也不是全面接收的,他们有自己的录入标准。这个过程不能保证URL没有遗漏。
1.2 搜索引擎有了网址库,接下来就要用爬虫爬取了。
由于数量巨大,一般要分地区网口,分机器,分时爬取。经过漫长的爬取,然后保存网页到他们的服务器,如百度快照。
由于有的网站