1. 首先从互联网页面中选择一部分网页,以这些网页的链接地址作为种子URL;

2. 将这些种子URL放入待抓取URL队列中;

3. 爬虫从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。

4. 然后将IP地址和网页相对路径名称交给网页下载器;

5. 网页下载器负责页面内容的下载;

6. 对于下载到本地的网页,一方面将其存储到页面库中,等待建立索引等后续处理;另一方面将下载网页的URL放入己抓取URL队列中,这个队列记载了爬虫系统己经下载过的网页URL,以避免网页的重复抓取。

7. 对于刚下载的网页,从中抽取出所包含的所有链接信息,并在已抓取URL队列中检査,如果发现链接还没有被抓取过,则将这个URL放入待抓取URL队列。

8. 在之后的抓取调度中会下载这个URL对应的网页,如此这般,形成循环,直到待抓取URL队列为空。