1. 首先从互联网页面中选择一部分网页，以这些网页的链接地址作为种子URL；

2. 将这些种子URL放入待抓取URL队列中；

3. 爬虫从待抓取URL队列依次读取，并将URL通过DNS解析，把链接地址转换为网站服务器对应的IP地址。

4. 然后将IP地址和网页相对路径名称交给网页下载器；

5. 网页下载器负责页面内容的下载；

6. 对于下载到本地的网页，一方面将其存储到页面库中，等待建立索引等后续处理；另一方面将下载网页的URL放入己抓取URL队列中，这个队列记载了爬虫系统己经下载过的网页URL，以避免网页的重复抓取。

7. 对于刚下载的网页，从中抽取出所包含的所有链接信息，并在已抓取URL队列中检査，如果发现链接还没有被抓取过，则将这个URL放入待抓取URL队列。

8. 在之后的抓取调度中会下载这个URL对应的网页，如此这般，形成循环，直到待抓取URL队列为空。