1. 首先从互联网页面中选择一部分网页,以这些网页的链接地址作为种子URL; 2. 将这些种子URL放入待抓取URL队列中; 3. 爬虫从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。 4. 然后将IP地址和网页相对路径名称交给网页下载器; 5. 网页下载器负责页面内容的下载; 6. 对于下载到本地的网页,一方面将其存储到页面库中,等待建立索引等后续处理;另一方面将下载网页的URL放入己抓取URL队列中,这个队列记载了爬虫系统己经下载过的网页URL,以避免网页的重复抓取。 7. 对于刚下载的网页,从中抽取出所包含的所有链接信息,并在已抓取URL队列中检査,如果发现链接还没有被抓取过,则将这个URL放入待抓取URL队列。 8. 在之后的抓取调度中会下载这个URL对应的网页,如此这般,形成循环,直到待抓取URL队列为空。 |