您的位置：首页 > 新闻资讯 > 正文

盘点网络爬虫几种常见类型

发布时间：2019-01-14 15:43:36 来源：互联网

网络爬虫根据系统结构和实现技术，大概可以分成以下几种类型：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

一、通用网络爬虫

通用网络爬虫叫做全网爬虫，爬行对象从一些种子 URL 扩大到全部 Web，主要为门户网站站点搜索引擎和大型 Web 服务提供商采集网络数据。由于商业服务原因，它们的技术细节不怎么公布出来。这类网络爬虫的爬行范畴和数量极大，对于爬行速度和储存空间要求较高，对于爬行网页页面的顺序要求相对较低，同时因为待刷新的页面过多，通常采用并行工作方式，但需要长时间才能刷新一次页面。尽管存在一定缺点，通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。

二、增量式网络爬虫

增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生的或是早已发生变化网页的爬虫，它可以在一定程度上确保所爬行的页面是尽量新的网页。和周期性爬行和刷新页面的网络爬虫对比，增量式爬虫只会在需要的时候爬行新产生或发生更新的网页，并不重新下载没有发生变化的网页页面，可有效减少数据下载量，及时更新已爬行的网页，缩减时间和空间上的耗费，可是增多了爬行算法的复杂度和实现难度。增量式网络爬虫的体系结构包含爬行模块、排序模块、更新模块、本地页面集、待爬行 URL 集以及本地页面URL 集等

三、Deep Web 爬虫

Web 页面按存在方式可以分为表层网页（Surface Web）和深层网页（Deep Web，也称 Invisible Web Pages 或 Hidden Web）。表层网页是指传统搜索引擎可以索引的网页，以超链接可以到达的静态网页为主构成的 Web 页面。Deep Web 是那些绝大多数内容不可以通过静态链接获得的、掩藏在搜索表单后的，只有用户提交一些关键词才能获得的 Web 页面。比如那些用户注册后内容才看得见的网页就属于 Deep Web。 2000 年 Bright Planet 指出：Deep Web 中可访问信息容量是 Surface Web 的几百倍，是互联网上最大、发展最快的新型信息资源。

黑洞代理IP代理、国内最靠谱的IP代理、高匿名代理、API调用频率快、并发请求数量不限制、价格低，高速稳定，多机器调用、欢迎免费试用！