qq:800819103
在线客服,实时响应
qq群
在线客服,实时响应
客服电话
13318873961突破反爬虫的一个常用做法是使用代理IP,可以是作为初学者或者个人来说,买一些代理ip成本稍微高一些,因此最近写了一个开源项目IPProxys,用来为个人提供代理ip。
IPProxys原理:通过爬取各大代理网站提供的免费代理IP,进行去重,并验证ip的可用性,将有效的ip存储到sqlite中,并提供一个HTTP接口供爬虫程序获取ip。
IPProxys项目已经上传到github中,链接为https://github.com/qiyeboy/IPProxys。下面对整个项目工程进行一下说明。
api包:主要是实现http服务器,提供api接口(通过get请求,返回json数据)
data文件夹:主要是数据库文件的存储位置和qqwry.dat(可以查询ip的地理位置)
db包:主要是封装了一些数据库的操作
spider包:主要是爬虫的核心功能,爬取代理网站上的代理ip
test包:测试一些用例,不参与整个项目的运行
util包:提供一些工具类。其中的IPAddress.py查询ip的地理位置
validator包:用来测试ip地址是否可用
config.py:主要是配置信息(包括配置ip地址的解析方式和数据库的配置)
整个项目的代码量不大,大家可以根据自己的需求进行修改,也可以提出自己的想法和建议帮助我改进这个项目。
如何使用IPProxys项目呢?
1.将项目目录clone到当前文件夹
$ git clone
2.切换工程目录
$ cd IPProxys
3.运行脚本
python IPProxys.py
windows上运行效果如下图所示:
项目依赖项:
需要安装sqlite数据库
安装requests库:pip install requests
安装lxml: apt-get install python-lxml
当IPProxys运行起来后,外部的爬虫如何获取ip呢?
外部的爬虫只需要向IPProxys所在主机的8000端口发送GET请求即可。GET请求的参数为:
例如:
访问http://127.0.0.1:8000/?types=0&count=5&country=中国这个链接的含义是获取5个ip地址在中国的高匿代理。响应为JSON格式,返回数据为:[{"ip": "220.160.22.115", "port": 80}, {"ip": "183.129.151.130", "port": 80}, {"ip": "59.52.243.88", "port": 80}, {"ip": "112.228.35.24", "port": 8888}, {"ip": "106.75.176.4", "port": 80}]
一般爬取到的有效ip大约有60个左右,基本上满足个人的需要。
相关文章内容简介
1 突破反爬虫的利器——开源IP代理池
突破反爬虫的一个常用做法是使用代理IP,可以是作为初学者或者个人来说,买一些代理ip成本稍微高一些,因此最近写了一个开源项目IPProxys,用来为个人提供代理ip。IPProxys原理:通过爬取各大代理网站提供的免费代理IP,进行去重,并验证ip的可用性,将有效的ip存储到sqlite中,并提供一个HTTP接口供爬虫程序获取ip。IPProxys项目已经上传到github中,链接为https... [阅读全文]
最新标签
推荐阅读
12
2018-12
手机游戏能不能加速?什么游戏加速器比较好用?
手机已经成为大家生活中的一部分,大部分人每天玩手机的时间比较多,被称为低头一族。于是许多企业都开发手机APP,就连游戏也不例外,但手机不管是配置还是网络都无法与手机相比...
10
2019-05
IP代理软件让推广显成效
众所周知,商家推广涵盖内容非常多,除了提高商品的点击率和成交量,在各大网站做必要的推广也是非常重要。为了能够做到成功地推广,商家使用黑洞代理可谓是如虎添翼,轻轻松松提升推
06
2019-08
代理IP对爬虫的重要性
网络数据越来越多,想做数据分析,就要抓取多个网站的数据进行分析,靠人工来完成是不现实的。因此,爬虫就出现了,可以用爬虫直接抓取数据。
17
2019-01
玩游戏卡掉线,使用IP加速器有效果吗?
玩游戏就怕就是卡掉线,导致卡掉线的原因非常多,比如网络问题,设备配置问题等等,当出现玩游戏卡掉线时应该怎么处理呢?能不能使用IP加速器进行游戏加速?使用IP加速器有效果吗?
热门文章