ip代理
一、网页的检查
西刺代理网下的国内高匿部分,是一个很简单的get请求,唯一变化的就是url:
网页界面如下,很规则,很友好。下面开始写代码。
私信菜鸟007获取此案例源码!
# 定义一个主函数
2、拼接url
该步只需要一行代码,因此直接写在主函数中。
# 拼接url url_new = url + str(page) + '/'
3、请求网页,获取响应。
主函数要尽量保持简洁,而把复杂的代码通过定义函数来实现,这里的第二步(即请求网页)和第三步(即获取响应)代码较多,这里通过建立函数:req_res来实现,由于urllib库已经介绍过,这里使用requests库来进行实现。代码如下:
# 构建请求函数,返回得到的响应 de
4、解析函数
获得响应之后,就要对响应进行解析了。这里也通过建立一个函数来实现。同样还是使用bs4.
代码如下:
# 构建解析函数,返回数据(以字典格式返回) def parse_res(response,items):
5、保存数据
此处代码也较少,直接写在主函数中。
# 以CSV格式保存数据 df = pd.DataFrame(items) df.to_csv('IP_data.csv',index=False,sep=',',encoding='utf-8-sig')
6、完整代码
这样一个爬取代理IP的完整流程代码就完成了。完整代码如下:
三、爬取结果
运行上述代码,西刺代理每页显示100条IP信息,这里以爬取前50页5000条IP信息为例。结果如下:
打开保存到本地的CSV文件,如下。可见5000条信息全部爬取成功。
四、IP验证
IP虽然爬取下来了,但是能不能用确是不一定的,实际上,代理IP一般都是收费的,所以免费的东西,自然没好货,不出意外的话,爬取下来的IP绝大多数是不能用的,所以需要验证下。
这里提供两种方法:
1、利用python。由于使用第二种方法,这里对第一种方法只提供想法。将爬取下来的ip使用requests库的代理方法,进行某个网页的访问,通过判断请求的响应码是否为200来判断ip是否可用(这里应该再加上个响应时间),若响应码为200则保留,否则剔除。但显然,这种方法太浪费时间。
2、利用一个叫花刺代理的软件,安装后,可直接批量检查爬取下来的IP是否可用,这里使用该软件对刚刚爬取下来的5000个IP进行检验。
首先,将刚刚爬取下来的数据通过以下代码:导出IP地址和端口信息,并保存为txt格式(该软件识别txt),代码如下。
import pandas as pd data = pd.read_csv(r'C:\Users\zhche\Desktop\IP_data.csv',sep=',',encoding='utf-8-sig') lists = data.values.tolist() for list in lists: IP = list[0] port = list[4] proxy = str(IP) + ':' + str(port) with open('ip.txt','a',encoding = 'utf-8') as f: f.write(proxy+' ')
运行后,找到保存到本地的txt,如下:
然后,将该txt文件导入到花刺代理软件中,点击“验证全部”,结果如下。
没有看错,5000个IP中只有3个能用,得出一个至理——便宜没好货。
所以平时需要用数量来代替该不足,通过抓取上万个IP来寻找几个有用的。
相关文章内容简介
1 普通,高级,超级,至尊专区介绍
专区介绍:1.普通专区(普通会员使用,可用静态2000线路)静态线路是指IP固定的线路,每条线路固定一个IP。2.高级专区(高级会员使用,可用静态,动态时效线路)动态时效线路是指线路IP会在1到20分钟内自动切换3.超级专区(超级会员使用,可用静态,动态时效,动态,混拨)混拨线路是指随机选择线路进行连接4.至尊专区(至尊会员使用,可用独享高速在内所有,网速更优) 独享线路为单人连接使用的线路,高速线路是电脑端的网速最快的线路... [阅读全文]
2 万变IP功能简介
地区覆盖全国258个城市,8000万条IP地址库 多平台支持,支持电脑windows、苹果iOS、安卓Android 支持多种IP混拨模式,全国混拨+单地区混拨+指定地区混拨 支持静态固定线路,动态高网速线路 高匿名ip,保护隐私,防追踪 多协议支持,支持L2TP/SE驱动/open协议 极速的切换体验,更换速度低于100ms 网速保证您的工作效率,自建服务器网速更快 自动切换IP,支持任意时长定时自动切换 自动清理:清理缓存cookie,提升运行速度... [阅读全文]
推荐阅读
22
2019-11
万变爬虫代理ip池(适合初学者ip代理python )
万变爬虫代理ip池(适合初学者ip代理python )
22
2019-11
ip代理Python代理IP爬虫的简单使用
ip代理Python代理IP爬虫的简单使用
22
2019-11
代理ip推测http代理IP的处理流程
代理ip推测http代理IP的处理流程
20
2019-09
普通,高级,超级,至尊专区介绍
22
2019-11
万变iP代理普遍的HTTP归类有三种:全透明代理、高隐匿ip
黑洞iP代理普遍的HTTP归类有三种:全透明代理、高隐匿ip
22
2019-11
代理IP就能维护隐私保护?万变代理ip简单操作
代理IP就能维护隐私保护?万变代理ip简单操作
热门文章
因为专业! 所以简单! 产品至上,价格实惠 是我们服务追求的宗旨
免费试用