西拉免费代理IP

你当前的位置:西拉免费代理IP   >   新闻中心   >   Python爬虫如何通过更换IP避开网站的反爬虫机制(一)

Python爬虫如何通过更换IP避开网站的反爬虫机制(一)

2019年4月26日 17:36

 爬取网站的时候经常会遇到网站上都部署了反爬虫机制,当服务器检测到一段时间内同一个 IP 持续密集的访问网站,则将其判定为爬虫程序,在一段时间内不允许该 IP 地址访问服务器。  

这种情况其实可以写个延迟函数,每爬一次随机歇个几秒钟,有效的降低访问密度,从而避开反爬机制。但是弊端是太浪费时间,一天爬几万条数据会感到非常吃力。这时就需要更加有效率的爬取数据,所以需要使用动态ip 和随机 UA(User-Agent)。说白了就是伪装爬虫,假装不同的人使用不同的浏览器在访问网站。   


使用动态拨号VPS  

除了代理IP以外,还可以使用动态拨号VPS来更换IP,这种方式获得的IP质量更高,而且可以直接在拨号vps上部署业务,更加方便。这种方式需要进行一些技术处理,实现IP更换和调用。     


使用动态ip  

使用动态ip 的强大之处在于它在爬虫运行的同时,在线获取动态ip。每次只获取一页,存于数组中,随机使用。当大部分的 IP 失效之后(记录访问失败的次数,当超过一定阈值时,则视为此页动态ip 失效),然后重新获取一页动态ip,如此,可保证每次使用的都是最新的 IP,而且不需要额外的空间和文件来存放动态ip。  

 def get_proxy(page):   

 '''       

 功能:获取 快代理 网站上的最新免费代理IP        

参数: page 页数    

返回:存有动态ip 的列表 proxyList    

'''       

 # 存放获取到的动态ip 信息    proxyList = []    # 访问 快代理 网站,获取第 page 页的网页信息    headers = {                "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"    }    request = urllib.request.Request("https://www.kuaidaili.com/free/inha/"+str(page), headers=headers)    html = urllib.request.urlopen(request).read()        # 解析网页信息,从中提取动态ip 的数据    content = etree.HTML(html)    ip = content.xpath('//td[@data-title="IP"]/text()')    port = content.xpath('//td[@data-title="PORT"]/text()')    # 将动态ip 信息存入 proxyList 列表    for i in ip:        for p in port:            proxyList.append(i+':'+p)    return proxyList

阅读 153   

相关推荐

网站的反爬虫机制一般都有哪些方式?

 在大数据资源整合的过程中,有爬虫和反爬虫。网站越大,网站越成熟,反爬行动机制越完善,初始IP限制,验证码限制和其他限制。今天我们一起来看看网站上反爬的设置,以及反应方式。 1、动态页面的反爬虫有的时 . . .

2019年4月30日
动态拨号VPS花多少钱购买才算性价比高

 很多人都需要更改IP,例如爬虫注册,刷票收集等。动态VPS服务器也可以更改IP。购买动态VPS需要多少钱?市场上有很多商家的价格看起来合理,太便宜的怕不好用,太贵不划算。如何找到具有高性价比的动态V . . .

2019年4月30日
动态IP拨号vps配置中的IP多少AB段代表什么? 动态IP拨号vps配置中的IP多少AB段代表什么?
动态IP拨号vps配置中的IP多少AB段代表什么?

 随着互联网需求的增加,很多公司和个人都在使用动态拨号VPS,但是有些用户看到拨号vps介绍里面ip段标的几A段、几AB段,却不懂其含义,IPV4协议里面一个完整的ip被三个点分为了4个部分A.B.C . . .

2019年4月30日
什么是个人VPN

 虚拟专用网络(VPN)使客户能够通过社区系统远程安全地获取讨论信息和专用网络。信息受到类似于PC中防火墙的保护,VPN可以屏蔽它。即使VPN正式成为WAN(广域系统),租用代理  保持与私有系统完全 . . .

2019年4月26日
Python爬虫如何通过更换IP避开网站的反爬虫机制 (二)

上篇在Python爬虫如何通过更换IP避开网站的反爬虫机制一里讲到动态IP和拨号VPS,今天第二篇讲随机UA。 在两篇文章里,所有代码并非全部源码,不保证代码可以直接复制粘贴使用,建议大家理解原理之后 . . .

2019年4月26日
拨号vps哪家好

  动态vps似乎很简单,但它对运营商的技术水平和服务水平有更高的要求。首先是服务器和宽带的稳定性。在这方面,一些小公司的产品特别不足。产品稳定性无法保证,这对正常使用有较大影响。其次,动态vps对服 . . .

2019年4月26日
有哪些功能是动态IP拨号vps可以使用的

 随着互联网的快速发展,越来越多的用户在在线过程中暴露他们的个人隐私信息。电商担心刷单太多被查,营销害怕刷票力度不够影响排名....这时使用西拉免费动态IP拨号vps是最佳选择,动态拨号vps可以很好 . . .

2019年4月26日
为什么需要VPN

  VPN具有其他使用实例。VPN使客户能够阻止其他人看到他们正在移动的信息,因为链接已经加密。这样可以确保信息安全,特别是在机场和咖啡馆等社区的Wifi系统上,确保没有人窃取您的密码或银行卡号码,并 . . .

2019年4月25日
使用动态IP代理爬取网站的都是哪些爬虫(二)

这里是西拉免费IP代理小编带来的使用动态IP代理爬取网站的都是哪些爬虫第二篇。核心代码实现示例:ProxyWebsite  class ProxyWebsite(object):    def __i . . .

2019年4月25日
使用动态IP代理爬取网站的都是哪些爬虫

在写爬虫程序的时候,当抓取频率较快或者抓取一些robots.txt禁爬路径,肯定会碰到被网站屏蔽的情况,这时候目标服务器要么直接返回404,要么就是返回禁止的提示信息,总之就是抓不到想要的内容。 如果 . . .

2019年4月25日

新闻中心 代理分享 | 蜘蛛地图

全网最大的免费网页代理ip平台,提供大量免费http代理服务器免费ip代理地址

© 2016 - 2019. 西拉免费代理ip, All rights reserved.

在线客服