西拉免费代理IP

你当前的位置:西拉免费代理IP   >   新闻中心   >   使用动态IP代理爬取网站的都是哪些爬虫(二)

使用动态IP代理爬取网站的都是哪些爬虫(二)

来源: 西拉IP   作者: 张祁无   2019年4月25日 15:43

这里是西拉免费IP代理小编带来的使用 动态IP 代理爬取网站的都是哪些爬虫第二篇。


核心代码实现示例:ProxyWebsite

class ProxyWebsite(object):

def __init__(self, url, pattern, ip_pos, port_pos):

self.url = url

self.pattern = pattern

self.ip_pos = ip_pos

self.port_pos = port_pos

Crawler

class Crawler(object):

@staticmethod

def get_html(proxy_website):

try:

rsp = requests.get(proxy_website.url)

return (0, rsp.text)

except Exception as e:

return (-1, e)

Extrator

class Extractor(object):

@staticmethod

def get_data(proxy_website, html):

try:

pattern = re.compile(proxy_website.pattern, re.M|re.S )

return  map(lambda x:(x[proxy_website.ip_pos], x[proxy_website.port_pos]), pattern.findall(html))

except Exception as e:

return (-1, e)Data class Data(object):

def __init__(self, ip, port, http_enable, https_enable):

self.ip = ip

self.port = port

self.http_enable = http_enable

self.https_enable = https_enableValidator class Validator(object):

@staticmethod

def get_baidu(ip, port):

try:

proxies = {'http': ' http://%s:%s ' %(ip, port), 'https': ' http://%s:%s ' %(ip, port)}

http_valid_result  = False

rsp = requests.get(' http://www.baidu.com ', proxies = proxies, verify=False, timeout=(10, 60))

if rsp.status_code == 200:

http_valid_result  = True

rsp = requests.get(' https://www.baidu.com ', proxies = proxies, verify=False, timeout=(10, 60))

if rsp.status_code == 200:

https_valid_result  = True

return (0, (http_valid_result, https_valid_result))

except Exception as e:

return (-1, e)

阅读 577   

相关推荐

Python爬虫如何通过更换IP避开网站的反爬虫机制 (二)

上篇在 Python爬虫 如何通过更换 IP 避开网站的反爬虫机制一里讲到 动态IP 和拨号 VPS , . . .

2019年4月26日
Python爬虫如何通过更换IP避开网站的反爬虫机制(一)

爬取网站的时候经常会遇到网站上都部署了反爬虫机制,当服务器检测到一段时间内同一个 IP 持续密集的访问网站,则将其判定为爬虫程序,在一段时间内不允许该 IP 地址访问服务 . . .

2019年4月26日
拨号vps哪家好

动态vps似乎很简单,但它对运营商的技术水平和服务水平有更高的要求。 首先是服务器和宽带的稳定性。在这方面,一些小公司的产品特别不足。产品稳定性无法保证,这对正常使用有较大影响。 . . .

2019年4月26日
有哪些功能是动态IP拨号vps可以使用的

随着互联网的快速发展,越来越多的用户在在线过程中暴露他们的个人隐私信息。 电商担心刷单太多被查,营销害怕刷票力度不够影响排名....这时使用西拉免费 动态IP . . .

2019年4月26日
为什么需要VPN

VPN具有其他使用实例。VPN使客户能够阻止其他人看到他们正在移动的信息,因为链接已经加密。这样可以确保信息安全,特别是在机场和咖啡馆等社区的Wifi系统上,确保没有人窃取您的密码或银 . . .

2019年4月25日
使用动态IP代理爬取网站的都是哪些爬虫

在写爬虫程序的时候,当抓取频率较快或者抓取一些robots.txt禁爬路径,肯定会碰到被网站屏蔽的情况,这时候目标服务器要么直接返回404,要么就是返回禁止的提示信息,总之就是抓不到想要的内容 . . .

2019年4月25日
HTTPError异常代码分析——python爬虫常见问题(二)

300:该状态码不被HTTP/1.0的应用程序直接使用,只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。 处理方式:若程序中能够处理,则进行进一步处理,如果程序中不能处理,则丢弃 . . .

2019年4月25日
HTTPError异常代码分析——python爬虫常见问题(一)

学习Python的过程中总是遇到很多难题,最常见的比如 IP 限制,我们学会通过使用动态拨号 vps 来解决,其他情况下也会存在很多异常或者麻烦,今 . . .

2019年4月25日
识别虚拟网络 识别虚拟网络
识别虚拟网络

网络背后的意图将是开发服务,无论网络是“虚拟的”还是真实的,这都应该是准确的。 实际上,服务可能是关于未来网络的虚拟事物,传统服务和虚拟服务之间的差异可能是变革的主要驱 . . .

2019年4月24日
使用动态PPTP软件使工作更高效 使用动态PPTP软件使工作更高效
使用动态PPTP软件使工作更高效

随着互联网世界的发展,营销不再局限于现实生活。对于进行网络营销的员工来说,它自然与 PPTP 不可分割。 . . .

2019年4月24日

新闻中心 代理分享 | 蜘蛛地图

全网最大的免费网页代理ip平台,提供大量免费http代理服务器免费ip代理地址

© 2016 - 2021. 西拉免费代理ip, All rights reserved. 鄂ICP备18017015号-4

在线客服