测试模块-Python爬虫之构建代理池(三)

Redis数据库模块代理源获取模块都已经完成,我们的代理池中已经有了通过Getter模块获取到代理源了,但是这些代理是否有效,可用性如何呢?接下来讲解代理池的测试模块。

设计思路

代理池中代理的数量非常多(例如本文设置为10000),对这些代理进行测试那自然是需要并发的去处理了,所以选择使用aiohttp进行代理请求测试。

开发

MyProxyPool项目中新建tester.py

from redisdb import RedisCli
import aiohttp
from aiohttp import ClientError, ClientConnectionError, ServerTimeoutError
import asyncio
import time
from asyncio import TimeoutError

# 测试认为有效的状态码
VALID_STATUS_CODES = [200]
# 测试网站
TEST_URL = 'http://www.baidu.com'

# 每次批量测试的数量
BATCH_TEST_SIZE = 100


class Tester:
    def __init__(self):
        self.redis = RedisCli()

    async def test_single_proxy(self, proxy):
        '''
        测试单个代理
        :param proxy: 代理
        :return: 测试结果
        '''
        conn = aiohttp.TCPConnector(verify_ssl=False)
        async with aiohttp.ClientSession(connector=conn) as session:
            try:
                if isinstance(proxy, bytes):
                    proxy = proxy.decode('utf-8')
                real_proxy = 'http://' + proxy
                print('正在测试代理', real_proxy)
                async with session.get(TEST_URL, proxy=real_proxy, timeout=15) as response:
                    if response.status in VALID_STATUS_CODES:
                        # 如果代理可用,分数置为最高
                        self.redis.max(proxy)
                        print('代理%s可用' % proxy)
                        return True
                    else:
                        # 如果代理不可用,分数减一
                        self.redis.decrease(proxy)
                        print('请求响应码不合理,代理不可用', proxy)
                        return False
            except (ClientError, ClientConnectionError, ServerTimeoutError, AttributeError, TimeoutError):
                self.redis.decrease(proxy)
                print('代理请求失败,不可用', proxy)
                return False

    def run(self):
        try:
            proxies = self.redis.all()
            loop = asyncio.get_event_loop()
            # 批量测试
            for i in range(0, len(proxies), BATCH_TEST_SIZE):
                test_proxies = proxies[i: i + BATCH_TEST_SIZE]
                tasks = [self.test_single_proxy(proxy) for proxy in test_proxies]
                loop.run_until_complete(asyncio.wait(tasks))
                # 睡眠五秒钟
                time.sleep(5)
        except Exception as e:
            print('测试错误', e)


if __name__ == '__main__':
    Tester().run()


测试网站我这里使用的是百度首页,作为一个通用的测试。如果你这个代理池是为了爬取某一网站,那你可以选择这个网站中的链接作为测试的url,这样针对性的检测,可用性更高。
这里我每五秒钟进行一次测试,每次测试BATCH_TEST_SIZE = 100个代理。

本节代码戳我

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 在做网络爬虫时,最常遇到的也是最基本的防爬虫手段之一就是封IP。目标网站会因为某个IP过高的访问评率,而将其封掉,...
    昵称你也抢我的阅读 1,404评论 1 4
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,119评论 19 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,029评论 25 709
  • 造轮子很高大上,其实理解一个轮子也是一件麻烦事往往想理解一个库,打开源代码,我们就会在层层的函数/方法调用栈中迷失...
    hellodyp阅读 996评论 0 0
  • #20180414# 1.小确幸 A. 虽然起床困难,依旧早起,路上周六颇为顺畅,天蓝的那叫一个通透,很美很美~ ...
    Dora轻生活阅读 145评论 0 0