有一件有趣的事情:虽说市面上有不少爬虫框架,但是大多数公司的成熟爬虫项目还是会选择自己造轮子、自己写一个爬虫框架、自己维护。这是为啥?
因为真实世界的爬虫需求是复杂多变的,而已有的框架往往可定制性比较差、也都有不尽如人意的地方,无论是反爬上还是在部署上,都无法灵活满足商业需求。
于是,富有丰富商业爬虫经验的皓禹老师和擅长做 PPT 的侯爵老师一拍即合,决定把企业里如何从零搭建爬虫框架的秘籍教给大家。
实际上不仅仅是框架,更是一套资源整合的、全面的、靠谱的一站式解决方案。
这套一站式方案中包括了符合国情的反爬、方便快捷的部署、数据工作流的无障碍通行、快捷绘制数据分析图表,可以减少很多开发和学习成本。
这次课程选择了主要在线下进行授课,因为线下教学体验更适合高强度爬虫训练,可以更高效的手把手传达经验,省下自学和踩坑的时间。希望能吸引到真正有决心把爬虫啃下来的同学。
课程安排
3月11日-3月15日
线上学习,侯爵老师授课
环境安装和编程常识
Python 的基本语法规则
爬虫的基本原理
数据存储的基本原理
Python/爬虫/网络知识/docker知识大杂烩
3月16日-3月17日
线下手把手传授,皓禹老师+侯爵老师
3月16日上午
主题:《如何写出不踩坑的爬虫》
如何快速构建一个安全的爬虫?——模拟真实请求(webdriver, header, UA, requests, aiohttp)
如何分析网站?——元素定位的经验(Chrome 定位, 分析网页 API)
如何准确获得想要的数据?——解析与数据规整(BeautifulSoup, lxml, 正则)
现场指导练习
3月16日下午
主题:《如何写出反爬能力强的爬虫》
如何解决四大反爬验证:header验证、cookie验证、IP频率验证、auth验证?——反爬应对的策略(突破 reddit 网站的 header 验证,突破煎蛋的cookie验证,突破豆瓣电影的IP频率验证,突破知乎的auth验证)
如何处理业界疑难杂症:动态加载问题?——反爬应对的经验(突破网易严选的动态加载)
如何发现数据投毒?——反爬应对的技巧(突破某网站的数据投毒)
一些只能私下分享的爬虫和反爬套路
商业爬虫实战:微信公众号爬取
3月17日上午
主题:《如何写出商业级的分布式爬虫》
如何爬取手机端?——抓包与接口破解(突破微信公众号、大众点评app的手机端抓取)
如何提升爬虫效率瓶颈?——高并发爬虫的设计(多线程、多进程、协程)
如何使用分布式爬虫框架?——理解分布式爬虫
商业爬虫实战:京东分布式爬取
3月17日下午
主题:《如何写出商业级的工程化爬虫》
如何造轮子写出一个分布式爬虫框架?——深入分布式爬虫的设计(下载器-解析器-调度器-数据处理器-数据存储postgresql-数据展示-定时爬取)
如何部署分布式爬虫?——使用 docker 快速实现分布式
商业爬虫实战:大众点评app爬取
导师介绍
皓禹老师
8年 Python 经验,商业爬虫经验丰富。曾任区块链创业公司 CTO,曾任搜狐社交产品中心服务端负责人,猎豹高级工程师。
侯爵老师
麻瓜编程创始人。20万读者喜爱的《编程小白的第一本 Python 入门书》作者。设计背景,自学编程时发现市面上很难找到适合小白的学习资料,于是开始用生动易懂、视觉化的方式来创作教程。
预约报名
本期训练营只招收30名学员,报满后截止。
上课地点:北京朝阳区
食宿安排:包课程期间午餐,住宿自理。
预约要求:
学费为3000元,通过审核后才能付费。
预约报名加林茜茜(微信号:794498950),可扫码添加。
课程FAQ
Q:零基础可以参加么?
零基础可以参加,提前线上5天会带着你补齐基础知识、安装必备环境。
Q:学了之后可以达到什么水平?
达到爬虫熟手的水平,能爬取95%以上的网站和app,获得千万级以上的数据。
Q:是否有老学员优惠?
有的,参加过麻瓜编程课程的老学员,可以联系林茜茜获得200元优惠。