OCR库

Pillow和Tesseract
Twsseract是一个python的命令行工具，不是通过import语句导入库，安装之后，要用tesseract命令在python外面运行

NumPy
numpy可以用数学方法把图片表示成巨大的像素数组，配合tesseract完成任务

遇到背景色渐变，可以用python脚本对图片进行清理，利用pillow库，创建一个阈值过滤器去掉渐变背景色，只把文字保留下来

训练Tesseract

首先把大量的验证码下载到一个文件夹里，第二步是准确的告诉Tesseract一张图片中的每个字符是什么，以及每个字符的具体位置，这里需要创建一些矩形定位文件，在线工具teaaeract ocr chopper可以帮你完成

请求头可以通过requests模块进行自定义，网站会对HTTP请求头的每个属性进行是否具有人性检查，但是通常真正重要的参数就是User-agent

在一个网站上持续的保持登陆状态，需要在多个页面中保存一个cookie，一些网站不要求每次登陆都获得一个新的cookie，所以保存一个旧的cookie就可以访问网站

有些表单源代码会向服务器传送大量数据，虽然表单只有三个可见字段，如果机器人直接提交，这样就会中服务器的蜜罐圈套

最后很粗糙的把这本书《python网络数据采集》差不多看完了，里面确实看了有很多非常需要深入研究的内容，接下来打算先找几个实践项目做一做

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。