7-20
OCR库
Pillow和Tesseract
Twsseract是一个python的命令行工具,不是通过import语句导入库,安装之后,要用tesseract命令在python外面运行
NumPy
numpy可以用数学方法把图片表示成巨大的像素数组,配合tesseract完成任务
遇到背景色渐变,可以用python脚本对图片进行清理,利用pillow库,创建一个阈值过滤器去掉渐变背景色,只把文字保留下来
训练Tesseract
首先把大量的验证码下载到一个文件夹里,第二步是准确的告诉Tesseract一张图片中的每个字符是什么,以及每个字符的具体位置,这里需要创建一些矩形定位文件,在线工具teaaeract ocr chopper可以帮你完成
修改请求头
请求头可以通过requests模块进行自定义,网站会对HTTP请求头的每个属性进行是否具有人性检查,但是通常真正重要的参数就是User-agent
处理cookie
在一个网站上持续的保持登陆状态,需要在多个页面中保存一个cookie,一些网站不要求每次登陆都获得一个新的cookie,所以保存一个旧的cookie就可以访问网站
隐含输入字段
有些表单源代码会向服务器传送大量数据,虽然表单只有三个可见字段,如果机器人直接提交,这样就会中服务器的蜜罐圈套
单元测试
最后很粗糙的把这本书《python网络数据采集》差不多看完了,里面确实看了有很多非常需要深入研究的内容,接下来打算先找几个实践项目做一做