Python 豆瓣顶帖

image

由于在豆瓣发了个租房帖子,发现很快就被其他的帖子淹没,但是手动顶帖实在太累,😭,所以想通过自动顶帖的方式来解放双手!

评论请求分析

通过Chrome network 分析

image
  • 评论url是https://www.douban.com/group/topic/129122199/add_comment
  • 需要带5个参数,其中 ck 是 cookie 里面的值,rv_comment 是 评论
  • 返回302代表重定向

Python 模拟请求:

# 豆瓣具体帖子
url = "https://www.douban.com/group/topic/129122199/"
# 豆瓣具体帖子回复的接口,格式是帖子链接+/add_comment
comment_url = url + "/add_comment"
cookie = 'cookie'
referer = url
agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
headers = {
    "Host": "www.douban.com",
    "Referer": referer,
    'User-Agent': agent,
    "Cookie": cookie
}
params = {
    "rv_comment": '🆙',
    "ck": re.findall("ck=(.*?);", headers["Cookie"])[-1],
    'start': '0',
    'submit_btn': '发送'
}
response = requests.post(comment_url, headers=headers, allow_redirects=False,
                         data=params, verify=False)

直接运行即可。

但是多运行几次就会发现,返回的状态码是200,而且没有顶帖成功。实际上是触发了豆瓣的防爬虫。

image

而且在我们顶帖的时候发送请求的时候还带有 captcha-solution 和 captcha-id 字段。

image

目前发现,每次评论就算相隔1分钟,只要满3次,就一定会弹出这个验证码进行验证。

验证码解析

遇到验证码我们就来破解验证码。

tesserocr

识别图形验证码需要安装tesserocr这个库,下面介绍下tesserocr。

tesserocr是Python的一个OCR识别库,但其实是对tesseract做了一层Python Api的封装,核心还是tesseract,所以在安装tesserocr之前,需要先安装tesseract。Tesseract(/‘tesərækt/) 这个词的意思是”超立方体”,指的是几何学里的四维标准方体,又称”正八胞体”,是一款被广泛使用的开源 OCR 工具。

在Mac下,使用 brew 安装

brew install tesseract --all-languages

接下来再安装tesserocr即可:

brew install imagemagick
pip install tesserocr pillow

Python 代码如下:

import tesserocr

from PIL import Image

if __name__ == '__main__':
    # 新建Image对象
    image = Image.open("/Users/liwenhao/Desktop/douban-captcha-example1.jpeg")
    # 调用tesserocr的image_to_text()方法,传入image对象完成识别
    result = tesserocr.image_to_text(image)
    print(result)

验证的图片如下:

douban-captcha-example1

结果无法识别。

换一张简单的图片试试:


captcha-example1.jpg

结果如下:

5594

看来 Tesseract 只能识别一些简单的验证码,不适合豆瓣验证码识别。

试试识别验证码平台。

百度OCR

官方接入文档: 文字识别-Python SDK接入文档

  • 重点:免费
  • 通用识别(包括身份证、银行卡)500次/日,
  • 高精度则50次/日,
  • 驾驶证,行驶证,车票,营业执照,通用票据均为200次/日

注意:
支持2.7.+及3.+

配置流程:

  1. 先开通个百度的账号;

  2. 开通文字识别服务,打开后点击立即使用:https://cloud.baidu.com/product/ocr.html

  3. 点击步骤2,应该有个信息确认的,确认后,会进入到用户个人首页,向下滑动,直接点击文字识别:


    x
  4. 点击创建应用,输入一堆内容后,点击确认即可,然后点击我的应用,这里面的API KeySecret Key需要使用到:

    image

  5. 点击右上角,用户中心,用户ID也需要用到:


    image
  6. 需要的信息准备好了,pip 安装一波

    pip install baidu-aip
    

测试一波

import json

from aip import AipOcr

if __name__ == '__main__':
    APP_ID = ' '
    API_KEY = ' '
    SECRET_KEY = ' '

    client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

    # 读取图片
    def get_file_content(file_path):
        with open(file_path, 'rb') as fp:
            return fp.read()


    image = get_file_content('/Users/liwenhao/Desktop/douban-captcha-example2.jpg')
    """ 调用通用文字识别(高精度), 图片参数为本地图片 """
    result = json.dumps(client.basicAccurate(image))
    print(result)

验证的图片如下:

douban-captcha-example1

结果走一波:

{"log_id": 3968431492157876638, "words_result_num": 1, "words_result": [{"words": " minute:"}]}

从结果可以看出识别出了这个验证码。

  • words_result_num 是识别结果数
  • words_result 是定位和识别结果数组
  • words 是识别结果字符串

再来试试

douban-captcha-example2

结果如下:

{"log_id": 5251449865676063710, "words_result_num": 0, "words_result": []}

没有识别出来,可以看到对于复杂一些的验证码还是会出现无法识别的情况,但是胜在免费。

超级鹰

对于无法识别的情况就需要打码平台了,业界比较出名的是 超级鹰

超级鹰是按量级收费,量大便宜,标准价格:1元=1000题分,不同验证码类型,需要的题分不一样,详情可以到这里查询 http://www.chaojiying.com/price.html

python 代码如下:

from hashlib import md5
import requests
import json


# 通过超级鹰识别验证码
def recognition_captcha(filename, code_type):
    im = open(filename, 'rb').read()
    params = {
        'user': '账号',
        'pass2': md5('密码'.encode('utf8')).hexdigest(),
        'softid': 'softid',
        'codetype': code_type
    }
    headers = {
        'Connection': 'Keep-Alive',
        'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
    }
    files = {'userfile': ('ccc.jpg', im)}
    resp = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
                         headers=headers).json()
    return resp


# 调用代码
if __name__ == '__main__':
    print(json.dumps(recognition_captcha('/Users/liwenhao/Desktop/douban-captcha-example2.jpg', 1006)))

上传的验证码就是上面百度 OCR 未曾识别的验证码,如下:

douban-captcha-example2

结果如下:

{"err_str": "OK", "err_no": 0, "md5": "0475b05654c376deb409bfef7eee75cd", "pic_id": "8054415552001300054", "pic_str": "yacvmd"}

发现 验证码 yacvmd 已出来。但是时间花了5s左右。后来测试发现对于豆瓣比较建的验证码花费的时间在1s内,因此从时间和准确性上面,最后还是采用了超级鹰打码平台。

失败微信通知

无论采用什么方式,都有可能出现失败的情况,我总不能采取 轮询 的方式,隔几个小时就去看看到底前面几次是否🆙成功,因此需要一个 异步通知 ,最开始想用 邮件,后来发现了 Server酱 这个神器,可以帮助我们发送微信通知,而且特别简单。

具体可以查看 Server酱

完整代码

采用 python2

import os

import requests
import urllib3
import re
from hashlib import md5
import random
from lxml import html
import logging

logging.basicConfig(level=logging.INFO, format='%(asctime)s.%(msecs)03d %(levelname)s: %(message)s',
                    datefmt='%Y-%m-%d %H:%M:%S')
urllib3.disable_warnings()


# 下载验证码图片
def download_captcha(captcha_url, agent):
    # findall返回的是一个列表
    captcha_name = re.findall("id=(.*?):", captcha_url)
    filename = "douban_%s.jpg" % (str(captcha_name[0]))
    logging.info("文件名为: " + filename)
    with open(filename, 'wb') as f:
        # 以二进制写入的模式在本地构建新文件
        header = {
            'User-Agent': agent,
            'Referer': captcha_url
        }
        f.write(requests.get(captcha_url, headers=header).content)
        logging.info("%s 下载完成" % filename)
    return filename


# 通过超级鹰识别验证码
def recognition_captcha(filename, code_type):
    im = open(filename, 'rb').read()
    params = {
        'user': '用户',
        'pass2': md5('密码'.encode('utf8')).hexdigest(),
        'softid': 'softid',
        'codetype': code_type
    }
    headers = {
        'Connection': 'Keep-Alive',
        'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
    }
    files = {'userfile': ('ccc.jpg', im)}
    resp = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
                         headers=headers).json()
    # 错误处理
    if resp.get('err_no', 0) == 0:
        return resp.get('pic_str')


def result_verification(response):
    if response.status_code == 302:
        logging.info("豆瓣ding成功")
    else:
        logging.info(response.status_code)
        logging.info(response)
        url = "https://sc.ftqq.com/你的SCKEY.send?text=douban失败" + \
              str(random.randint(0, 1000))
        requests.post(url)
        logging.info("豆瓣ding失败,发送失败信息到微信")


# 豆瓣顶帖
def douban_ding():
    # 豆瓣具体帖子
    url = "https://www.douban.com/group/topic/129122199/"
    # 豆瓣具体帖子回复的接口,格式是帖子链接+/add_comment
    comment_url = url + "/add_comment"
    cookie = 'cookie'
    referer = url
    agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
    headers = {
        "Host": "www.douban.com",
        "Referer": referer,
        'User-Agent': agent,
        "Cookie": cookie
    }
    params = {
        "rv_comment": '🆙',
        "ck": re.findall("ck=(.*?);", headers["Cookie"])[-1],
        'start': '0',
        'submit_btn': '发送'
    }
    response = requests.get(url, headers=headers, verify=False).content.decode('utf-8')
    selector = html.fromstring(response)
    captcha_image = selector.xpath("//img[@id=\"captcha_image\"]/@src")
    if captcha_image:
        logging.info("发现验证码,下载验证码")
        captcha_id = selector.xpath("//input[@name=\"captcha-id\"]/@value")
        filename = download_captcha(captcha_image[0], agent)
        captcha_solution = recognition_captcha(filename, 1006)
        os.remove(filename)
        params['captcha-solution'] = captcha_solution
        params['captcha-id'] = captcha_id
    else:
        logging.info("没有验证码")
    response = requests.post(comment_url, headers=headers, allow_redirects=False,
                             data=params, verify=False)
    result_verification(response)


if __name__ == '__main__':
    douban_ding()

运行结果:

  1. 第1次:
    2018-12-30 16:09:35.589 INFO: 没有验证码
    2018-12-30 16:09:36.436 INFO: 豆瓣ding成功
    
  2. 第4次:
    2018-12-30 16:13:02.135 INFO: 发现验证码,下载验证码
    2018-12-30 16:13:02.135 INFO: 文件名为: douban_OJGsVa0hST4O2WhFA0VpMnR9.jpg
    2018-12-30 16:13:02.554 INFO: douban_OJGsVa0hST4O2WhFA0VpMnR9.jpg 下载完成
    2018-12-30 16:13:09.687 INFO: 豆瓣ding成功
    

效果图:

image

注:

  1. 顶帖的时候控制好频率,不然容易被禁言。
    image
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容

  • 在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。 1. ...
    Einbahn_2018阅读 7,737评论 1 2
  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    小迈克阅读 2,956评论 1 3
  • 第一步安装 Tesserocr的安装爬虫过程中难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们...
    何苦_python_java阅读 8,454评论 0 1
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,016评论 4 62
  • 我的能力真的配得上我做的事吗?我究竟是为了别人的认可还是自己内心呢?我是想要当网红?为了新鲜感对错感?看似好像收获...
    全能lady云飞阅读 159评论 0 0