Python 豆瓣顶帖

image

由于在豆瓣发了个租房帖子，发现很快就被其他的帖子淹没，但是手动顶帖实在太累，😭，所以想通过自动顶帖的方式来解放双手！

评论请求分析

通过Chrome network 分析

image

评论url是https://www.douban.com/group/topic/129122199/add_comment
需要带5个参数，其中 ck 是 cookie 里面的值，rv_comment 是评论
返回302代表重定向

Python 模拟请求：

# 豆瓣具体帖子
url = "https://www.douban.com/group/topic/129122199/"
# 豆瓣具体帖子回复的接口，格式是帖子链接+/add_comment
comment_url = url + "/add_comment"
cookie = 'cookie'
referer = url
agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
headers = {
    "Host": "www.douban.com",
    "Referer": referer,
    'User-Agent': agent,
    "Cookie": cookie
}
params = {
    "rv_comment": '🆙',
    "ck": re.findall("ck=(.*?);", headers["Cookie"])[-1],
    'start': '0',
    'submit_btn': '发送'
}
response = requests.post(comment_url, headers=headers, allow_redirects=False,
                         data=params, verify=False)

直接运行即可。

但是多运行几次就会发现，返回的状态码是200，而且没有顶帖成功。实际上是触发了豆瓣的防爬虫。

image

而且在我们顶帖的时候发送请求的时候还带有 captcha-solution 和 captcha-id 字段。

image

目前发现，每次评论就算相隔1分钟，只要满3次，就一定会弹出这个验证码进行验证。

验证码解析

遇到验证码我们就来破解验证码。

tesserocr

识别图形验证码需要安装tesserocr这个库，下面介绍下tesserocr。

tesserocr是Python的一个OCR识别库，但其实是对tesseract做了一层Python Api的封装，核心还是tesseract，所以在安装tesserocr之前，需要先安装tesseract。Tesseract(/‘tesərækt/) 这个词的意思是”超立方体”，指的是几何学里的四维标准方体，又称”正八胞体”，是一款被广泛使用的开源 OCR 工具。

在Mac下，使用 brew 安装

brew install tesseract --all-languages

接下来再安装tesserocr即可：

brew install imagemagick
pip install tesserocr pillow

Python 代码如下：

import tesserocr

from PIL import Image

if __name__ == '__main__':
    # 新建Image对象
    image = Image.open("/Users/liwenhao/Desktop/douban-captcha-example1.jpeg")
    # 调用tesserocr的image_to_text()方法，传入image对象完成识别
    result = tesserocr.image_to_text(image)
    print(result)

验证的图片如下：

douban-captcha-example1

结果无法识别。

换一张简单的图片试试：

captcha-example1.jpg

结果如下：

看来 Tesseract 只能识别一些简单的验证码，不适合豆瓣验证码识别。

试试识别验证码平台。

百度OCR

官方接入文档: 文字识别-Python SDK接入文档

重点：免费
通用识别（包括身份证、银行卡）500次/日，
高精度则50次/日，
驾驶证，行驶证，车票，营业执照，通用票据均为200次/日

注意：
支持2.7.+及3.+

配置流程：

先开通个百度的账号；
开通文字识别服务，打开后点击立即使用：https://cloud.baidu.com/product/ocr.html
点击步骤2，应该有个信息确认的，确认后，会进入到用户个人首页，向下滑动，直接点击文字识别:

x
点击创建应用，输入一堆内容后，点击确认即可，然后点击我的应用，这里面的API Key 跟Secret Key需要使用到:

image
点击右上角，用户中心，用户ID也需要用到:

image
需要的信息准备好了，pip 安装一波
```
pip install baidu-aip
```

测试一波

import json

from aip import AipOcr

if __name__ == '__main__':
    APP_ID = ' '
    API_KEY = ' '
    SECRET_KEY = ' '

    client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

    # 读取图片
    def get_file_content(file_path):
        with open(file_path, 'rb') as fp:
            return fp.read()


    image = get_file_content('/Users/liwenhao/Desktop/douban-captcha-example2.jpg')
    """ 调用通用文字识别(高精度), 图片参数为本地图片 """
    result = json.dumps(client.basicAccurate(image))
    print(result)

验证的图片如下：

douban-captcha-example1

结果走一波：

{"log_id": 3968431492157876638, "words_result_num": 1, "words_result": [{"words": " minute:"}]}

从结果可以看出识别出了这个验证码。

words_result_num 是识别结果数
words_result 是定位和识别结果数组
words 是识别结果字符串

再来试试

douban-captcha-example2

结果如下：

{"log_id": 5251449865676063710, "words_result_num": 0, "words_result": []}

没有识别出来，可以看到对于复杂一些的验证码还是会出现无法识别的情况，但是胜在免费。

超级鹰

对于无法识别的情况就需要打码平台了，业界比较出名的是超级鹰。

超级鹰是按量级收费，量大便宜，标准价格:1元=1000题分，不同验证码类型，需要的题分不一样，详情可以到这里查询 http://www.chaojiying.com/price.html

python 代码如下：

from hashlib import md5
import requests
import json


# 通过超级鹰识别验证码
def recognition_captcha(filename, code_type):
    im = open(filename, 'rb').read()
    params = {
        'user': '账号',
        'pass2': md5('密码'.encode('utf8')).hexdigest(),
        'softid': 'softid',
        'codetype': code_type
    }
    headers = {
        'Connection': 'Keep-Alive',
        'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
    }
    files = {'userfile': ('ccc.jpg', im)}
    resp = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
                         headers=headers).json()
    return resp


# 调用代码
if __name__ == '__main__':
    print(json.dumps(recognition_captcha('/Users/liwenhao/Desktop/douban-captcha-example2.jpg', 1006)))

上传的验证码就是上面百度 OCR 未曾识别的验证码，如下：

douban-captcha-example2

结果如下：

{"err_str": "OK", "err_no": 0, "md5": "0475b05654c376deb409bfef7eee75cd", "pic_id": "8054415552001300054", "pic_str": "yacvmd"}

发现验证码 yacvmd 已出来。但是时间花了5s左右。后来测试发现对于豆瓣比较建的验证码花费的时间在1s内，因此从时间和准确性上面，最后还是采用了超级鹰打码平台。

失败微信通知

无论采用什么方式，都有可能出现失败的情况，我总不能采取轮询的方式，隔几个小时就去看看到底前面几次是否🆙成功，因此需要一个异步通知，最开始想用邮件，后来发现了 Server酱这个神器，可以帮助我们发送微信通知，而且特别简单。

具体可以查看 Server酱。

完整代码

采用 python2

import os

import requests
import urllib3
import re
from hashlib import md5
import random
from lxml import html
import logging

logging.basicConfig(level=logging.INFO, format='%(asctime)s.%(msecs)03d %(levelname)s: %(message)s',
                    datefmt='%Y-%m-%d %H:%M:%S')
urllib3.disable_warnings()


# 下载验证码图片
def download_captcha(captcha_url, agent):
    # findall返回的是一个列表
    captcha_name = re.findall("id=(.*?):", captcha_url)
    filename = "douban_%s.jpg" % (str(captcha_name[0]))
    logging.info("文件名为: " + filename)
    with open(filename, 'wb') as f:
        # 以二进制写入的模式在本地构建新文件
        header = {
            'User-Agent': agent,
            'Referer': captcha_url
        }
        f.write(requests.get(captcha_url, headers=header).content)
        logging.info("%s 下载完成" % filename)
    return filename


# 通过超级鹰识别验证码
def recognition_captcha(filename, code_type):
    im = open(filename, 'rb').read()
    params = {
        'user': '用户',
        'pass2': md5('密码'.encode('utf8')).hexdigest(),
        'softid': 'softid',
        'codetype': code_type
    }
    headers = {
        'Connection': 'Keep-Alive',
        'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
    }
    files = {'userfile': ('ccc.jpg', im)}
    resp = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
                         headers=headers).json()
    # 错误处理
    if resp.get('err_no', 0) == 0:
        return resp.get('pic_str')


def result_verification(response):
    if response.status_code == 302:
        logging.info("豆瓣ding成功")
    else:
        logging.info(response.status_code)
        logging.info(response)
        url = "https://sc.ftqq.com/你的SCKEY.send?text=douban失败" + \
              str(random.randint(0, 1000))
        requests.post(url)
        logging.info("豆瓣ding失败，发送失败信息到微信")


# 豆瓣顶帖
def douban_ding():
    # 豆瓣具体帖子
    url = "https://www.douban.com/group/topic/129122199/"
    # 豆瓣具体帖子回复的接口，格式是帖子链接+/add_comment
    comment_url = url + "/add_comment"
    cookie = 'cookie'
    referer = url
    agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
    headers = {
        "Host": "www.douban.com",
        "Referer": referer,
        'User-Agent': agent,
        "Cookie": cookie
    }
    params = {
        "rv_comment": '🆙',
        "ck": re.findall("ck=(.*?);", headers["Cookie"])[-1],
        'start': '0',
        'submit_btn': '发送'
    }
    response = requests.get(url, headers=headers, verify=False).content.decode('utf-8')
    selector = html.fromstring(response)
    captcha_image = selector.xpath("//img[@id=\"captcha_image\"]/@src")
    if captcha_image:
        logging.info("发现验证码，下载验证码")
        captcha_id = selector.xpath("//input[@name=\"captcha-id\"]/@value")
        filename = download_captcha(captcha_image[0], agent)
        captcha_solution = recognition_captcha(filename, 1006)
        os.remove(filename)
        params['captcha-solution'] = captcha_solution
        params['captcha-id'] = captcha_id
    else:
        logging.info("没有验证码")
    response = requests.post(comment_url, headers=headers, allow_redirects=False,
                             data=params, verify=False)
    result_verification(response)


if __name__ == '__main__':
    douban_ding()

运行结果：

第1次：

2018-12-30 16:09:35.589 INFO: 没有验证码
2018-12-30 16:09:36.436 INFO: 豆瓣ding成功

第4次：

2018-12-30 16:13:02.135 INFO: 发现验证码，下载验证码
2018-12-30 16:13:02.135 INFO: 文件名为: douban_OJGsVa0hST4O2WhFA0VpMnR9.jpg
2018-12-30 16:13:02.554 INFO: douban_OJGsVa0hST4O2WhFA0VpMnR9.jpg 下载完成
2018-12-30 16:13:09.687 INFO: 豆瓣ding成功

效果图：

image

注：

顶帖的时候控制好频率，不然容易被禁言。

image

最后编辑于：2019.01.06 16:47:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,809评论 6赞 513
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,189评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,290评论 0赞 359
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,399评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,425评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,116评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,710评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,629评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,155评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,261评论 3赞 339
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,399评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,068评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,758评论 3赞 332
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,252评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,381评论 1赞 271
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,747评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,402评论 2赞 358

Python 豆瓣顶帖

评论请求分析

验证码解析

tesserocr

百度OCR

配置流程：

测试一波

超级鹰

失败微信通知

完整代码

推荐阅读更多精彩内容