Python | 使用wechatsogou抓取公众号文章并发送邮件

作为一个 `coder` 我们每天都在看一些书,博客或者大牛的公众号,生怕被技术淘汰. 但是订阅多个公众号,每天看公众号是否有新消息,也要浪费大量的时间和精力,如果公众号文章出现更新,能自动发送到邮件,这样既可以在一个环境中查看多个公众号的文章,也可以省去我们查看多个公众号浪费的时间.

作为一个技术人员,在给他人提供便利的同时,也要给自己提供遍历,那就写一个脚本就好了

# 用到的库

- wechatsogou(https://github.com/Chyroc/WechatSogou)

>**wechatsogou** 基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫

**代码**

注释是在写文章的时候加上的,不一定符合 pep 标准,还请谅解

```python

import os

import pickle

import smtplib

from email.header import Header

from email.mime.text import MIMEText

from email.utils import parseaddr, formataddr

import requests

import wechatsogou

# 发件人地址

from_address = 'zyndev@163.com'

# 发件人邮箱密码

password = ''

# 邮箱服务器

smtp_server = 'smtp.163.com'

fail_count = 0

fail_list = []

sent_list = []

# 添加一个文件,将已经发送成功的文章标题序列化到文件,防止多次运行导致重复发送邮件

file_path = 'sent_articles_file'

# 一些敏感词,简单过滤一下

sensitive_words = ['鄙视链', '中奖名单', '成功说一口流利英语', '婚姻', '恋爱']

ws_api = wechatsogou.WechatSogouAPI()

# 获取公众号文章信息

def get_article(gzh):

    articles = ws_api.get_gzh_article_by_history(gzh)

    print(len(articles['article']))

    return articles['article']

# 设置下编码

def _format_addr(s):

    name, addr = parseaddr(s)

    return formataddr((Header(name, 'utf-8').encode(), addr))

# 发送邮件

def send_mail(to_address, subject, msg_html):


    server = smtplib.SMTP(smtp_server, 25)

    # server.set_debuglevel(1)

    server.login(from_address, password)

    # msg = MIMEText('hello, send by Python...', 'plain', 'utf-8')

    msg = MIMEText(msg_html, 'html', 'utf-8')

    msg['From'] = _format_addr('张瑀楠 <%s>' % from_address)

    msg['To'] = _format_addr(' Dear ')

    msg['Subject'] = Header(subject, 'utf-8').encode()

    try:

        server.sendmail(from_address, to_address, msg.as_string())

    except:

        global fail_count

        fail_count += 1

        fail_list.append(subject)

if '__main__' == __name__:

    # 定义一个公众号列表

    gzh_list = ['全栈布道士', '编程人生', 'importNew', 'Python开发者', '非著名程序员',

                'Python之美', '机器学习研究会', '程序员大咖', '51CTO', '纯洁的微笑']

    # 指定邮箱列表,这里有个建议,请邮件列表中将发件人添加到白名单,降低发送的失败率

    mail_list = ['hbyunan@yeah.net', '913396132@qq.com', 'zyndev@gmail.com', '935855148@qq.com']

    for gzh in gzh_list:

        # 查找公众号之前,先从文件中反序列化出已经成功发送的文章列表

        if os.path.exists(file_path):

            f = open(file_path, 'rb')

            sent_list = pickle.load(f)

            f.close()

        articles = get_article(gzh)

        for article in articles:

            print(article['title'],'\n\t' ,article['content_url'])

            fileid = str(article['send_id']) + '_' + str(article['fileid'])

            # 如果新文章不在文章列表中,则发送

            if fileid not in sent_list:

                response_text = requests.get(article['content_url']).text

                send_mail(mail_list, article['title'], response_text)

                sent_list.append(fileid)

        print('发布数量', len(articles), '失败数量', fail_count)

        print('=' * 40)

        for subject in fail_list:

            print(subject)

        # 单个公众号文章发送完毕后,将新的已发送文章列表序列化,防止出现中途退出,造成重复发送

        f = open(file_path, 'wb')

        pickle.dump(sent_list, f)

        f.close()

```

# 小结

主要用到了 `wechatsogou` 这个库来获取公众号的文章信息,关于这个库的使用可以访问 github(https://github.com/Chyroc/WechatSogou)

可以结合`windows` 或者 `linux` 的定时任务来设置每天运行一次

windows10 设置定时任务方法(https://jingyan.baidu.com/article/f79b7cb313f13a9145023e4a.html)

**推荐几个公众号**

- 全栈布道士  (我自己在写)

- 编程人生

- importNew (基本每天都有一些java相关文章发布)

- Python开发者

- Python之美 (豆瓣大佬董伟明的公众号,干活多)

- 51CTO

- 纯洁的微笑(对于 Spring Cloud 和 Spring Boot 有疑惑可以多看看)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,637评论 18 139
  • 1、开启公众号开发者模式 公众平台的技术文档目的为了简明扼要的交代接口的使用,语句难免苦涩难懂,甚至对于不同的读者...
    good7758阅读 1,513评论 0 1
  • 无戒365训练营极限挑战第10天第七节 何柳虽然不办公,却仍然掌握着科室的工作动态。虽然陈世宁的姿态有些耐人寻味,...
    流花河阅读 337评论 3 5
  • 手机里一直安装着一个app即刻,这个app有许多的订阅主题。有一天app给我推荐了一个主题,每天一句马男的名句,截...
    midlight阅读 814评论 0 1
  • 木易味的蕋茗阅读 87评论 0 0