Python 简单关键字爬取公众号文章

原文地址:Python 简单关键字爬取公众号文章
爬取目标:微信公众号“纵梦广科”中“表白墙”(可选“吐槽墙”)的文章
爬取字段:表白对象、表白内容
爬取缘由:分析“表白墙”上的同学什么说得多的词
爬取工具:matplotlib、wordcloud、jieba
爬取结果: “表白墙”文章160篇
爬取收获:简单爬取公众号文章、简单生成词云
爬取注意

  • 因为爬取内容可以简洁地直接保存txt文本进行绘画词云分析,所有并没有存入数据库
  • 本项目代码不具有可复用性,无论是登录的cookie还是文章的页数都需要重新手动获取输入
  • 代码中cookie的值太长了,都在一行不方便阅读,于是做了分行,可以根据个人喜好选择
  • 本代码通用于爬取公众号文章的标题url,如需要爬取文章内容则需要手动更改爬取规则
  • token的值是爬取的公众号的标识符,如果更换公众号就需要更改该值
  • 本项目代码因为“表白墙”与“吐槽墙”网页结构相同,因此可以自行选择输入“表白墙”或“吐槽墙”进行爬取
  • 词云图在本文档后面
  • 获取cookie等操作步骤在本文最后

ps:
在参考文章中的例子是直接搜索公众号全部内容文章的,我测试过这样爬取全部的话只能爬几页就被提示”操作太频繁“而无法爬取,但换成关键字"query"搜索的话没有出现问题,目前本代码爬取”表白墙“32页并没有本禁止。本来还尝试如何避免封装爬取全部文章但没有成功,但如果关键字是空白符或者其他标点符号的话也能获取大部分文章

代码

# -*- coding: utf-8 -*-
import requests
from PIL import Image
from lxml import etree
import time
import random
import matplotlib.pyplot as plt
import numpy as np
from wordcloud import WordCloud
import jieba


# 使用Cookie,跳过登陆操作
headers = {
    "Cookie": "noticeLoginFlag=1; remember_acct=820605644%40qq.com; "
              "ua_id=F89e6CvMPIib8tkPAAAAAE8A9_O5KrS5oMM390XQRHI=; mm_lang=zh_CN; pgv_pvi=1996118016; "
              "noticeLoginFlag=1; remember_acct=820605644%40qq.com; pgv_si=s2063726592; ticket_id=gh_86437b3d3630; "
              "cert=3RRm40LWsECquCbg_jx5lQTMXRR4M0tN; rewardsn=; wxtokenkey=777; "
              "uuid=652947b257247d453cd64dc13a5daf0b; ticket=d19dbee738a3be7f0806c8a5f726b8d8cac125f6; "
              "data_bizuin=3555601673; bizuin=3551846274; "
              "data_ticket=eeN9lRUD61DWiiLZEJyFKGoi70SoJ2dB1BoNi4PnSvNaf6R3jA83ZYyEI1y3LaOU; "
              "slave_sid"
              "=elBZTHhvYlc0VmNnYTM0SnZ6Wl9DaGZTNWh0M0VZVHlxUDBfWHNUW"
              "jFVbEpOcFpmWEpuNUFXTEdGRWI5a3p6OGhrUWYweExnNjN2d0xMUWEwTVlLVWxIWk9mXzhzbkYxWndCQUVYTm"
              "l1UnVxYlNWbmR3Q09VT2pMbEFMZDNhOFhXTnRnMlpDbDhvYzZWN2hQ;"
              " slave_user=gh_86437b3d3630; xid=a5467f49610c64af7a7022c6a4596f40; "
              "openid2ticket_oCS3u05exHidsZqiS_3Q8Yn-YtYI=JjxfUwXvqw0VBHJhW5TvmrOn8W5QMp/ReaanapVptWI=",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/65.0.3325.162 Safari/537.36",
}


# 词云
def get_word(f):
    """
    创建词云图片,默认样式
    :param f:
    :return:
    """
    text_from_file_with_apath = open(f, 'rb').read().decode('utf-8')
    wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all=True)
    print(wordlist_after_jieba)
    wl_space_split = " ".join(wordlist_after_jieba)
    alice_mask = np.array(Image.open("girl.jpg"))  # 以数组的形式加载图画
    my_wordcloud = WordCloud(font_path="simhei.ttf",  # 设置字体
                             background_color="white",  # 背景颜色
                             max_words=2000,  # 词云显示的最大词数
                             mask=alice_mask,  # 设置背景图片
                             max_font_size=100,  # 字体最大值
                             random_state=42,
                             margin=2,  # 设置图片默认的大小,但是如果使用背景图片的话,那么保存的图片大小将会按照其大小保存,margin为词语边缘距离
                             ).generate(wl_space_split)
    plt.imshow(my_wordcloud)
    plt.axis("off")
    plt.show()

def get_info(url):
    """
    获取文章中的吐槽对象和吐槽内容
    :param url:
    :return:
    """
    res = requests.get(url, headers=headers)
    selector = etree.HTML(res.text)
    names = selector.xpath('// *[ @ id = "js_content"] // section / section[2] / section / span / span / text()')
    contents = selector.xpath('// *[ @ id = "js_content"] // section / section[2] / section / text()')
    with open('name.txt', 'ab+') as f:
        for s in names:
            f.write(s.strip().encode('utf-8'))

    with open('content.txt', 'ab+') as f:
        for s in contents:
            f.write(s.strip().encode('utf-8'))
    return 'content.txt', 'name.txt'


def get_list(url, input_name, post_num):
    """
    获取每页搜索结果的json中文章的标题和url
    :param url:
    :return:
    """
    for num in range(post_num):
        data = {
            "token": 1111467131,
            "lang": "zh_CN",
            "f": "json",
            "ajax": "1",
            "action": "list_ex",
            "begin": num * 5,
            "random": 0.040206335386987035,
            "count": "5",
            "query": input_name,
            "fakeid": "MzAwMzExNTQyNQ==",
            "type": "9",
        }
        # 使用get方法进行提交
        content_json = requests.get(url, headers=headers, params=data).json()
        # 返回了一个json,里面是每一页的数据
        for item in content_json["app_msg_list"]:
            # 提取每页文章的标题及对应的url
            print(item["title"], "url:", item["link"])
            f1, f2 = get_info(item["link"])
        time.sleep(random.randint(0, 30))
    return f1, f2


# 目标url
if __name__ == "__main__":
    input_name = "表白墙"  # 表白墙或吐槽墙任选其一
    url = "https://mp.weixin.qq.com/cgi-bin/appmsg"
    f1, f2 = get_list(url, input_name, post_num=32)
    get_word(f1)  # 创建词云
    get_word(f2)

图片

公众号截图:


image

image

表白内容词云:


image

表白对象词云:
image

操作步骤

1、拥有一个微信个人订阅号,附上登陆和注册链接。微信公众平台

2、好在之前无聊注册过一次,所以就可以直接登陆操作。没有注册的童鞋可以用自己的微信号注册一下,过程十分简单,在此就不赘述了

3、登陆之后,点击左侧菜单栏“管理”-“素材管理”。再点击右边的“新建图文素材”

image

​弹出一个新的标签页,在上面的工具栏找到“超链接”并点击


image

弹出了一个小窗口,选择“查找文章”,输入需要查找的公众号


image

点击之后,可以弹出该公众号的所有历史文章


image

关键字搜索、页数
image

查看cookie

fd998b0390a9f895d607475aa8478ea.png

查看token

4ab514c9ff2ed0a955f299aee5c29f5.png

本文部分参考该博友的文章:https://blog.csdn.net/wnma3mz/article/details/78570580

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352

推荐阅读更多精彩内容