使用西瓜助手和WebScraper免费获取公众号历史文章

有一天,需要爬取某个公众号的历史数据,又不想花钱,所以研究了下WebScraper,成功地抓取到了近一年的所有文章数据,没花一分钱(西瓜助手应该需要先成为会员,不确定费用多少,我是通过活动免费领取的)。

一、抓取逻辑

因为WebScraper是一个最常用的网页爬虫(对WebScraper不熟悉的同学可能先要去搜两篇文章看看它的基础用法),简单地说就是只要你给他一个网页,他就能把里面的内容都给抓下来。

但是,由于反爬的考虑,微信对公众号历史文章显示的限制越来越严,搜狗浏览器、微信客户端等地方都无法查看到完整的文章列表。

有些免费工具,比如微小宝可以查看7天的文章,但是我要研究的这个公众号更新频率很低,一个月才发5-6次,近七天的文章也就1-2篇,根本满足不了需求。

当然,还有一些网站,类似传送门,会帮你收集好历史文章,但是仅限于一些热门公众号,而且很多公众号的文章都比较旧。

后来,无意中看到「西瓜助手」中可以查看一年的历史数据,而且是网页形式,所以想着和WebScraper结合起来试试,果然成功了,特分享给大家。

注意:很多工具,包括微信自身在内,提供的功能经常会变,如果你阅读的时候发现这个方法不行了,也麻烦告诉我一声,我好找一找新的方法。

二、使用西瓜助手获取公众号历史文章列表

1、登录西瓜助手

2、点击左侧导航栏里的“素材收集”——“全网优质素材”,然后在右面界面的输入框(下图2)中输入公众号,然后点击【搜公众号】。

3、在搜索结果列表中选择你要找的公众号,点击即可打开公众号详情页面。

4、在页面下方有个“最新推文”tab,里面可以查看最新的公众号文章,点击下方【加载更多历史文章...】按钮可以显示更多的历史文章。

三、WebScraper的核心逻辑和工作步骤

1、WebScraper爬虫的核心逻辑

WebScraper抓取的核心逻辑在于选择器的设置,比如最简单的文本(Text)、超链接(Link),到表格(Table)、图像(Image),然后是复杂些的元素集(Element),以及这些基本类型的变体,比如弹出的超链接(Popup Link),点击加载更多的元素集(Element Click,这次我们就要用到这位)。

背后的逻辑其实也很简单:因为HTML是结构化的,页面是由很多tag组成的,而且这些tag间是有层次的,设置选择器就相当于告诉WebScraper要去抓哪个(哪类)tag,它是什么类型,处在哪个层次。

2、WebScraper工作步骤

WebScraper是Chrome浏览器里的一个插件,安装完(安装如果遇到问题,可以去搜一下Chrome插件安装的问题解答)之后,爬取一个网页大致需要以下几个步骤:

1)创建站点地图

要去哪里爬取数据

2)配置选择器

要抓页面上哪些内容

3)开爬Scrape

4)导出结果

更多基础介绍,大家可以自行搜索。

四、使用WebScraper抓取数据

1、准备工作

登录「西瓜助手」并打开“最新推文”页面,打开Chrome控制台(快捷键F12),点击Web Scraper打开工作台。

2、创建站点地图

名字(name)取一个方便记的。Start URL就是当前浏览器里显示的地址,直接拷贝过来即可。

create new sitemap

创建成功后,你会在“Create new sitemap”菜单前看到一个“Sitemap jiadiany”的菜单,后续所有操作都在这个菜单下进行。

3、配置选择器

在配置选择器之前,需要先分析一下页面,看你要抓取哪些数据,有什么特点,然后可以逐步尝试可行性。

最新推文截图

最新推文是按照时间从近到远排列的,最理想的我们是把整个区域1的数据做一个整体抓取下来,但是后来在选择器选取的时候始终无法选取到区域1,因此只能退而求其次选择了区域2,这里面就把“推文时间”给丢失了,后面在整理数据时我们可以利用一个值来对文章时间排序,但是没有绝对推文时间。

小技巧:在选择区域2的时候也遇到了问题,用鼠标始终无法选定这个区域,所以我们把“Enable key”开关打开,然后先选择一个小的元素,然后通过按键P(选取它的父节点)和C(选取它的子节点)来微调。

确定了要爬取区域2的数据,那我们就知道需要创建一个Element的选择器。同时,注意到这个页面一次性只显示部分数据,需要点击页面底部「加载更多历史文章...」按钮来加载更多数据,因此我们需要用到Element选择器的变体Element click。

省略具体的操作过程,该“Element click”选择器的具体配置如下:

另外,因为需要抓取区域2里面的“传播指数”(text)、“封面/文章标题”(link)、阅读数(text)、赞数(text,也就是最新的在看数)等数据,因此需要在article下分别创建这些选择器。

相应的选择器图谱和“封面/文章标题”(link)选择器配置如下:

Selector graph


titlelink selector

小技巧:选择器创建完之后,在Actions下面有两个按钮“Element preview”和“Data preview”,可以点击模拟一下看选择的元素及数据是否正确。

Selector Actions

4、开始爬取并导出数据

选择器配置好之后,就可以开始爬取了(点击Scrape菜单),你可以看到插件就好像在模拟人一样浏览这个页面,抓取区域2里面的数据,然后再点击按钮加载更多数据,直至触达停止条件。

爬取完成后,就可以直接导出一个csv文件。至此,整个爬取过程就结束了。

导出的站点地图详情(Json):

{"_id":"jiadiany","startUrl":["https://zs.xiguaji.com/Member#/MBiz/Detail/df0d2a/723965"],"selectors":[{"id":"article","type":"SelectorElementClick","selector":"div.public-details-content tbody","parentSelectors":["_root"],"multiple":true,"delay":0,"clickElementSelector":"div.loadingMorePanel a.btn","clickType":"clickMore","discardInitialElements":false,"clickElementUniquenessType":"uniqueCSSSelector"},{"id":"index","type":"SelectorText","selector":"tr:nth-of-type(1) span.risk-index","parentSelectors":["article"],"multiple":false,"regex":"","delay":0},{"id":"titlelink","type":"SelectorLink","selector":"tr:nth-of-type(1) div.mp-article-title a","parentSelectors":["article"],"multiple":false,"delay":0},{"id":"readcnt","type":"SelectorText","selector":"tr:nth-of-type(1) td:nth-of-type(5)","parentSelectors":["article"],"multiple":false,"regex":"","delay":0},{"id":"rank","type":"SelectorText","selector":"tr:nth-of-type(1) td:nth-of-type(6)","parentSelectors":["article"],"multiple":false,"regex":"","delay":0}]}


五、数据处理

打开CSV文件,我们可以简单对数据进行处理,以便更好地分析。

1、按照字段“web-scraper-order”排序(这个字段的意思是WebScraper采集的顺序,也就是文章的时间顺序)。

2、将阅读数10001+(文本)替换成数字10001,以便我们进行统计。

3、标题和正文,我们可以进一步用NLPIR工具进行处理。

有任何问题,欢迎提出来一起讨论研究。


转载说明:本文为“三少爷的见”原创文章,转载请务必注明出处。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容

  • 需求:获取指定关键字(母婴)下的公司信息(公司名称、地址、法人、联系方式)步骤:一、下载webscraper插件。...
    大婶N72阅读 3,942评论 0 1
  • 前端开发面试题 面试题目: 根据你的等级和职位的变化,入门级到专家级,广度和深度都会有所增加。 题目类型: 理论知...
    怡宝丶阅读 2,569评论 0 7
  • 凉山,那份牵挂文/一树繁花 年轻的血肉唱响赞歌唤醒 一个名族沉睡的视听这个时代 需要英雄引领!
    一树繁花_649d阅读 91评论 0 0
  • 钱,对于任何人来说,都是不够用的。我们能够平安健康的长大,这一切的功劳都来源于我们的父母。如今,我们也有能力来独...
    苹果就是苹果阅读 395评论 0 0
  • 闲置已久的笔终究还是落了。此刻,这些零零散散的文字夹杂着些许酸酸甜甜的味道在纸上肆意蔓延。 雨后的天空分外晴朗,地...
    影过无痕雨亦落阅读 361评论 0 2