使用西瓜助手和WebScraper免费获取公众号历史文章

有一天，需要爬取某个公众号的历史数据，又不想花钱，所以研究了下WebScraper，成功地抓取到了近一年的所有文章数据，没花一分钱（西瓜助手应该需要先成为会员，不确定费用多少，我是通过活动免费领取的）。

一、抓取逻辑

因为WebScraper是一个最常用的网页爬虫（对WebScraper不熟悉的同学可能先要去搜两篇文章看看它的基础用法），简单地说就是只要你给他一个网页，他就能把里面的内容都给抓下来。

但是，由于反爬的考虑，微信对公众号历史文章显示的限制越来越严，搜狗浏览器、微信客户端等地方都无法查看到完整的文章列表。

有些免费工具，比如微小宝可以查看7天的文章，但是我要研究的这个公众号更新频率很低，一个月才发5-6次，近七天的文章也就1-2篇，根本满足不了需求。

当然，还有一些网站，类似传送门，会帮你收集好历史文章，但是仅限于一些热门公众号，而且很多公众号的文章都比较旧。

后来，无意中看到「西瓜助手」中可以查看一年的历史数据，而且是网页形式，所以想着和WebScraper结合起来试试，果然成功了，特分享给大家。

注意：很多工具，包括微信自身在内，提供的功能经常会变，如果你阅读的时候发现这个方法不行了，也麻烦告诉我一声，我好找一找新的方法。

二、使用西瓜助手获取公众号历史文章列表

1、登录西瓜助手

2、点击左侧导航栏里的“素材收集”——“全网优质素材”，然后在右面界面的输入框（下图2）中输入公众号，然后点击【搜公众号】。

3、在搜索结果列表中选择你要找的公众号，点击即可打开公众号详情页面。

4、在页面下方有个“最新推文”tab，里面可以查看最新的公众号文章，点击下方【加载更多历史文章...】按钮可以显示更多的历史文章。

三、WebScraper的核心逻辑和工作步骤

1、WebScraper爬虫的核心逻辑

WebScraper抓取的核心逻辑在于选择器的设置，比如最简单的文本（Text）、超链接（Link），到表格（Table）、图像（Image），然后是复杂些的元素集（Element），以及这些基本类型的变体，比如弹出的超链接（Popup Link），点击加载更多的元素集（Element Click，这次我们就要用到这位）。

背后的逻辑其实也很简单：因为HTML是结构化的，页面是由很多tag组成的，而且这些tag间是有层次的，设置选择器就相当于告诉WebScraper要去抓哪个（哪类）tag，它是什么类型，处在哪个层次。

2、WebScraper工作步骤

WebScraper是Chrome浏览器里的一个插件，安装完（安装如果遇到问题，可以去搜一下Chrome插件安装的问题解答）之后，爬取一个网页大致需要以下几个步骤：

1）创建站点地图

要去哪里爬取数据

2）配置选择器

要抓页面上哪些内容

3）开爬Scrape

4）导出结果

更多基础介绍，大家可以自行搜索。

四、使用WebScraper抓取数据

1、准备工作

2、创建站点地图

名字（name）取一个方便记的。Start URL就是当前浏览器里显示的地址，直接拷贝过来即可。

create new sitemap

创建成功后，你会在“Create new sitemap”菜单前看到一个“Sitemap jiadiany”的菜单，后续所有操作都在这个菜单下进行。

3、配置选择器

在配置选择器之前，需要先分析一下页面，看你要抓取哪些数据，有什么特点，然后可以逐步尝试可行性。

4、开始爬取并导出数据

选择器配置好之后，就可以开始爬取了（点击Scrape菜单），你可以看到插件就好像在模拟人一样浏览这个页面，抓取区域2里面的数据，然后再点击按钮加载更多数据，直至触达停止条件。

爬取完成后，就可以直接导出一个csv文件。至此，整个爬取过程就结束了。

导出的站点地图详情（Json）：

{"_id":"jiadiany","startUrl":["https://zs.xiguaji.com/Member#/MBiz/Detail/df0d2a/723965"],"selectors":[{"id":"article","type":"SelectorElementClick","selector":"div.public-details-content tbody","parentSelectors":["_root"],"multiple":true,"delay":0,"clickElementSelector":"div.loadingMorePanel a.btn","clickType":"clickMore","discardInitialElements":false,"clickElementUniquenessType":"uniqueCSSSelector"},{"id":"index","type":"SelectorText","selector":"tr:nth-of-type(1) span.risk-index","parentSelectors":["article"],"multiple":false,"regex":"","delay":0},{"id":"titlelink","type":"SelectorLink","selector":"tr:nth-of-type(1) div.mp-article-title a","parentSelectors":["article"],"multiple":false,"delay":0},{"id":"readcnt","type":"SelectorText","selector":"tr:nth-of-type(1) td:nth-of-type(5)","parentSelectors":["article"],"multiple":false,"regex":"","delay":0},{"id":"rank","type":"SelectorText","selector":"tr:nth-of-type(1) td:nth-of-type(6)","parentSelectors":["article"],"multiple":false,"regex":"","delay":0}]}

五、数据处理

打开CSV文件，我们可以简单对数据进行处理，以便更好地分析。

1、按照字段“web-scraper-order”排序（这个字段的意思是WebScraper采集的顺序，也就是文章的时间顺序）。

2、将阅读数10001+（文本）替换成数字10001，以便我们进行统计。

3、标题和正文，我们可以进一步用NLPIR工具进行处理。

有任何问题，欢迎提出来一起讨论研究。

转载说明：本文为“三少爷的见”原创文章，转载请务必注明出处。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,386评论 6赞 479
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,939评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,851评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,953评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,971评论 5赞 369
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,784评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,126评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,765评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,148评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,744评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,858评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,479评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,080评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,053评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,278评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,245评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,590评论 2赞 343