如何只花 5 分钟找出 1 个领域最好的书

有个朋友,想学写作,问我,哪里能找到这方面的好书?

我说,去豆瓣,找评分最高的书籍,从里面挑。

2 分钟后,他又来了,哥,书太多,不好找。

我说,你咋这么笨,豆瓣应该有按评分排序的功能,从高到低找,不就行了。

2 分钟,他又来,哥,没有排序按钮!

怎么可能没有!
你试了没有?
网页上都仔细看遍了没?
我要是看有的话,
我就把你的手给剁了!
反正留着也没有!

真的没有,你去试试……

憋着一肚子火,我进入豆瓣,搜索栏输入「写作」,点击「书籍」栏目,一列和写作相关的书籍出现了。


豆瓣读书

排序按钮呢,好像真的没有,这下丢脸了!

咳咳……这个啊……豆瓣这个网站……很奇葩啊……基本的产品逻辑都没有……其他网站都有这个的……

哥……你刚才还骂我笨了!

啥,别说话,我想想这个该怎么弄?唉,对了,你不是学过《不用写代码的爬虫课》吗?用那个把这些全部抓下来,然后在 excel 里面排个序,就行了。

爬虫课……我都忘光了,要不你帮我抓一下?

我帮你抓!你咋不上天?

叮咚~[红包声音]

好,你等会,3 分钟!

滴答……滴答……嘀嗒……嘀嗒……

给,拿去。

哥,这么快,3 分钟不到!

让你好好学爬虫课,你不学,以后记得先发红包,否则不要来找我了!

哥,你能不能把这个步骤给我写一下,下一次,我就不麻烦你了!

还写步骤,你咋不上……

叮咚~[红包声音]

3 分钟!

步骤

先安装软件,很简单,如果以前没有装过,可以看 安装教程

1、导入抓取模板

2、输入模板代码
{"_id":"douban","startUrl":["https://www.douban.com/search?cat=1001&q=%E5%86%99%E4%BD%9C"],"selectors":[{"id":"aaa","type":"SelectorElementClick","parentSelectors":["_root"],"selector":"div.result","multiple":true,"delay":"3000","clickElementSelector":"a.j","clickType":"clickMore","discardInitialElements":false,"clickElementUniquenessType":"uniqueCSSSelector"},{"id":"bbb","type":"SelectorText","parentSelectors":["aaa"],"selector":"h3","multiple":false,"regex":"","delay":0},{"id":"ccc","type":"SelectorText","parentSelectors":["aaa"],"selector":"span.rating_nums","multiple":false,"regex":"","delay":0},{"id":"ddd","type":"SelectorLink","parentSelectors":["aaa"],"selector":"h3 a","multiple":false,"delay":0}]}
下图 2 处 输入的信息,就是上面的代码,不用管啥意思,复制粘贴就行。

3 处起个名字,可以自己随便写

完成后,点击 4 。

3、开始抓取

image.png

image.png

然后会弹出一个窗口,就开始抓取了。

不要关闭弹出的窗口,等他抓完,就自动停止了。

你该干啥干啥去。

4、把数据下载到电脑上

点击下图 7 处「refresh」,或者「refresh data」,等一会,你会看到一些数据。

点击下图 8


点击下图 9

然后你就将数据下载到了你的电脑上。

5、清除干扰数据,按评分排序
打开 excel,查找替换,将「null」替换为空。

因为有的书籍,没有评分,就会什么都抓不到,就是 null,算是一个干扰项,清除掉。

然后将数据,按照评分列,从高到低排序。

就是这个样子 ——


然后你从评分高的里面,选择适合你的写作方式,就可以了。

6、其他可能的一些问题
(1)excel 怎么排序
(2)数据下载到哪里了
(3)我的数据好像和你的不太一样
(4)等等

这些问题,可以看前文 请教别人时,做不到这 4 点,别着急提问

上面的方法,不仅可以找写作方面的书,其他画画、英语、编程都可以按照这个方式。

而且不仅仅豆瓣,其他也可以 ——

  • 某号阅读量最好的文章
  • 某宝销量最好的商品
  • 某城价格最便宜的房子
  • 某博转发最多的帖子
  • 某乎点赞最多的回答

反正,只要你能看到的,并且是大批量数据,都可以用这个,几分钟搞完。

但是需要重新写抓取模板,不过很简单哇。

你想做啥,不妨留言告诉我~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • mean to add the formatted="false" attribute?.[ 46% 47325/...
    ProZoom阅读 2,731评论 0 3
  • 一、抓取公众号标题、时间、内容链接 {"_id":"gongzhonghao","startUrl":["http...
    明白1阅读 2,535评论 1 6
  • 概要 64学时 3.5学分 章节安排 电子商务网站概况 HTML5+CSS3 JavaScript Node 电子...
    阿啊阿吖丁阅读 9,356评论 0 3
  • 与奶奶从来都是亲密无间,无话不谈,可偶然的一句话,划出了我与奶奶之间深不见底的鸿沟… 虽然不是奶奶一手带大,可随着...
    尹若灵阅读 384评论 1 0
  • 看着眼前的小不点,觉得挺惭愧的。虽然很调皮,却少有耐心去引导。反而有些时候把情绪牵连到他身上。小朋友调皮是天性,情...
    豆妈2018阅读 239评论 0 0