有个朋友,想学写作,问我,哪里能找到这方面的好书?
我说,去豆瓣,找评分最高的书籍,从里面挑。
2 分钟后,他又来了,哥,书太多,不好找。
我说,你咋这么笨,豆瓣应该有按评分排序的功能,从高到低找,不就行了。
2 分钟,他又来,哥,没有排序按钮!
怎么可能没有!
你试了没有?
网页上都仔细看遍了没?
我要是看有的话,
我就把你的手给剁了!
反正留着也没有!
真的没有,你去试试……
憋着一肚子火,我进入豆瓣,搜索栏输入「写作」,点击「书籍」栏目,一列和写作相关的书籍出现了。
排序按钮呢,好像真的没有,这下丢脸了!
咳咳……这个啊……豆瓣这个网站……很奇葩啊……基本的产品逻辑都没有……其他网站都有这个的……
哥……你刚才还骂我笨了!
啥,别说话,我想想这个该怎么弄?唉,对了,你不是学过《不用写代码的爬虫课》吗?用那个把这些全部抓下来,然后在 excel 里面排个序,就行了。
爬虫课……我都忘光了,要不你帮我抓一下?
我帮你抓!你咋不上天?
叮咚~[红包声音]
好,你等会,3 分钟!
滴答……滴答……嘀嗒……嘀嗒……
给,拿去。
哥,这么快,3 分钟不到!
让你好好学爬虫课,你不学,以后记得先发红包,否则不要来找我了!
哥,你能不能把这个步骤给我写一下,下一次,我就不麻烦你了!
还写步骤,你咋不上……
叮咚~[红包声音]
3 分钟!
步骤
先安装软件,很简单,如果以前没有装过,可以看 安装教程。
1、导入抓取模板
2、输入模板代码
{"_id":"douban","startUrl":["https://www.douban.com/search?cat=1001&q=%E5%86%99%E4%BD%9C"],"selectors":[{"id":"aaa","type":"SelectorElementClick","parentSelectors":["_root"],"selector":"div.result","multiple":true,"delay":"3000","clickElementSelector":"a.j","clickType":"clickMore","discardInitialElements":false,"clickElementUniquenessType":"uniqueCSSSelector"},{"id":"bbb","type":"SelectorText","parentSelectors":["aaa"],"selector":"h3","multiple":false,"regex":"","delay":0},{"id":"ccc","type":"SelectorText","parentSelectors":["aaa"],"selector":"span.rating_nums","multiple":false,"regex":"","delay":0},{"id":"ddd","type":"SelectorLink","parentSelectors":["aaa"],"selector":"h3 a","multiple":false,"delay":0}]}
下图 2 处 输入的信息,就是上面的代码,不用管啥意思,复制粘贴就行。
3 处起个名字,可以自己随便写
完成后,点击 4 。
3、开始抓取
然后会弹出一个窗口,就开始抓取了。
不要关闭弹出的窗口,等他抓完,就自动停止了。
你该干啥干啥去。
4、把数据下载到电脑上
点击下图 7 处「refresh」,或者「refresh data」,等一会,你会看到一些数据。
点击下图 8
点击下图 9
然后你就将数据下载到了你的电脑上。
5、清除干扰数据,按评分排序
打开 excel,查找替换,将「null」替换为空。
因为有的书籍,没有评分,就会什么都抓不到,就是 null,算是一个干扰项,清除掉。
然后将数据,按照评分列,从高到低排序。
就是这个样子 ——
然后你从评分高的里面,选择适合你的写作方式,就可以了。
6、其他可能的一些问题
(1)excel 怎么排序
(2)数据下载到哪里了
(3)我的数据好像和你的不太一样
(4)等等
这些问题,可以看前文 请教别人时,做不到这 4 点,别着急提问
上面的方法,不仅可以找写作方面的书,其他画画、英语、编程都可以按照这个方式。
而且不仅仅豆瓣,其他也可以 ——
- 某号阅读量最好的文章
- 某宝销量最好的商品
- 某城价格最便宜的房子
- 某博转发最多的帖子
- 某乎点赞最多的回答
反正,只要你能看到的,并且是大批量数据,都可以用这个,几分钟搞完。
但是需要重新写抓取模板,不过很简单哇。
你想做啥,不妨留言告诉我~