究竟有多少好内容,躺在你的知乎收藏夹吃灰?「爬虫生产力」

I.优质内容躺在收藏夹吃灰,Why?

我很喜欢知乎,这里有大量的优质回答和文章,以及媲美P**nhub的推荐算法。

换句话说,我刷知乎的行为模式简直像个无情的手冲机器。

看到算法推荐的好东西,先粗看一遍就扔到收藏夹里,然后等到要用了(通常是几周后)再回去现翻。

开始时我觉得这样好,我能记住我的收藏夹里有什么东西,要用的时候也能及时找到。可是随着我收藏数量的增加,检索收藏夹的难度越来越大,「复习」收藏夹的频率也越来越低。


每当我要从垃圾桶般的收藏夹里找东西的时候,我都感觉很头疼,我反思了一下,这能怪我吗?知乎的收藏系统完全就是屑嘛


知乎收藏功能的问题主要体现以下几方面:

1.电脑版收藏夹每页只能显示10个条目,没有搜索功能。

2.手机版收藏夹则是做成了瀑布流显示,没有搜索功能。

3.收藏夹(https://www.zhihu.com/collection/xxx)这个网页平均要4000ms左右才能加载完成,速度很慢。

4.对于我这类用户,使用「收藏」的频率远比使用「点赞」的频率高,而知乎收藏夹偏偏没有更高级的「导出」,「排序」等操作。

收藏系统问题这么多,要怎么办呢?


II.用爬虫收集收藏内容?HOW?

最近Python频频在我的朋友圈刷屏,用Python提高生产力成了培训机构的有力广告词,这些机构用的最多的案例就是用python爬虫采集数据,辅助决策。

JB公司的调查显示,有81%的开发者不止在工作中使用python,在生活和教育方面python占比也很大。

看起来,用爬虫处理这个生活小问题非常合适,那么本篇文章主要讲的就是python爬虫吗?


不完全是,我python比较菜,所以本篇「暂时」用java来写收藏夹爬虫,不过原理是类似的,有兴趣的看官也可以拿python重写一下这个爬虫。


正式开始之前..

如果只是想爬取自己的收藏夹,请查看「III.爬取你的收藏夹内容」。

如果想查看爬虫编写的过程,请查看「IV.技术实现」。


III.爬取你的收藏夹内容

在使用我编写的这个爬虫之前,请确保计算机上安装了JDK8或JRE8,你可以通过在搜索栏输入Java来确定自己是否安装了必须的环境。


链接:https://pan.baidu.com/s/1VHEgWVmVmrg4WsQbFUvgmw

提取码:ytbw

爬虫主体Sophy.jar请前往https://github.com/Masonic9/Sophy/releases下载。

操作步骤:

1) 打开你的网页版知乎收藏夹

找到你的收藏夹编号,在这个例子中,我的收藏夹编号为「390150509」

2) 新建一个文件夹,把下载下来的Sophy.jar放到这个文件夹里。


3) 在这个文件夹的空白处按「Shift+右键」,找到右键菜单的「在此处打开PowerShell窗口」或「在此处打开命令提示符(CMD)」。


在新打开的CMD或Powershell中输入

java -jar .\Sophy.jar mine[收藏夹编号]

在我这个例子中,我应该输入

java -jar .\Sophy.jar mine 390150509

按下回车,稍等一会(1-∞分钟不等,取决于你的收藏夹页数)。


4) 爬虫爬取结束后,在你的文件夹里会出现一个.csv文件,使用Excel即可打开查看。


剩下的工作就可以交给Excel了,「搜索」,「排序」,「统计」,甚至「绘图」,对于这些数据,你可以用强悍的Excel胡作非为。


PS: 可能遇到的错误

- 爬不到内容

- 请检查你的收藏夹状态是否设为「私密」

- CMD提示「找不到文件」

- 你的电脑可能没有安装JDK,或者环境变量设置有误,请查询「JDK/JRE 环境变量设置」


IV.技术实现

1 ) 分析页面

用浏览器自带的「源代码查看器」(快捷键通常是F12)的Network项,你可以观察本地浏览器和远程服务器偷偷摸摸传输的数据。

知乎发来的数据包包含的是已经「渲染过的」收藏夹内容,要处理这种数据,只能在源代码里匹配HTML节点。


2 ) 框架简介

这个爬虫使用了WebCollector这一框架,特点是非常容易上手。

WebCollector​github.com

看一下WebCollector的Demo示例,即可快速掌握这一框架。


3 ) 思路

没什么思路,这个爬虫结构很简单,爬就完了


V. 一点点感想

如果用一下「麦肯锡空雨伞法」分析知乎收藏这件事,大概是这样的

1) 很多提供干货的高赞答主,常常吐槽「收藏是点赞的十倍」「别光收藏,多点点赞啊」。


2) 知乎最近才把用户的「收藏」行为展示在动态里,之前是只显示点赞。

3 )在12-16年这段时间,有许多的关注收藏夹的优秀内容,而现在很少见到了


1) 知乎的收藏夹页面使用的UI是旧版的,收藏夹推荐功能的内容也很陈旧。知乎最近做的Live,付费咨询,带货都是为了盈利,反而对这些增强用户体验的系统不太上心。

2) 知乎用户的行为中,「收藏」行为可能比「点赞」还要多,收藏夹的创建和维护者们本身就是最强的内容筛选系统。

3) 现行的推荐算法都会刻意迎合用户的点击趋势,导致视野越来越小,这一现象在一本书中总结(其实是预测)的很好:

过量的信息与有限的注意力之间的矛盾不可调和,于是我们会不断缩小自己关注的领域,以确保头脑不因信息过载而“死机”。久而久之,亿万网民就会变得只关注自己感兴趣的信息,分化成无数个拥有共同爱好的小圈子。大数据技术又会统计出各个用户平时浏览最多的信息,然后让新媒体平台精准地推送他们最关注的内容


用深度学习来推荐内容已经相当普遍了,但是我觉得目前知乎算法学会更多的是「什么东西用户想看」,而不是「什么东西对用户有好处」。

发掘收藏夹数据,把收藏夹创建者当成推荐系统工具人,在这一方向上建议加 大 力 度。

总结

本篇文章是「Sophy」项目链条的第一部分,后续还有更多新鲜干货。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容