2021 年 1 月 5 日,简书发布了 6.0 版本。
下面是该版本的更新日志:
6.0 版本全新上线,带给你更好的体验
首页可以按分类看文章了,点击首页右侧排序按钮,还能自定义分类哦
你是否想要更加与众不同?个性化的头像框功能满足你
修复了 Bug,增加了很多贴心小功能等你来发现
体验了一圈,所谓的个性化头像框没找到,首页的内容分发变化还是比较大的。
新版本的首页顶部增加了一个文章分类的筛选。
同时,在更新后第一次进入简书时,可以选择参与筛选的文章种类。
可选择的类型还是比较丰富的,常见的大类都涵盖在里面了。
不过这里点名批评一下设计师,下面按钮的透明度太高了......
文章是如何被分类的?
经过实测,我选择的几个大类中都只能看到一两个月前的文章,并没有 2021 年这几天的文章。
随机挑选几篇文章进行比较,有些文章没有被收入任何专题,但还显示在了其中一个分类,可以排除根据专题所属种类进行文章分类的可能。
那筛选者呢?简书官方肯定不现实,没有用那么多员工帮忙无偿筛选文章。
而被筛选的文章大多有都一定阅读量,而且都是简书较活跃的用户。
所以,筛选者应该是社区的核心用户。
难道是“简书社区守护者联盟”?
选了几篇文章,这些文章的作者均不是社区守护者联盟的参与者,文章也没有被收入推荐专题。
而在简书最注重质量的“文学”分类下,这种情况依旧存在。
这些文章不是人工筛选的?
简书拥有大量的文章数据,基于这些数据训练一个模型对文章类别进行评判似乎是可行的。
只要是算法,必定有疏漏。在诗词散文分类看了几十篇文章后,我终于发现了要找的东西:
这篇文章并不应该属于这个分类,它属于生活随笔,而且文章中也没有散文内容。
应该是算法的疏漏,审核员看到题目后面有序号,再配合几张插图,很容易就能判断出这是生活随笔。
那我们就可以确定,文章就是机器算法分类的。
这样,文章时效性的问题就可以解释了:服务器资源有限,为了进行测试,只选取了一部分 2020 年的文章进行算法分类,后期会逐渐补全新文章。
打开简书的埋点分析功能后,果然看到了相关的信息。
那么我们就可以大胆猜测,后面会根据不同分类被点击的频率进行优化,优先更新展示频率高的内容。
人工分析不好吗?
来到简书两年以上的简友们都知道,之前的简书首页都是人工筛选的。作者写完文章后,第一件事就是投稿到首页推荐专题,审核后文章就会登上首页。
后来,简书取消了这一设定,改为使用算法自动推荐。
直到现在,首页推荐太过娱乐化还是饱受诟病的一个问题。
原因无非有以下几点:第一,用户量日渐增长,审核难度增大,而且会占用大量服务器资源,成本过高。
第二,最新发布的文章不能及时登上首页,文章时效性不强,热点信息不能迅速获知。
第三,其它内容平台都采用了算法分发,简书作为主流创作平台中第一个引入区块链体系的,也应该紧跟潮流拥抱算法分发。
现在看来,第二个原因可能不完全正确:简书的定位是一个优质创作社区,创始人希望用户阅读到有深度的内容而不是沉浸在无意义的热点话题中。
简书取消首页人工筛选后,陆续也涌现出了许多所谓的“美文专题”,但不得不说,自从简书币改后,这些美文专题也转向了权重助力,因为只有这样,才能借排行榜展示的机会进行宣传,这也是这些专题要求在推文之前修改文章标题的原因。
我相信简书官方做出这个决定时也是犹豫的,但在我看来,这个决定比较正确,毕竟它节省了大量的人力资源,正是这间接节省下来的成本,才让简书不断完善基础功能,最终在国内创作平台中排到这个位置。
算法训练集从哪里来?
对算法略有了解的小伙伴们都知道,每个算法都有一个训练集。
简单解释一下,程序通过这个训练集自动学习不同种类文章的特点,进而实现后续分类的自动化,分析维度可能有很多,比如词频、文章字数、分段频率等等。
这个训练集中的数据时需要人工标注的,也就是需要人工给它们打上不同分类的标签,以此还诞生了一个职业,叫做“AI 数据标注师”,专门负责对训练集的数据进行人工分类。
那简书的训练集从哪里来?不可能让所有员工都去标注数据,考虑到简书现在的资本情况,也不可能趁着大学生毕业请大量廉价劳动力来完成这项任务。
而简书在社区建设方面一直时比较克制的,选择部分用户协助进行标注也不可能。
但我们忽略了一个重要的信息:简书其实已经有人工标注的训练集了,就是官方的各类专题。
首页的每个分类基本都和几个官方专题对应,比如产品对应产品专题,互联网对应 IT·互联网专题。
这些专题经过大量的人工筛选,其中的文章有一定质量,利用这些文章进行算法训练,进而实现文章筛选,是完全可行的。
由于机器算法的特殊性,偶尔出现被错误分类的文章并不影响整体结果。
算法如何优化?
算法已经训练好了,但从日常使用中明显可以看出,有时还是会出现分类错误的问题,而且概率已经大到了影响用户体验的程度,错误率大概在 2% 左右。
一般情况下,算法的优化方案有以下几种:
由工作人员进行人工优化,特别消耗人力
继续喂训练集,特别消耗算力
由用户进行反馈
考虑到简书的团队规模和资金情况,可以预测,未来的新版本将会加入文章分类反馈功能,在用户将文章阅读完毕后,弹出提示询问用户该文章分类是否准确,或者通过用户停留时间进行判断。
当然,第一种方案也要适时使用,既然简书社区守护者联盟是官方的,也许可以给它们文章分类的权限,通过激励让这些用户参与筛选,可以更好地考虑到真实用户的感受,还可以做类似知乎众裁的容错体系,同一篇文章推送给多个用户判断,少数服从多数。
至于第二种方案,服务器是按时间计费的,训练算法不会有额外的开销,可能会选择在低访问量时段,比如凌晨进行算法优化,可以完美利用算力,但我们并不知道凌晨是否有其它重要任务(例如审核算法优化或者增量备份),所以无法预测算法优化的具体时间。
未来的内容分发是什么样的?
在前文中,我们已经证明了纯人工的内容分类在现有的新媒体平台上是不可行的,而纯算法分类又非常依赖于数据规模,简书新用户的首页会比较杂乱,而知乎的新用户在阅读几篇文章后就可以获得相对符合用户阅读调性的内容。
当然,我们不能断定说知乎的算法一定更加完善,知乎作为国内使用者较多的内容平台,其背后是一个商业矩阵,它们共享一个用户标签体系。简单来说,不是知乎更牛,是知乎背后有更多产品一同合作。
未来的内容分发一定是人工与算法结合的,难点在于把握两者之间的比例。
偏专业的内容平台可能需要更多的人工分类,而偏时效性的平台则需要更完善的算法快速分类新内容并呈现给用户。
无论采用哪种分类方式,内容为王必定是现阶段新媒体平台的生存法则。
希望简书能进一步针对现有生态开发新功能,简书最大的王牌就是直观的区块链体系和强内聚的生态体系,我们期待它能成为一股清流,照亮浅内容泛滥的互联网世界。