今天无意中看到篇关于「今日头条」创始人的专访文章,大致是讲要摒弃编辑思维,拥抱机器学习技术。其中,还特意谈到了「今日头条」最受诟病的内容低俗问题。
创始人这么解释:你看到的都是基于你喜欢看什么推荐而来,如果你发现首页全是低俗内容,那你得问问自己为什么会这样。
先不谈这是否能解释今日头条的内容问题,但这确是推荐算法存在的问题。
目前的推荐算法,大致有两种模式。
第一种:根据人与人之间的相似度进行推荐。
拿音乐举例,若甲乙两人在曲库上有极大相似度,就可以假定甲乙两人在品味上是接近的。这时若甲曲库中新增了一首歌,那这首歌很大概率上乙也会喜欢。
第二种:根据属性的相似度进行推荐。
还是拿音乐举例,假如一个人曲库中「古典」属性的音乐较多,那么他就有更大概率喜欢「古典」类的音乐,而不是「流行」类音乐。
现有应用的算法,大致是由这两种思路混合而来,效果也参差不齐。究其根本,在于这两种算法思路其实是有瑕疵的。
我读郭敬明和韩寒的小说,你也读郭敬明和韩寒的小说,这就能证明我喜欢巴尔扎克,你也会喜欢巴尔扎克?这显然不成立。
另外,假如我喜欢读《物理世界奇遇记》,未必我也喜欢读《时间简史》。虽然两者同属物理类的科普书,但细节上却全然不同。
由此,推荐算法的作用其实并非找出人们所爱,而是排除人们不爱。
算法提供的结果,只是排除了你不太可能喜欢的。换句话说,算法缩小了我们的选择范围,但绝不能精准定位。
若用大海捞针做比喻,算法能告诉你针掉到了哪片海域,或是哪座海岛周边,却无法告诉你针掉在东经128度,西经37度,海拔-320米的位置。
所以你坚守自己的品味就很重要。
记得我使用「豆瓣电台」时,刚开始不知道要“坚守”品味。网站推荐一首,我觉得有一点好听就 Star。结果我回过头一看,自己 Star 了一堆我不想听第二遍的歌,而这些不好听的歌又会让算法推给我更不喜欢的歌。
这种情况,就叫「养废了」。
推荐算法的推荐结果,天生就是一个弥散的范围,你需要仔细鉴别这些推荐结果,衡量它们的合适程度,因为这些操作不仅适用于当下,还会对算法接下来的动作有极大影响。
千万不要以为有推荐算法就能高枕无忧了,仔细斟酌是必须的。