假如我是简书数据挖掘工程师

简书三大模块优化

去年夏天,我在简书写下第一篇文章。

去年夏天,我在一家互联网公司成为一名数据挖掘工程师。

我喜欢看书写字,也喜欢分析数据。

夜晚,突然假想,如果我是简书数据挖掘工程师,我会怎么做?

采用自上而下,目标先行的思考策略。我分析数据的最终目的是什么?是增加网站和app的访问量,提高用户的满意度。

怎么增加访问量?一方面可以加大宣传力度,另一方面可以改进算法,引导用户发掘更多有意思的文章。怎么提高用户的满意度?对于读者来说,是看到的文章符合自己的口味。对于笔者来说,是尽可能公平地推送文章。

可以改进的点有哪些?至少有三大模块可以优化:首页个性化推荐,专题内部排序,定向搜索。

1、首页个性化推荐

目前首页可以看成是3大模块,包括上方占屏面积最大的宣传栏,下方的推荐列表,手机中间或电脑左边的7日热门、30热门、新上榜。简书从多种角度给文章排序,以不同的方式呈现给用户。这既是其优势,也是其劣势。简书把选择权交给用户,用户自行选择感兴趣的模块,灵活度较大。但是用户需要浏览的文章数目增多,筛选的成本增大。简书不仅意味着极简写作,也应该争取做到极简阅读。在国内,简书确实是我见过的最好的写作平台,但未见得是最好的阅读平台。

对于首页推荐,我建议分两次升级。第一步可以将看过的文章权重降低。进一步改动是多特征融合,用整体排序代替分组排序。

为什么要进行第一次升级?因为我发现读者明明已经看过了某些文章,简书还一个劲地给他们推送同一篇文章,这就会降低用户体验。就像亚马逊一般不会给用户推荐买过的书,而是推荐相似的书,同一个道理。

为什么要进行第二次升级?追求极简的阅读,让用户不用费心选择,不会被信息潮海所淹没,使得简书推荐的东西正好是他们想要的。这对数据挖掘工程师的要求比较高,短期内难以得到完美解决。需要采取迭代的方式,一步一步优化模型。

比如先构建一个简单的模型,设立基线。

目标:单个用户对单篇文章的满意度。

原始数据:文章的属性,笔者和读者的信息,笔者和读者在简书上的行为。

基本特征:文章粒度的的喜欢数和评论数,笔者自带的关注数和喜欢数,文章的类别和用户偏好的相似度,读者对文章的显示评价和隐式评价。

应用比较广泛的模型:逻辑斯特回归和gbdt。

后续迭代优化也可以从目标、数据、特征、模型四个方面入手。

目标:可以设立多个评价指标,用不同的模型分别优化各项指标,最后再进行模型融合,给出一个总分。

数据:可以采集更多的数据,也可以进行数据预处理(例如数据清洗和数据转换)。前者扩大了数据的量,后者提高了数据的质。

特征:特征选择和特征提取。前者是从一大堆候选特征中筛选出较优的特征集合(降维),后者是对原有特征进行重新组合。

模型:针对不同的评价指标,建立适合的模型。分析数据,调研模型类型和模型参数。

2、专题内部排序

专题内部排序分为三个模块,分别是最新收入,最新评论,热门。目前这三块的排序算法非常简单粗暴,有很大的提升空间。

对于最新收入区,一般是评审通过了,就立马在这个模块出现。这样,一篇文章的浏览量就会受到发布时间段和同时期其他作品数量的影响。可以改进的措施是,将新收录的作品放到一个队列中,每隔一段时间放出一个作品,利用不同时间段的流量监控,使得每个作品在这个区的曝光率尽可能相等。

对于评论区,只要文章有新的评论,该文章在收录的所有专题中的排名就立马靠前。这不是很合理,推荐两种改进策略。第一,产生新评论时,在各个专题的排名不要同时上升,中间最好有个随机时间差。第二,目前文章在评论区的曝光机会约等于评论次数,这样加剧了两极分化,建议重新构建模型,例如曝光机会=In(a+评论次数)+b,初期可以人工设置参数,后期可以通过模型训练获取参数。

对于热门区,目前采取的是策略是按喜欢数排序。我觉得在这一块至少要加上时间衰减策略,最好再联合其他特征,给每篇文章一个更合理的分数。

3、定向搜索

简书在定向搜索这块做得比较差,很难满足用户需求,还好用户使用搜索的次数不是很多,基本上都是推送什么看什么。

如果我来做定向搜索这一块,我会分三步走。

第一步,构建基线模型,采用BM25算法,即直接计算搜索关键词与文章内容的相关性。

第二步,联合多个特征,用机器学习算法对前n名的结果进行重新排序。特征可能是文章的质量,文章发布的时间,喜欢和评论数目等等。

第三步,个性化调整排序结果。一般用户去简书搜索文章,很有可能是之前浏览过的文章或者关注的专题和笔者的文章。简书可以在定向搜索模块也加入个性化推荐策略,而不仅仅是在推送时才进行个性化定制。

假如我是简书数据挖掘工程师,我会从以上内容中选择一个点进行优化。一个人的精力有限,一个人的力量也远不如一支团队的力量。简书想要打造极简的阅读和写作平台,需要的不是一个数据挖掘工程师,而是一支优秀的数据挖掘团队。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,753评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,668评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,090评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,010评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,054评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,806评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,484评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,380评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,873评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,021评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,158评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,838评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,499评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,044评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,159评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,449评论 3 374
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,136评论 2 356

推荐阅读更多精彩内容