知乎最近完成了C轮融资,估值3亿美元,融资5000万美元,此轮融资由腾讯领投,是否有跟投方目前尚未可知。而腾讯投资了知乎后,作为投资的条件之一,知乎正在和搜狗展开合作。什么合作呢?内容搜索。
内容#
前几天为什么深圳会发生泥石流?有没有救援的最新进展?长时间健身可以一定程度上改变容貌吗?蒸汽朋克与赛博朋克的区别在哪里?高频交易有哪些著名的算法?国内有哪些冷门但是有特色的旅游景点?
当前的新闻,人们关注的热点,我们发的微博,在网上写的一些专业知识、生活经验和人生见解,只要是互联网上能看到的皆为内容。
内容社区是指通过内容传播的差异化,来顺应和促进目标受众的分化与融合,形成彼此独立,同时又交叉互补。简单来讲就是一个让大家互相学习,互相交流的地方,在知识爆炸的年代,内容社区的发展尤为抢眼。
内容的产生#
内容的产生一般分为两种模式:
UGC(User Generated Content) 用户产生内容。很早之前的一些博客和QQ空间,都是大家自己写一些日常感悟,然后大家互相访问,形成一种联系。还有最近几年比较火的问答式内容社区,大部分问题是用户间互相答疑,如百度知道、直乎,但是现在UGC的模式一般不会单纯的应用到某一个内容社区。
PGC(Professionally Generated Content)专家产生内容。这个在以前一些健康社区或者类似这种专业性比较强的社区会采用这种模式,专家写文章我们看,或者我们提问题专家来解答。还有微博的大V,也是PGC的模式。
说到这里前两年某天的一个晚上,新浪微博高层召开了一个会议,集体决策微博后面的方向是以UGC为主还是以PGC为主,结论是PGC为主,所以大V的认证就风起云涌,普通用户的模式就是关注一堆大V,然后刷微博就是去看这些大V发的内容,然后评论,从这之后加上微信的诞生,微博渐渐让普通用户失去了兴趣,各种KPI大幅下滑。
说个题外话,虽然微博的活跃用户量急剧下滑,但是微博的PGC和“猜你感兴趣的用户推荐”功能诞生,让微博重新注入了一些活力。PGC加上这个新功能,会让我们很容易找到感兴趣领域里面的牛人,而且有些牛人是很愿意在微博上分享一些东西的。对于专业性强的领域,微博还是占有一席之地。但是相对于知乎来讲,微博貌似又略显逊色。
那到底是用UGC还是用PGC,内容社区的生态与技术又有什么关系呢?我们先看一下知乎是怎么做的。
知乎#
知乎从2010年12月19日开始运转,其间用户内测40多天,2011年1月26日上线。2011年3月,知乎宣布获得创新工场天使轮投资。
早期如何积累用户##
做一家内容社区,人气是决定成败最关键的因素之一。知乎又是如何从0到1地聚集人气呢?
最开始,直乎的创始人从自己的圈子里邀请那些最具有分享精神和专业知识的朋友加入知乎,先给每位测试用户写一封介绍邮件,然后再发送注册邀请(知乎在很长一段时间里一直在使用邀请注册制),等他们使用了一段时间后,再收集用户反馈。绿洲在沙漠里不干涸的唯一方法,就是面积要足够大。如何做到足够大?知乎必须保证最初的水源(种子用户)不会轻易就蒸发掉。
知乎创始人周源解释称,其实人们通常以为的那些忙到只会埋头工作的人,往往是最愿意花大量时间表达自己想法的人。而最初的用户,以国内IT、互联网创投圈的精英人士为主。其中创业者的比例较大——创业者的问题特别多又特别广泛,很自然地就会把很多东西串联在一起。
据说,最初经历了几十天蛰伏后,知乎已经有了200多位用户,首批绿洲建造者中既有像李开复、王兴、王小川、徐小平和马化腾这样的富有创新精神的企业家和风险投资家,也有一批虽然名不见经传但在各自专业领域相当优秀的开拓者。据说,在知乎上线后的前40天,他们就创造了8000个问题和2万个回答。
有大的投资机构引入的(李开复就是创新工厂的创始人也是知乎的投资人)资源和创始团队本身积累的一些资源能给创业公司带来非常多的益处,知乎就利用这些资源很好的解决了冷启动的问题。
现状##
截至2015年7月,官方统计的数据如下
注册用户 | 29,000,000 |
---|---|
问题总数 | 6,130,000 |
月独立用户 | 110,000,000 |
回答总数 | 19,190,000 |
月页面浏览 | 300,000,000 |
全站回答次数 | 4,129,000,000 |
技术面的应用##
在今年的一次大数据会议上,知乎提到在技术方面做了如下的事情:
- 提取出用户行为数据,对于用户的兴趣和擅长有了比较准确的识别;
- 答案排序算法让高质的回答排在前面,给予用户正面的鼓励,激发用户解答问题的热情;
- 开发出基于用户行为分析的防Spammer系统(垃圾内容过滤):悟空。
- 邀请回答(通过相关算法预测某个用户回答某问题的可能性和回答质量,有 90% 的邀请是通过这种推荐结果发出的);
- 每周精选,针对每个用户做个性化的计算,已经做到了30%的打开率和14%的点击率;
- 相关问题(通过大数据分析把类似的问题展示给用户)。
这里拿第2 点来讲一下,先说答案排序这个功能,该功能对于用心去回复问题的人有非常大的鼓励,对于知乎有如此高的活跃用户留存率(14个月82.8%)功不可没。
随着用户量的不断增加,早期的简单排序算法出现了问题,友情赞同比较多,让专业性不足的答案被推到了靠前的位置。后来知乎采用了威尔逊得分算法并做了一些自定义的更新来进行答案的排序。
该算法的核心思想是:如果把一个回答展示给很多人看并让他们投票,内容质量不同的回答会得到不同比例的赞同和反对票数,最终得到一个反映内容质量的得分。当投票的人比较少时,可以根据已经获得的票数估计这个回答的质量得分,投票的人越多则估计结果越接近真实得分。如果新一个回答获得了 1 票赞同 0 票反对,也就是说参与投票的用户 100% 都选了赞同,但是因为数量太少,所以得分也不会太高。如果一小段时间后这个回答获得了 20 次赞同 1 次反对,那么基于新算法,我们就有较强的信心把它排在另一个有 50 次赞同 20 次反对的回答前面。原因是我们预测当这个回答同样获得 50 次赞同时,它获得的反对数应该会小于 20。
威尔逊得分算法最好的特性就是,即使前一步错了,现在这个新回答排到了前面,获得了更多展示,在它得到更多投票后,算法便会自我修正,基于更多的投票数据更准确地计算得分,从而让排序最终能够真实地反映内容的质量。
过多的营销不如让自己的用户得到真正的尊重,知乎通过这些技术手段做到了。相比于知乎的精细化处理,某度可真需要放点心思在上面了。
搜狗能带来什么#
知乎现在有知乎日报会推送当下流行、和用户感兴趣的一些东西,但是对于内容社区用户一个非常大的需求就是当用户碰到一个问题,针对问题直接去找答案,如果能快速的找到最高质的答案将会给用户带来很大的愉悦感,对用户留存会有非常积极的影响。
在上一节里面提到的6点里面没有与搜索相关的内容,看来知乎以前在这方面确实有所不足,有些用户直接指出知乎的站内搜索功能为零,而且国内某度的搜索,基本会把自家问答、经验类产品的答案排在最前,知乎的高质内容很难被发现。
引入搜狗搜索技术之后,知乎站内搜索的DCG评测(Discounted cumulative gain,它是一个衡量搜索引擎算法的指标)评分已经从0.39提升至0.64,增幅显著,而知乎用户的反馈也直接印证了这一效果。发布会当天,知乎上即出现了多条评价搜索效果的问题,知乎产品负责人也公开表示希望大家就搜索体验多提意见。参与讨论的用户中,九成以上都给予了“以前搜不到的内容现在可以轻松搜到了”、“感觉靠谱了非常多”、甚至是“天亮了”之类表示满意的回复。
起码从现在看起来,这次合作是双赢的。
当技术遇到内容#
从知乎的案例可以看出,知乎是一家名副其实的技术公司,知乎采用了大量的技术手段去对内容做分析,对内容的排序、推荐等算法不断的做优化,加上这次新增的内容搜索技术,这些技术应用的目的是真正的让自己的用户得到尊重。
让我们再来回顾一下知乎的发展历程:
- 前期为了避免冷启动,运用投资人和创始人的人脉资源去让一些互联网专家做内容输出,这就是文章开头所说的PGC;
- 通过PGC输出的高质内容吸引到大量的新户,其中也包含有相关领域的专家,这时UGC已经慢慢成为主导了,用大数据分析,优化各种算法来让新户输出的高质内容得到推到首页、置顶的奖励,同时也通过技术手段屏蔽了大量的垃圾内容。这样在吸引更多新户的同时,也最大限度保证了用户的留存;
- 正确认识到自己有内容搜索的软肋,敞开大门和搜狗合作,锦上添花;
除了热启动动用了必不可少的人脉资源外,技术在知乎的整个运营过程当中占了非常大的比重,也起了关键性的作用。所以对于内容社区来讲,利用强大的技术做背后支撑是必不可少的。
我相信不管是知乎还是其他内容社区,只要不断的关注用户本身的需求,本身的感受,把高质内容过多的给予曝光,给用户以尊重,对这件事情给予充分的认真,你就赢了。