舆论热度算法调研

一、<Delicious>

算法:按照单位时间内用户的投票数进行排名。得票最多的项目,自然就排在第一位。

eg:"过去60分钟内被收藏的次数",每过60分钟,就统计一次

缺点:①排名变化不平滑、变化大;②缺乏自动淘汰,可能出现长期占据前列。

二、<Hacker News>

算法:
公式.png

P表示帖子的得票数(影响力值),减1是为了忽略发帖人的投票;

T表示距离发帖的时间(单位为小时),加2是为了防止最新的帖子导致分母过小(可能转帖平均需要两个小时);

G表示“重力因子”(gravity power),即将帖子排名往下拉的力量。

参数:

① <u>得票数P</u>:其他条件不变,得票越多,排名越高;

image.png

② <u>距离发帖的时间T</u>:其他条件不变,越是新发表的帖子,排名越高(帖子排名随时间不断下降)

③ <u>重力因子</u><u>G</u>:决定了排名随时间下降的速度。

image.png

[****参考文献****]

* How Hacker News ranking algorithm works

* How to Build a Popularity Algorithm You can be Proud of

三、<Reddit>

算法:

公式.png

x:点赞数和被踩数之差(辅助变量)

t:发布时间到现在的时间间隔,单位秒

z:作为x和1的绝对值的最大值

y:x>0取1,x<0取-1,x=0取0

image.png

参数:

① <u>提交时间的影响</u>:

发表时间对排名有很大影响,该算法使得新的话题比旧的话题排名靠前

话题的得分并不会随着时间的推移而减小,但是新的话题的得分将会比旧的话题的得分更高。(不适用微博事件热度评估)这一点和 Hacker News算法不同,Hacker News算法中随着时间的推移,话题的得分会减小。

下图展示了踩和顶数目相同的但提交时间不同话题的得分比较:

lalala.png

② <u>对数收缩:</u>

Reddit 的热排序算法使用了对数函数来衡量前面的投票与其他投票的差距。这一般适用于:

  • 前十个好评和之后100个好评有着相同的权重,以此类推。

参见下图:

image.png

如果没有对投票进行对数收缩分数情况将会如下图:

image.png

③ <u>“踩”的影响</u>:

Reddit是少有的有“踩”的网站之一。你可以在代码中看到score被定义为:“顶”的票数-“踩”的票数。

这可以用下图来帮助理解:

image.png

“踩”的票数对于得到了很多“顶”和“踩”的话题的得分有着很大的影响。它们的得分比较低仅仅是因为得到了反对票。这可以解释为什么Kittens(和其他非争议性的话题)的排名为何如此之高。:)

④ <u>Reddit</u><u>话题排序算法总结:</u>

提交时间是一个很重要的参数,通常新的话题将会高于老的话题的分数。

前十个投票和后100个投票的作用是相同的,举个例子,一个有10的“顶”话题和一个有50个“顶”的话题他们的排名是相同的。

得到支持票和反对票持平的争议话题和得到票大多为支持的话题相比排名将会较低。

⑤ <u>Reddit</u> <u>评论投票是如何工作的:</u>

Reddit最佳排名算法来自于xkcd的Randall Munroe的想法。他为这个想法写了一篇伟大的博客: Reddit新的评论排序系统

他用一种通俗易懂的方式讲解了这个算法,你应该去读一读。博客大纲如下:

1、评论排名算法使用最热排名算法不是一种好的选择,因为它偏重于早期发表的评论。

2、Edwin B. Wilson在1927年就已经发现了一个解决方案。它被称为“Wilson评分区间”,可以被用于“信心排序”。

3、信心排序将投票数目看作是大家通过表决形成的统计抽样计票(就像民意调查那样)。

4、《如何不按照平均分排序》讲述了信心排序的详细细节,强烈推荐阅读。

四、<wilson 信心排序> / <评论排名算法> ——>可以用来算环境口碑占比/维稳事件占比

算法:

image.png

参数:

  • p指的是好评数
  • n指的是投票总数
  • zα/2 是(1-α/ 2)标准正态分布分量

总结一下就是:

  • 信心排序将投票看作是大家表决的统计抽样计票
  • 信心排序用85%的置信度来确定评论的排名
  • 投票越多,85%置信度下的评论的信心分数越接近真实分数
  • 威尔逊区间对于小样本或者极端情况也具有良好作用

Randall 在他博客文章《信心排序是如何进行评论排序的》中举了一个很好的例子:

如果一个评论有1票“顶”,0票“踩”,那么它的“顶”就为100%,由于样本数据太少,系统将会将它排在底部。但是如果它有10个“顶”而只有1个“踩”的话,系统就可以有足够的信心判定它应该排在那些有40个“顶”但是也有20个“踩”的评论(如果这个时候它得到了40个“顶”,那么几乎可以肯定它得到的“踩”小于20个)的前面。更好的是如果判断错误(15%的概率),它很快会得到更多的数据,因此,数据少的评论出现在了顶部。

提交时间对评论排序没有影响

提交时间对于信心排序算法来说是无关紧要的(这一点和热排序算法还有Hacker 新闻排序算法不同)。 评论排名靠的是信心分数和数据采样——也就是说的到的票数越多,信心分数也就越精确。

② 观察

我们用Randall的例子来观察一下信心排序是如何对评论进行排序的:

image.png

从上图你可以看到信心排序根本就不关心一个评论得到了多少票数,它关心的是“顶”的票数和总票数的比值。

其他应用

Evan Miller 列举了3条Wilson评分区间的非排序应用:

  • 垃圾邮件检测: 检查用户将邮件标记为垃圾邮件的百分比。
  • 创建“最佳”列表: 检查某个条目被标记为最佳的用户的百分比。
  • 创建“邮件最多”列表: 检查看到页面后点击Email的用户的百分比。

用Wilson评分区间你只需要:

  • 样本总数
  • 正确样本总数

考虑到Wilson评分区间是如此强大和易用,许多网站都用它来排序他们网站的内容。包括Amazon.com 这种大公司都把平均比率定义为正确样本比率/总样本比率

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 不知道简书现在的LaTeX解析用的是什么工具。在CMD和Yu中没问题的LaTeX语句在简书这里渲染出错,显示“公式...
    LostAbaddon阅读 9,126评论 3 10
  • 一.产品概述 1.体验环境 体验版本:v3.6.0.212379,Google Play 体验设备:华为Nova ...
    MrRedfisky阅读 9,844评论 6 16
  • 这篇已经授权人人都是产品经理微信号+网站转载了~转载日期是2017-02-10 知乎:一个真实的网络问答社区,帮助...
    Li_fuxu阅读 5,677评论 4 37
  • 最近开始在简书上混,今日在首页上不经意间看到一篇《从豆瓣电影评分算法说起》,感觉有点眼熟,就点了进去。 其实阿北的...
    数据虫巢阅读 33,252评论 6 172
  • 细雨的脚步都也走远 雷鸣扰了整夜的无眠 对窗看了黑夜雨景 暴雨朦胧了街灯的孤形 可悲的还是绿叶吧! 还没枯黄就已落...
    诗的故事阅读 175评论 0 0