2020RecSys-Are We Evaluating Rigorously? Benchmarking Recommendatio for Reproducible Evaluation a...

作者以及单位

Zhu Sun (第一作者), Hui Fang (通讯作者)
澳洲麦考瑞大学,上海财经大学

解决问题

在推荐系统算指标的时候,应该用什么样的标准体现其公平性?(我觉得是一个非常好的问题,很多新的作者在测试state-of-the-arts算法都感觉没有论文现在的那么好,而且作者解释是超参不一样)
所以本文针对隐式反馈Top-N推荐问题提出一种benchmark,并总结出一些在对于模型评价具有重要影响的实验设置因素:数据处理,数据分割,超参数选择、负采样选择以及损失函数选择等。

研究对象

2017-2019 一共三年八个顶会:RecSys,KDD,SIGIR,WWW,IJCAI,AAAI,WSDM,CIKM.共24次会议(工作量很大)。
在这24个会议中搜索以下关键字:recommand,collaborative filtering,手工选择 ranking metrics指标,如precision和recall等。
最后定了85篇文章,并都提供了github的源代码以及数据。

3年的论文分类情况

果然数据是movielens是第一名。基本以后的推荐系统文章数据集来自以下内容
推荐系统用的数据

大家通常对比的论文是这些。看来贝叶斯性化排序 (BPRMF) ,render的因子分解机FM和何向南的NeuMF是大家的最爱。(第二名和第三名分别发论文质疑对方的效果。)
baseline

我觉得这个是最重要的,大家对比的metrics分别是什么。排序的ndcg果然是第一,接下来是召回recall和HR以及precision的准度。
指标

内含常用的基线和SOTA对比方法:(虽然我经常用state-of-the-art这个词,但是我一直不知道SOTA是它的缩写,本来以为是一个很厉害的模型,是指最先进的模型)即,如果要比,一般比这几个算法:


sota

论文地址:https://dl.acm.org/doi/pdf/10.1145/3383313.3412489
论文源码:https://github.com/AmazingDD/daisyRec

研究方法

第三章核心讨论了大家推荐结果不同的主要原因IMPACTS OF DIFFERENT FACTORS如下:
数据预处理Data Pre-processing
损失函数Objective Function
负样本Negative Sampling
分数据的方法Data Splitting Methods
评测指标Evaluation Metrics

可以看到例如数据划分的比例不一样,在NDCG表现的结果就不一样的。


数据划分

评测指标与时间划分的相关性(说实话,我没有看懂这个图的意思)


the correlations of evaluation metrics w.r.t. time-aware split-by-ratio

创新点

说了以上可能出现的问题,那么什么样的数据预处理,损失函数,负样本处理,划分和评测是好的呢?
作者提出benchmarks需要满足的一些条件,并基于此选择一些代表性的模型进行实验。除此之外,还发布了基于python的代码库。以下为该开源代码库的架构图,包括数据集的加载方式、预处理方式、对比方法选择等组件。


标准操作

结论

原文说的很清楚了:
1:以后的推荐系统最后就定了1数据处理,2数据分割,3超参数选择、4负采样选择以及5损失函数选择6评测指标,这6个。
2:在这6个指标上,作者提出了比较出名的数据集最好的参数(github有),大家以后就按这个参数设置。
3:如果还不会,给了python的工具包DaisyRec方便调用。

读完总体感觉,看起来比较简单创新不大,但是贡献很大,而且工作量不少!而且写法比较新颖,比较少见。
we summarize the essential factors related to evaluation, e.g., data splitting methods, evaluation metrics and hyper-parameter tuning strategies, etc. Through an extensive empirical study, the impacts of different factors on evaluation are then comprehensively analyzed.

we create benchmarks for rigorous evaluation by proposing standardized procedures and providing the performance of seven well-tuned state-of-the-art algorithms on six widely-used datasets across six metrics as a reference for later study.

Lastly, a user-friendly Python toolkit-DaisyRec has been released from the angle of achieving rigorous evaluation in recommendation.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342