天池新闻推荐入门赛

数据集分析

用户user-id 20万条
文章click_article 36万条
测试集testA_click_log.csv51万条点击数据,训练集train_click_log.csv104万条点击数据
格式

image.png

通过这9维的数据对下一篇文章的点击概率预测,可以用LR解决,与此同时,分类问题也可以由Xgboost, GBDT解决。

Task 01—Baseline-协同过滤

主要分为两步:
使用Item-CF计算物品相似度
根据用户的协同过滤值w_(i,j)进行文章推荐
N_(i)表示喜欢物品i的用户数

image.png

Task 02—数据分析

文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。
尤其需要用直方图观察数据分布,同时可以利用PCA等主成分分析法做一些重要特征的选取(另,sklearn中对于xgboost和gbdt方法有可直接调用的重要特征分析包)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容