零基础入门推荐系统——task02:数据分析

通过数据分析了解数据整体情况,发现用户、文章的属性信息,以便后续进行特征工程和模型构建。

数据字段:

日志文件包括字段:用户id、文章id、点击时间戳、点击环境、点击设备、点击操作系统、点击所在国家、点击所在区域、点击来源等

文章文件包括字段:文章id、类别id、创建时间戳、文章字数

文章向量:文章id、250长度向量

数据分析步骤包括以下步骤:

1. 用户维度分析

    训练集测试集用户点击文章次数统计

    探索性统计分析:info();describe(); head()

    日志文件字段条形图分析用户点击环境、设备、操作系统、国家、区域、次数等的分布

    测试集、训练集数据分布一致性探索(如用户至少点击文章次数)

2. 用户行为分析

    重复点击行为分析(多次点击阅读文章)

    用户点击环境变化分析

    用户点击新闻数量分布(点击次数分析用户活跃度)

    用户点击新闻文章主题的偏好(阅读兴趣是否广泛或单一)

    用户阅读文章长度分布(长短文)

    用户点击新闻时间差分布(分析用户点击文章时间差异)

    用户阅读新闻的文章创建时间差分析(反映用户对文章时效性的偏好)

3. 新闻文章维度分析

    探索性分析

        词频、文章主题、文章创建时间统计分析

        文章向量表示

    数据分析

        新闻点击次数分布(热点新闻、文章热度分析等)

        新闻共线分析(连续出现的次数,分析用户看连续两篇新闻的相关性)

        计算用户前后查看文章的相似度(分析用户查看新闻相似度走向)

4. 新增分析维度

    用户阅读频率分析(多久阅读一次)

    交互分析(不同时间阅读文章类型、不同时辰新闻点击分布、设备与新闻点击分析、系统与新闻点击分析、来源渠道与新闻主题分布)

    文章主题间的文章相似度

    用户前后点击新闻的相似度(点击时间差在一定范围内、范围外相似度比较)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容