通过数据分析了解数据整体情况,发现用户、文章的属性信息,以便后续进行特征工程和模型构建。
数据字段:
日志文件包括字段:用户id、文章id、点击时间戳、点击环境、点击设备、点击操作系统、点击所在国家、点击所在区域、点击来源等
文章文件包括字段:文章id、类别id、创建时间戳、文章字数
文章向量:文章id、250长度向量
数据分析步骤包括以下步骤:
1. 用户维度分析
训练集测试集用户点击文章次数统计
探索性统计分析:info();describe(); head()
日志文件字段条形图分析用户点击环境、设备、操作系统、国家、区域、次数等的分布
测试集、训练集数据分布一致性探索(如用户至少点击文章次数)
2. 用户行为分析
重复点击行为分析(多次点击阅读文章)
用户点击环境变化分析
用户点击新闻数量分布(点击次数分析用户活跃度)
用户点击新闻文章主题的偏好(阅读兴趣是否广泛或单一)
用户阅读文章长度分布(长短文)
用户点击新闻时间差分布(分析用户点击文章时间差异)
用户阅读新闻的文章创建时间差分析(反映用户对文章时效性的偏好)
3. 新闻文章维度分析
探索性分析
词频、文章主题、文章创建时间统计分析
文章向量表示
数据分析
新闻点击次数分布(热点新闻、文章热度分析等)
新闻共线分析(连续出现的次数,分析用户看连续两篇新闻的相关性)
计算用户前后查看文章的相似度(分析用户查看新闻相似度走向)
4. 新增分析维度
用户阅读频率分析(多久阅读一次)
交互分析(不同时间阅读文章类型、不同时辰新闻点击分布、设备与新闻点击分析、系统与新闻点击分析、来源渠道与新闻主题分布)
文章主题间的文章相似度
用户前后点击新闻的相似度(点击时间差在一定范围内、范围外相似度比较)