首先导入需要的包。
接下来读入100行数据,查看数据大致情况。
从图中可以看出,每行数据均有14个字段。
我们读入数据的id,分类和上传时间字段。大致统计一下数据。
我们统计一下,在本数据集中共出现了多少种独立的数据集。
从结果可以看出,共176个子集。
接下来我们提取出19年以后的论文。
在得到了2019年以后的所有论文以后,我们挑选出计算机领域内的所有文章。这里需要使用爬虫。
我们将2个表格合并后,可以用饼图看下每一个大类的文章占比情况。
最后计算一下计算机领域2019年和2020年各小类论文的分布情况。