任务目标
通过pandas
工具对数据进行分析,找出数据的分布和一般规律。
主要考察三个问题:
- 赛题数据中,新闻文本的长度是多少?
- 赛题数据的类别分布是怎么样的,哪些类别比较多?
- 赛题数据中,字符分布是怎么样的?
我们可以看出,所有新闻中,最短的新闻只有两个单词,最长的新闻有57921个单词,而平均长度有907个单词左右
这里可以看出,前三类的新闻占据比较多的数量,而后几种新闻数量较少,整体的数据不是很平衡。
在这里,我们统计一下单词的频数和分布,包括最大频数的单词,和最小频数的单词。
两个问题:
- 假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?
- 统计每类新闻中出现次数对多的字符
问题1:
问题2: