Datawhale零基础入门NLP赛事 - Task2 数据分析

任务目标

通过pandas工具对数据进行分析,找出数据的分布和一般规律。
主要考察三个问题:

  • 赛题数据中,新闻文本的长度是多少?
  • 赛题数据的类别分布是怎么样的,哪些类别比较多?
  • 赛题数据中,字符分布是怎么样的?

我们可以看出,所有新闻中,最短的新闻只有两个单词,最长的新闻有57921个单词,而平均长度有907个单词左右


这里可以看出,前三类的新闻占据比较多的数量,而后几种新闻数量较少,整体的数据不是很平衡。




在这里,我们统计一下单词的频数和分布,包括最大频数的单词,和最小频数的单词。

两个问题:

  • 假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?
  • 统计每类新闻中出现次数对多的字符

问题1:


问题2:



©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。