聚焦偷税漏税,树立正确价值观——破冰显微镜小队第十二弹
明星偷税漏税层出不穷,近来,薇娅、范冰冰事件将中国文娱界明星偷税漏税情况再一次成为社会关注的重点话题。因此,团队以此为例对偷税漏税现象展开调查,从网络对偷税漏税现象的关注度、社会各群体对偷税漏税的认知现状、影响公民偷税漏税的因素、政府及国家税务总局的,多角度研究,并选取“薇娅偷逃税款6.43亿元”、“逃税可耻”、“偷税漏税的刑事处罚政策落实四个方面出发,对偷税漏税现象进行全面研究,得到以下结论与建议。
(一)偷税漏税网络关注度分析
1.多维度收集数据
为了更加全面研究网络关于偷税漏税现象的讨论与关注,团队成员根据各大平台关于明星偷税漏税现象的发帖情况”作为网络爬虫的三大代表性主题词,有效避免了所获取数据的单一化。确定主题词后,团队成员选取了微博、哔哩哔哩、知乎三大平台并使用python对三大平台网页中关于主题词的评论与发帖量进行初步统计,统计结果显示在三大平台当中,微博的讨论数量最高,但其文本价值却不如其他两个平台。另外可以看出,微博平台上三大主题词的分布较为平均,哔哩哔哩中获得最高评论量的为“逃税可耻” “偷税漏税的刑事处罚”在知乎中占比最高。
2.初步分析数据
获取数据后,通过数据清洗,我们删除了部分无意义的评论,得到较为完整且有用信息含量较高的文本数据,并使用python中的jieba和nltk库对文本进行分词和词频统计,得到“薇”、“娅”、“偷逃税”、“罚款”等在评论中出现的高频词。
3.确定两大分析主题
团队从文本情感分析和词性主题分类两方面对之前得出的分词结果进行分析。通过文本情感分析,我们可以看出绝大多数民众都是坚决支持税收政策,认为偷税漏税是一件非常可耻的行为,并在发表的评论中表达了自己愤怒的情绪;通过词性主题分类,得出在形容关键词中,“可耻”、“不可理解”、“无语”、“可恨”词频排名前四、动词关键词中,“罚款”、“追缴”是关注度的最高的两个词语、名词关键词中,“薇娅”一词独占鳌头,其次是“逃税”、“税收政策”的结论。总之,通过分析,我们不难发现民众对偷税漏税这一事件不仅仅是被动的发泄情绪,还有相当一部分人通过这一事件认识到的税收的相关法律知识,并且主动去了解和学习。
4.文本情感分析深入挖掘
在完成情感分析后,我们了解到了情感主题词,并对其进行了初步的分析。在此基础上,团队成员进一步分析每个用户大致职业方向或者个人兴趣,采用朴素贝叶斯分类器构建了分类模型,模型得出在9大分类中,“大学生”、“新媒体行业”、“金融行业”排名前三,由此可以看出,年轻人对偷税漏税现象的关注度较高。