暑假在家闲着,因为疫情复发了,就只能待在家。在网上看着词云图挺好玩的,然后自己就想着整一个中国医生的影评词云图玩玩。好家伙,就这样开始了一段“奇妙的旅程”。
首先实现写爬虫来将自己想要的数据爬取下来。网址:豆瓣电影
写爬虫不是什么问题,因为写过很多了,这其中唯一遇到的问题就是写入csv文件时出了点问题,就是我将csv写入操作写在了爬虫里面,但是无论我怎么调试,每一次都会将表头再次写入,这样就会影响之后的步骤。于是几经调试,我将表头单独在外面写了一次,在内部的时候就不用再写表头。诶,就解决了。
爬取后是下来是这个样子的:
有点奇怪哈,数据相对来说都是比较完整的,需要处理的也很少,于是我就用pandas简单的处理了一下,就开始接下来的数据可视化了。
因为自己是想做一个词云图吗,所以就会用到jieba库,于是我先看了一下大概最多的一些分词是啥,然后再去除一些没有意义的词,再进行展示:
接下来就是做词云图了,我这里用到了一些库,都是自己没学过的。没办法呀,为了自己能够更好的去理解,所以都是花了好几天的时间去重头学的。
下面是代码:
这里的去除不要的词我就是用的替换,肯定还有别的方法,只是说替换我更熟悉而已。其中的字体路径我是复制到和py文件一个目录下的。电脑字体的路径一般都是在C:\Windows\Fonts这个路径下。
运行结果如下:
诶,到这词云图就做好了。但是我看到我还爬取了对电影的推荐指数,于是乎我又想到做一个推荐程度占比图。话不多说,直接上代码:
这里的df1、df2、df3的意思是满足这个条件的信息,将其打印出来便是这样的:
所以我就直接将其转为长度来传入x中进行绘图,我以为可能会报错的。诶,结果没有报错直接成功啦!不错不错,哈哈。下面是运行结果:
整了好多天终于把这玩意儿给弄完了。说实话,弄这个之前真的有点茫然,不止从何下手。于是就上网查,会涉及到哪些知识点,好家伙,涉及到的还真不少。于是就挨个去学,唉,毫无疑问自学是个痛苦的过程,其中遇到问题了,就使劲扣脑袋,使劲查资料,慢慢的去解决,还好,都一一搞定了。过程很痛苦,但是结果很nice啊!不知不觉又学到了好多东西,真的很不错!
作为一个学生,就是该不断地进取,不断地去磨练,努力丰富自己,然后不断地成长!
道路还很漫长,但我会永远记住:吾将上下而求索!