数据分析day2:dat表数据处理

数据来自《利用python进行数据分析》附加数据文件,本篇使用电影评分数据

读取三份数据

这里传入的names值的是要使用的列名称的列表
三个表的前5行

要记住每一个都是DataFrame对象,不过三个表看起来太麻烦了,不如合成为一个表,这时就利用pandas的merge函数,先将ratings跟users合并,然后再将movies合并进去,merge函数会根据列名的重叠情况自动推断出哪些列是合并(或连接)键

取出第一行

原书中使用的ix(int)函数,但是这个函数已经弃用了,再使用会抛出警告,我就换了新的函数loc这里是基于标签索引还有一个基于位置索引的iloc

透视表

pivot_table官方文档


筛选出投票数大与250的,并作为索引生成新的DataFrame

对女性观众的评分进行排序,这里出发了一个警告,sort_index已经弃用,所以我更换了新的方法sort_values

接下来计算男女分歧比较大的电影,其实就是多加一列,计算出男女电影评分差,排序一下就可以了


按照评分差排序

反过来就是男性最喜欢的电影(相比较)


女性最喜欢倒序之后

这里利用切片的第三个参数步进为负数实现倒序

转载请注明出处

python自学技术互助扣扣群:670402334

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容