10.1.1 重复值检测

1. duplicated() 和 drop_duplicated()

duplicated() 检测重复值,drop_duplicated() 去掉重复值。


image.png

image.png

1.1 查看重复值的比

image.png

(1)所有列重复为重复

df.duplicated() 的结果为TRUEor False,进行均值得到重复值的比。比例很大,说明共线性很大。


image.png

(2)指定列重复才作为重复,参数subset

image.png

(3)指定第一个还是最后一个不为重复值

first,last, 为first, 第一个保留,其他作为重复值。

image.png

通过df.loc 得到重复行的索引
image.png

image.png

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容