1. duplicated() 和 drop_duplicated()
duplicated() 检测重复值,drop_duplicated() 去掉重复值。
image.png
image.png
1.1 查看重复值的比
image.png
(1)所有列重复为重复
df.duplicated() 的结果为TRUEor False,进行均值得到重复值的比。比例很大,说明共线性很大。
image.png
(2)指定列重复才作为重复,参数subset
image.png
(3)指定第一个还是最后一个不为重复值
first,last, 为first, 第一个保留,其他作为重复值。
image.png
通过df.loc 得到重复行的索引
image.png
image.png