登录注册写文章

10.1.1 重复值检测

蓝天下悠闲的云朵

10.1.1 重复值检测

1. duplicated() 和 drop_duplicated()

duplicated() 检测重复值，drop_duplicated() 去掉重复值。

image.png

image.png

1.1 查看重复值的比

image.png

(1)所有列重复为重复

df.duplicated() 的结果为TRUEor False,进行均值得到重复值的比。比例很大，说明共线性很大。

image.png

（2）指定列重复才作为重复，参数subset

image.png

（3）指定第一个还是最后一个不为重复值

first,last, 为first, 第一个保留，其他作为重复值。

image.png

通过df.loc 得到重复行的索引

image.png

image.png

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

2019-09-07 R语言总结
R语言与数据挖掘：公式；数据；方法 R语言特征对大小写敏感通常，数字，字母，. 和 _都是允许的(在一些国家还...
__一蓑烟雨__阅读 1,867评论 0赞 5
基于python的大数据分析-数据处理（代码实战）
点击链接加入QQ群229390571（免费公开课、视频应有尽有）：https://jq.qq.com/?_wv=1...
测试帮日记阅读 586评论 0赞 0

R语言与金融定量分析
本文是作者在学习许启发、蒋翠侠撰写并由清华大学出版社出版的《R软件及其在金融定量分析中的应用》时写下的review...
廓然寄畅阅读 3,829评论 0赞 4
家长会谈合作
久违的晴天，家长会。家长大会开好到教室时，离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。放学铃声...
飘雪儿5阅读 7,870评论 16赞 22
2019－11－28 周四阴
今天感恩节哎，感谢一直在我身边的亲朋好友。感恩相遇！感恩不离不弃。中午开了第一次的党会，身份的转变要...
余生动听阅读 10,920评论 0赞 11

友情链接更多精彩内容

赞1赞

赞赏

手机看全文