登录注册写文章

Python数据分析-数据处理-重复值处理

简博Simbo

Python数据分析-数据处理-重复值处理

数据处理是对收集到的数据进行加工整理，以达到适合数据分析的样式，是数据分析必不可少的阶段

重复值处理

把数据结构中，行相同的数据只保留一行。

Paste_Image.png

python中重复值处理使用函数：drop_duplicates()

Paste_Image.png

代码：

Paste_Image.png

from pandas import read_csv

df = read_csv("D://PDA//4.3//data.csv")

df

#找出重复的位置
dIndex = df.duplicated()

#根据某些列，找出重复的位置
dIndex = df.duolicated('id')
dIndex = df.doplicated(['id','key'])

#根据返回值，把重复数据提取出来
df[dIndex]

#直接删除重复数据
#默认根据所有的列，进行删除
newDF = df.drop_duplicates()
#指定某一列，删除重复数据
newDF = df.drop_duplicates('id')

最后编辑于：2017.12.09 01:29:29

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

3赞4赞

赞赏

手机看全文

Python数据分析-数据处理-重复值处理

重复值处理

相关阅读更多精彩内容

友情链接更多精彩内容