数据处理是对收集到的数据进行加工整理,以达到适合数据分析的样式,是数据分析必不可少的阶段
重复值处理
把数据结构中,行相同的数据只保留一行。
python中重复值处理使用函数:drop_duplicates()
代码:
from pandas import read_csv
df = read_csv("D://PDA//4.3//data.csv")
df
#找出重复的位置
dIndex = df.duplicated()
#根据某些列,找出重复的位置
dIndex = df.duolicated('id')
dIndex = df.doplicated(['id','key'])
#根据返回值,把重复数据提取出来
df[dIndex]
#直接删除重复数据
#默认根据所有的列,进行删除
newDF = df.drop_duplicates()
#指定某一列,删除重复数据
newDF = df.drop_duplicates('id')