数据预处理之去重逆向(python)

之前因为有根据二维数据表的某一列去重后生成新数据表的需求,写了一个简单代码,具体参见数据预处理之一些需要去重的情况处理,具体效果都在那篇文章里了,如果需要逆向呢?就是将数据从合并的列变成包含重复项的列,有些像宽表变长表;比较直接的思路还是逐行遍历,遇到有合并数据的行就拆分。
下面是简要演示步骤:

1,创建一个简单的测试数据

创建一个简单的测试数据

2,进行合并去重

数据预处理之一些需要去重的情况处理,代码:

ndf=pd.DataFrame(columns=df.columns) #根据df的列名建一个空表ndf
uids=set(df['uid'])
for u in uids:
    one=df.loc[df['uid']==u] #获取所有uid等于u的行,之后只会保存一行
    #在这里写if然后只保留一行,然后concat到ndf上,实现只保留一行
    olst=list(one['name']) #或者用set
    zero=one.iloc[[0]] #iloc[行号]是series iloc[[行号]]是dataframe
    #zero['name']=str(olst)
    if len(olst)>1: #等于1的就不用改了
        zero['name']=str(olst) #or =''.join(olst)
    ndf=pd.concat([ndf,zero]) #把选出来的zero加到ndf里
去重后的效果

3,去重逆向

cdf=pd.DataFrame(columns=ndf.columns) #据df的列名建一个空表ndf
for i, r in ndf.iterrows():
    if '[' in r['name']: #如果是需要拆分的行
        nlst=r['name'].split(',') #拆分
        for n in nlst:
            k=n.strip("[]'").replace("'",'')
            zero=ndf.loc[[i]]
            zero['name']=k
            cdf=pd.concat([cdf,zero])
    else: #不需要拆分就直接加到后面
        zero=ndf.loc[[i]] 
        cdf=pd.concat([cdf,zero])
cdf
逆向后效果

里面比较有意思的点是 在去重的时候用的是one.iloc[[0]],因为iloc[行号]是series,而iloc[[行号]]是dataframe,在逆向的时候尝试用iloc会遇到索引i的bug,经过探索发现loc[[i]]可以用,于是写zero=ndf.loc[[i]],iloc和loc配合真的很有趣。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 转 # https://www.cnblogs.com/easypass/archive/2010/12/ 08/...
    吕品㗊阅读 9,824评论 0 44
  • 整理归纳在Python中使用对数据处理的常用方法,包括与HDFS文件的读写,主要是怕用的时候记不住,容易搞混,再搜...
    shohokuooo阅读 4,253评论 0 50
  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,451评论 0 9
  • 生命从来都不是随便说说而已的
    西北天空阅读 345评论 0 0
  • 期待不期而遇的美丽,却总是忘了初心,忘了初衷,忘了最开始的心量。而开始期待,开始期盼,开始不满足。所以会变成自己不...
    雷艺阅读 174评论 0 0