Pandas处理txt文件并删除包含指定内容的行数据

最近使用pandas处理txt文本格式保存的数据需求比较多,有几个特殊处理的地方还花了两个小时的时间才解决,这也凸显了平时工作总结较少的劣势。

需求分析

需求是这样的,有个需要处理的txt文件,数据行数50万左右,模拟大致格式如下所示。

已知信息:
1、每行共5个字段均以";"英文符分开;字段分别为日期、城市、ID、字母代码、数字代码;
2、每个城市ID唯一,城市名可能有误;数字代码字段可能为空;
3、该文件中每个城市数据已按照日期字段降序排列。

需求目标:
1、去除空行
2、如果某个城市在最远日期下的数字代码字段为空,则删除该城市对应的所有数据。

2019-11-05;北京;ID000001;Z;8
2019-11-04;北京;ID000001;Z;8
2019-11-03;北京;ID000001;E;7
2019-11-02;北京;ID000001;Z;5

2019-11-05;上海;ID000002;E;7

2019-11-04;上海;ID000002;E;6
2019-11-03;上海;ID000002;E;
2019-11-03;上海;ID000002;E;5
2019-11-01;上海;ID000002;E;

2019-11-05;成都;ID000003;E;6
2019-11-04;成都;ID000003;D;
2019-11-03;成都;ID000003;E;
2019-11-03;成都;ID000003;D;
2019-11-01;成都;ID000003;E;5
2019-10-31;成都;ID000003;E;5

2019-11-05;广州;ID000002;E;7

2019-11-04;广州;ID000002;E;6
2019-11-03;广州;ID000002;E;
2019-11-03;广州;ID000002;E;5
2019-11-01;广州;ID000002;E;

代码示例

  1. 加载文本数据为Dataframe
    首先需要分隔文本文档并且读取为DataFrame格式:

使用map方法对可迭代对象中的每个元素进行函数操作,返回结果为一个生成器。

import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()
# 对每一行数据按";"进行分割,得到一个生成器对象,
# 内部为二维列表结构,可被DataFrame直接读取
pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)
print(df)

读取结果:

            0     1         2     3     4
0   2019-11-05    北京  ID000001     Z   8\n
1   2019-11-04    北京  ID000001     Z   8\n
2   2019-11-03    北京  ID000001     E   7\n
3   2019-11-02    北京  ID000001     Z   5\n
4           \n  None      None  None  None
5   2019-11-05    上海  ID000002     E   7\n
6           \n  None      None  None  None
7   2019-11-04    上海  ID000002     E   6\n
8   2019-11-03    上海  ID000002     E  \n
9   2019-11-03    上海  ID000002     E   5\n
...
  1. 数据预处理
    预处理数据,去除空行和列4中的换行符:
  • dropna():删除空行/列,axis指定行或列,inplace=True表明在原表上修改。
  • df[column].str.strip():列对象的str方法,对该列每个元素执行,也可自定义函数使用apply方法。
import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()

pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)
# 在源df上删除空行
df.dropna(axis=0, inplace=True)
# 对列对象使用str方法对每个元素进行str.strip()操作去除包括/n在内的空值
df[4] = df[4].str.strip()

print(df)

预处理结果:

             0   1         2  3  4
0   2019-11-05  北京  ID000001  Z  8
1   2019-11-04  北京  ID000001  Z  8
2   2019-11-03  北京  ID000001  E  7
3   2019-11-02  北京  ID000001  Z  5
5   2019-11-05  上海  ID000002  E  7
7   2019-11-04  上海  ID000002  E  6
8   2019-11-03  上海  ID000002  E   
9   2019-11-03  上海  ID000002  E  5
10  2019-11-01  上海  ID000002  E   
12  2019-11-05  成都  ID000003  E  6
13  2019-11-04  成都  ID000003  D   
14  2019-11-03  成都  ID000003  E   
15  2019-11-03  成都  ID000003  D   
16  2019-11-01  成都  ID000003  E  5
17  2019-10-31  成都  ID000003  E  5
19  2019-11-05  广州  ID000004  E  7
21  2019-11-04  广州  ID000004  E  6
22  2019-11-03  广州  ID000004  E   
23  2019-11-03  广州  ID000004  E  5
24  2019-11-01  广州  ID000004  E   
  1. 获取需要删除的城市id集合
    根据需求,若城市最远日期的数字代码字段为空,则需要删除该城市的所有行数据。
    我的思路是:先获取满足需求的城市id集合,再删除该集合包含的行数据。
  • df[column].to_list():将指定列数据转换为列表格式
  • df[df[column=="example"]]筛选出指定列数据等于指定内容的DataFrame
  • iloc[-1]:按行索引来获取行数据
import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()

pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)

df.dropna(axis=0, inplace=True)
df[4] = df[4].str.strip()

# 获取唯一值id去重后集合
id_set = set(df[2].to_list())
filter_id = []
for _id in id_set:
    # 遍历获取DataFrame中id值为指定值的df,并获取最后一条即最远日期的Series数据
    id_info = df[df[2]==_id].iloc[-1]
    # 若该最远日期城市的数字代码为空,则符合过滤判断逻辑,将它的id值添加进filter_id列表
    if id_info[4] is "":
        filter_id.append(id_info[2])

print(filter_id)

需删除的结果集合为:

['ID000004', 'ID000002']
  1. 删除指定数据,写入新文件
    根据所得集合,删除对应城市数据,并将新的结果按格式要求重新写入文本:
  • df[-df[column].isin([example1,example2])]:减号代表删除,删除指定列内容在集合对象内的行数据。
  • df.iat[i, j]:DataFrame中指定行、列坐标位置的具体元素值。
import pandas as pd

with open("history.txt", "r", encoding="utf8") as f:
    lines = f.readlines()

pre_data = map(lambda x: x.split(";"), lines)
df = pd.DataFrame(pre_data)

df.dropna(axis=0, inplace=True)
df[4] = df[4].str.strip()
print(df)
# 获取唯一值id去重后集合
id_set = set(df[2].to_list())
filter_id = []
for _id in id_set:
    # 遍历获取DataFrame中id值为指定值的df,并获取最后一条即最远日期的Series数据
    id_info = df[df[2] == _id].iloc[-1]
    # 若该最远日期城市的数字代码为空,则符合过滤判断逻辑,将它的id值添加进filter_id列表
    if id_info[4] is "":
        filter_id.append(id_info[2])

# 在df表中删除城市id在filter_id集合内的所有数据
result_df = df[-df[2].isin(filter_id)]
print(result_df)
with open("history_new.txt", "w", encoding="utf-8") as f:
    for i in range(len(result_df)):
        f.write(result_df.iat[i, 0] + ";" + result_df.iat[i, 1] + ";" + result_df.iat[i, 2] + ";" + result_df.iat[i, 3] + ";" + result_df.iat[i, 4])
        f.write("\n")

写入后history_new.txt中数据格式,可见过滤集合['ID000004', 'ID000002']中id对应的上海和广州数据已被删除,达到了最终的目的:

2019-11-05;北京;ID000001;Z;8
2019-11-04;北京;ID000001;Z;8
2019-11-03;北京;ID000001;E;7
2019-11-02;北京;ID000001;Z;5
2019-11-05;成都;ID000003;E;6
2019-11-04;成都;ID000003;D;
2019-11-03;成都;ID000003;E;
2019-11-03;成都;ID000003;D;
2019-11-01;成都;ID000003;E;5
2019-10-31;成都;ID000003;E;5

以上,Pandas常用方法很多,要熟练使用还得真的多用多总结才行,不然一个简单的需求都得找半天方法。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,137评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,824评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,465评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,131评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,140评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,895评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,535评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,435评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,952评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,081评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,210评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,896评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,552评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,089评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,198评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,531评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,209评论 2 357

推荐阅读更多精彩内容