EXECL表格数据去重

最近在整理题库，将题库转换成EXECL表格后，在配合Python写的检索脚本可以很直观的得到自己想要的信息。唯一美中不足的是，表格内又重复题目，为了精简文件及浏览的直观性，使用Python写了一个EXECL相同行数据去重的脚本。

脚本如下：

import pandas as pd

# 读取Excel文件
input_file = '需去重目录文件名.xlsx'
df = pd.read_excel(input_file)

# 删除重复行数据并保存到新文件
output_file = '去重后需要保存的目录文件名.xlsx'
df.drop_duplicates(inplace=True)
df.to_excel(output_file, index=False)

print(f'处理完成，去重后的文件保存在{output_file}中')

貌似这个是单一文件的处理方式，延伸想了想，针对目录内的所有EXECL文件进行批量去重，脚本如下：

import pandas as pd
import os

# 获取当前目录下所有Excel文件
excel_files = [f for f in os.listdir() if f.endswith('.xlsx') or f.endswith('.xls')]

# 对每个Excel文件进行去重操作
for f in excel_files:
    # 读取Excel文件到DataFrame
    df = pd.read_excel(f)

    # 进行去重操作
    df = df.drop_duplicates()

    # 保存去重后的Excel文件
    new_file_name = os.path.splitext(f)[0] + '_去重后.xlsx'
    df.to_excel(new_file_name, index=False)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

EXECL表格数据去重

EXECL表格数据去重

相关阅读更多精彩内容

友情链接更多精彩内容