Excel数据清洗

之前由于需要处理一些从网站数据库直接提取出的excel表格,进行去重和对相应单位的编号,所以有了这一次Excel数据清洗的经历。
下面就进行详细说明。

目的:
1、去重
2、编号

使用语言:python

涉及到的主要模块:
1、xlrd
2、Pandas

一、知识准备

1、Pandas介绍

python的数据分析包,是作为金融数据分析工具而被开发的,这里我们主要是利用pandas将excel表格数据转化为其中的数据结构DataFrame,从而将操作excel表变成操作DataFrame。

2、DataFrame

该数据结构是一个表格型的数据结构,包含一组有序的列,每列可以是不同的值类型。拥有行索引和列索引。
具体的关于DataFrame的操作这里给出一个比较好的使用说明,里面也有介绍Series的内容:Pandas使用指南

3、xlrd介绍

在这次数据经历的工作中还使用到了python中来读取和存储excel的扩展模块——xlrd。
它的作用来对本次处理的excel表格进行读取和存储,同时也可以实现指定表单、指定单元格的读写。

4、xlrd的基本操作

1)导入模块
    import xlrd
2)打开Excel文件读取数据
    data = xlrd.open_workbook('excelFile.xls')
3)使用技巧
    获取一个工作表
    table = data.sheets()[0]                   #通过索引顺序获取         
    table = data.sheet_by_index(0)             #通过索引顺序获取
    table = data.sheet_by_name(u'Sheet1')      #通过名称获取
    
    获取整行和整列的值(数组)
    table.row_values(i)
    table.col_values(i)
 
    获取行数和列数
   nrows = table.nrows
    ncols = table.ncols
       
    循环行列表数据
    for i in range(nrows ):
          print table.row_values(i)
 
    单元格
    cell_A1 = table.cell(0,0).value
    cell_C4 = table.cell(2,3).value
 
    使用行列索引
    cell_A1 = table.row(0)[0].value
    cell_A2 = table.col(1)[0].value
 
    简单的写入
    row = 0
    col = 0
 
    # 类型 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error
    ctype = 1 value = '单元格的值'
 
    xf = 0 # 扩展的格式化
 
    table.put_cell(row, col, ctype, value, xf)
    table.cell(0,0)  #单元格的值'
    table.cell(0,0).value #单元格的值'

二、流程

这里主要说明一下整个数据清理的逻辑。


流程介绍

三、代码

其实这次清理的整个逻辑比较简单,涉及到的比较难的部分在于Pandas中DataFrame数据结构的使用。

1、去重

#filename: delete_dup.py

# -*- coding:utf-8 -*-

import pandas as pd

# 将excel文件转换为DataFrame
df = pd.DataFrame(pd.read_excel('excel_name.xlsx')) 

# 删除对应列的重复值,保留第一次出现的位置
new_df = df.drop_duplicates('1', keep='first').dropna()
print 'drop ok!'

new_df.to_excel('excel_name_fix.xlsx')

2、编号并回填

#filename: build_tag.py

# -*- coding:utf-8 -*-
import pandas as pd
import xlrd

# 生成对应索引所需文件
data = xlrd.open_workbook('ROOT_TO_YOUR_FILE_FROM_LAST_CLEAN.xlsx')
table = data.sheet_by_index(0)
# 获取行数
nrows = table.nrows

# 键值对的信息格式为 —— 名字:UID
UID = {}
# 这样会包含第一行列名的信息,问题不大
# 第二列和第三列
# 第二列:第三列
for i in range(nrows):
  UID[table.cell(i,1).value]=table.cell(i,2).value
###############################至此完成数据编号##################################

#################################下面进行回填###################################
# 待清洗数据
cleaning_data = pd.DataFrame(pd.read_excel('ROOT_TO_YOUR_FILE_TO_CLEAN.xlsx'))
# print cleaning_data
series_name = cleaning_data['UNAME']

# 生成索引
new_form =  pd.Series(UID, index=series_name)
# 添加新列为索引值
cleaning_data['UID'] = new_form.values
cleaned_data = cleaning_data


# 调整列的顺序
UID = cleaned_data.pop('UID')
cleaned_data.insert(5, 'UID', UID)

# 写文件
cleaned_data.to_excel('ROOT_TO_STORE_YOUR_CLEANED_FILE.xlsx')
print 'ok'
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容