处理数据

1、数据读取、排序、格式统一

数据读取上一篇已经涉及了,这里再来一次,因为读取数据是处理数据的第一步,要想知道如何处理数据,首先我们应该输出文件中的数据内容,看一下采用何种方式处理才是合适的:

>>> with open('james.txt') as jaf,open('julie.txt') as juf:
    print(jaf.readline())
    print(juf.readline())

    
2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22

2.59,2.11,2:11,2:23,3-10,2-23,3:10,3.21,3-21

>>> with open('mikey.txt') as mif,open('sarah.txt') as saf:
    print(mif.readline())
    print(saf.readline())

    
2:22,3.01,3:01,3.02,3:02,3.02,3:22,2.49,2:38

2:58,2.58,2:39,2-25,2-55,2:54,2.18,2:55,2:55

可以看到,给出的四个文本文件中的数据都是以逗号分隔的,至于数据格式,这里的问题背景是每个文件表示一位运动员近10次的600米成绩。

我们先将数据读取到列表中,以方便接下来的操作:

>>> with open('james.txt') as jaf:
    data=jaf.readline()
    james=data.strip().split(',')

>>> with open('julie.txt') as juf:
    data=juf.readline()
    julie=data.strip().split(',')

    
>>> with open('sarah.txt') as saf:
    data=saf.readline()
    sarah=data.strip().split(',')

    
>>> with open('mikey.txt') as mif:
    data=mif.readline()
    mikey=data.strip().split(',')

>>> print(james)
['2-34', '3:21', '2.34', '2.45', '3.01', '2:01', '2:01', '3:10', '2-22']
>>> print(julie)
['2.59', '2.11', '2:11', '2:23', '3-10', '2-23', '3:10', '3.21', '3-21']
>>> print(sarah)
['2:58', '2.58', '2:39', '2-25', '2-55', '2:54', '2.18', '2:55', '2:55']
>>> print(mikey)
['2:22', '3.01', '3:01', '3.02', '3:02', '3.02', '3:22', '2.49', '2:38']

现在我们想知道每个运动员最好的三次成绩,因此需要对列表排序,排序方式有两种,一种是原地排序,即用排序后的数据替换原数据,原数据会消失;另一种是复制排序,即返回原数据的一个有序副本。例如:

>>> data=[6,3,1,2,4,5]
>>> data.sort()
>>> data
[1, 2, 3, 4, 5, 6]
>>> data=[6,3,1,2,4,5]
>>> data2=sorted(data)
>>> data2
[1, 2, 3, 4, 5, 6]
>>> data
[6, 3, 1, 2, 4, 5]

我们采取复制排序sorted()来输出排序后的列表:

>>> print(sorted(james))
['2-22', '2-34', '2.34', '2.45', '2:01', '2:01', '3.01', '3:10', '3:21']
>>> print(sorted(julie))
['2-23', '2.11', '2.59', '2:11', '2:23', '3-10', '3-21', '3.21', '3:10']
>>> print(sorted(sarah))
['2-25', '2-55', '2.18', '2.58', '2:39', '2:54', '2:55', '2:55', '2:58']
>>> print(sorted(mikey))
['2.49', '2:22', '2:38', '3.01', '3.02', '3.02', '3:01', '3:02', '3:22']

然而,我们发现数据并没有按照我们想象的方式排序,比如2-55排在2.18前面,这是由数据格式不统一造成的,于是我们需要修正数据,使得列表中所有‘-’和‘:’都替换成‘.’。

>>> def sanitize(time_string):
    if '-' in time_string:
        spliter='-'
    elif ':' in time_string:
        spliter=':'
    else:
        return(time_string)
    (mins,secs)=time_string.split(spliter)
    return(mins+'.'+secs)

用sanitize函数清洗列表数据并输出排序结果:

>>> clean_james=[]
>>> clean_julie=[]
>>> clean_sarah=[]
>>> clean_mikey=[]

>>> for each_t in james:
    clean_james.append(sanitize(each_t))
    
>>> for each_t in julie:
    clean_julie.append(sanitize(each_t))
    
>>> for each_t in sarah:
    clean_sarah.append(sanitize(each_t))

>>> for each_t in mikey:
    clean_mikey.append(sanitize(each_t))

>>> print(sorted(clean_james))
['2.01', '2.01', '2.22', '2.34', '2.34', '2.45', '3.01', '3.10', '3.21']
>>> print(sorted(clean_julie))
['2.11', '2.11', '2.23', '2.23', '2.59', '3.10', '3.10', '3.21', '3.21']
>>> print(sorted(clean_sarah))
['2.18', '2.25', '2.39', '2.54', '2.55', '2.55', '2.55', '2.58', '2.58']
>>> print(sorted(clean_mikey))
['2.22', '2.38', '2.49', '3.01', '3.01', '3.02', '3.02', '3.02', '3.22']

2、推导列表

至此我们已经完成了数据清洗,但是看起来我们做了大量重复的工作,因为实际上我们做了4件事:
(1)创建新列表存放转换后的数据
(2)迭代列表中每个数据项
(3)每次迭代时用sanitize函数完成转换
(4)将转换后的数据追加到列表

实际上列表推导可以为我们简化这一过程,举个例子:

>>> min=[1,2,3]
>>> sec=[m*60 for m in min]
>>> sec
[60, 120, 180]

>>> lower=['I','do not','like','spam']
>>> upper=[s.upper() for s in lower]
>>> upper
['I', 'DO NOT', 'LIKE', 'SPAM']

有了列表推导,我们之前进行的数据清理和排序可以很简洁的写出来:

>>> sorted([sanitize(t) for t in james])
['2.01', '2.01', '2.22', '2.34', '2.34', '2.45', '3.01', '3.10', '3.21']
>>> sorted([sanitize(t) for t in julie])
['2.11', '2.11', '2.23', '2.23', '2.59', '3.10', '3.10', '3.21', '3.21']
>>> sorted([sanitize(t) for t in sarah])
['2.18', '2.25', '2.39', '2.54', '2.55', '2.55', '2.55', '2.58', '2.58']
>>> sorted([sanitize(t) for t in mikey])
['2.22', '2.38', '2.49', '3.01', '3.01', '3.02', '3.02', '3.02', '3.22']

3、删除重复项、集合

如果我们要删除列表中的重复项,要怎么做呢?毫无疑问我们可以创建一个新的列表然后边检查边将原列表元素追加到新列表:

>>> unique_james=[]
>>> for each_t in clean_james:
    if each_t not in unique_james:
        unique_james.append(each_t)

        
>>> unique_james
['2.34', '3.21', '2.45', '3.01', '2.01', '3.10', '2.22']

这当然可以达到目的,但看上去有些麻烦。事实上,这时候我们可以采用集合数据结构,Python中集合的特性是集合中数据项无序,且不允许重复。实际上,我们可以用set() BIF来处理列表去重:

>>> unique_james=set(clean_james)
>>> unique_james
{'2.45', '2.22', '2.01', '3.01', '3.21', '3.10', '2.34'}
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容