处理数据

1、数据读取、排序、格式统一

数据读取上一篇已经涉及了，这里再来一次，因为读取数据是处理数据的第一步，要想知道如何处理数据，首先我们应该输出文件中的数据内容，看一下采用何种方式处理才是合适的：

>>> with open('james.txt') as jaf,open('julie.txt') as juf:
    print(jaf.readline())
    print(juf.readline())

    
2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22

2.59,2.11,2:11,2:23,3-10,2-23,3:10,3.21,3-21

>>> with open('mikey.txt') as mif,open('sarah.txt') as saf:
    print(mif.readline())
    print(saf.readline())

    
2:22,3.01,3:01,3.02,3:02,3.02,3:22,2.49,2:38

2:58,2.58,2:39,2-25,2-55,2:54,2.18,2:55,2:55

可以看到，给出的四个文本文件中的数据都是以逗号分隔的，至于数据格式，这里的问题背景是每个文件表示一位运动员近10次的600米成绩。

我们先将数据读取到列表中，以方便接下来的操作：

>>> with open('james.txt') as jaf:
    data=jaf.readline()
    james=data.strip().split(',')

>>> with open('julie.txt') as juf:
    data=juf.readline()
    julie=data.strip().split(',')

    
>>> with open('sarah.txt') as saf:
    data=saf.readline()
    sarah=data.strip().split(',')

    
>>> with open('mikey.txt') as mif:
    data=mif.readline()
    mikey=data.strip().split(',')

>>> print(james)
['2-34', '3:21', '2.34', '2.45', '3.01', '2:01', '2:01', '3:10', '2-22']
>>> print(julie)
['2.59', '2.11', '2:11', '2:23', '3-10', '2-23', '3:10', '3.21', '3-21']
>>> print(sarah)
['2:58', '2.58', '2:39', '2-25', '2-55', '2:54', '2.18', '2:55', '2:55']
>>> print(mikey)
['2:22', '3.01', '3:01', '3.02', '3:02', '3.02', '3:22', '2.49', '2:38']

现在我们想知道每个运动员最好的三次成绩，因此需要对列表排序，排序方式有两种，一种是原地排序，即用排序后的数据替换原数据，原数据会消失；另一种是复制排序，即返回原数据的一个有序副本。例如：

>>> data=[6,3,1,2,4,5]
>>> data.sort()
>>> data
[1, 2, 3, 4, 5, 6]
>>> data=[6,3,1,2,4,5]
>>> data2=sorted(data)
>>> data2
[1, 2, 3, 4, 5, 6]
>>> data
[6, 3, 1, 2, 4, 5]

我们采取复制排序sorted()来输出排序后的列表：

>>> print(sorted(james))
['2-22', '2-34', '2.34', '2.45', '2:01', '2:01', '3.01', '3:10', '3:21']
>>> print(sorted(julie))
['2-23', '2.11', '2.59', '2:11', '2:23', '3-10', '3-21', '3.21', '3:10']
>>> print(sorted(sarah))
['2-25', '2-55', '2.18', '2.58', '2:39', '2:54', '2:55', '2:55', '2:58']
>>> print(sorted(mikey))
['2.49', '2:22', '2:38', '3.01', '3.02', '3.02', '3:01', '3:02', '3:22']

然而，我们发现数据并没有按照我们想象的方式排序，比如2-55排在2.18前面，这是由数据格式不统一造成的，于是我们需要修正数据，使得列表中所有‘-’和‘:’都替换成‘.’。

>>> def sanitize(time_string):
    if '-' in time_string:
        spliter='-'
    elif ':' in time_string:
        spliter=':'
    else:
        return(time_string)
    (mins,secs)=time_string.split(spliter)
    return(mins+'.'+secs)

用sanitize函数清洗列表数据并输出排序结果：

>>> clean_james=[]
>>> clean_julie=[]
>>> clean_sarah=[]
>>> clean_mikey=[]

>>> for each_t in james:
    clean_james.append(sanitize(each_t))
    
>>> for each_t in julie:
    clean_julie.append(sanitize(each_t))
    
>>> for each_t in sarah:
    clean_sarah.append(sanitize(each_t))

>>> for each_t in mikey:
    clean_mikey.append(sanitize(each_t))

>>> print(sorted(clean_james))
['2.01', '2.01', '2.22', '2.34', '2.34', '2.45', '3.01', '3.10', '3.21']
>>> print(sorted(clean_julie))
['2.11', '2.11', '2.23', '2.23', '2.59', '3.10', '3.10', '3.21', '3.21']
>>> print(sorted(clean_sarah))
['2.18', '2.25', '2.39', '2.54', '2.55', '2.55', '2.55', '2.58', '2.58']
>>> print(sorted(clean_mikey))
['2.22', '2.38', '2.49', '3.01', '3.01', '3.02', '3.02', '3.02', '3.22']

2、推导列表

至此我们已经完成了数据清洗，但是看起来我们做了大量重复的工作，因为实际上我们做了4件事：
（1）创建新列表存放转换后的数据
（2）迭代列表中每个数据项
（3）每次迭代时用sanitize函数完成转换
（4）将转换后的数据追加到列表

实际上列表推导可以为我们简化这一过程，举个例子：

>>> min=[1,2,3]
>>> sec=[m*60 for m in min]
>>> sec
[60, 120, 180]

>>> lower=['I','do not','like','spam']
>>> upper=[s.upper() for s in lower]
>>> upper
['I', 'DO NOT', 'LIKE', 'SPAM']

有了列表推导，我们之前进行的数据清理和排序可以很简洁的写出来：

>>> sorted([sanitize(t) for t in james])
['2.01', '2.01', '2.22', '2.34', '2.34', '2.45', '3.01', '3.10', '3.21']
>>> sorted([sanitize(t) for t in julie])
['2.11', '2.11', '2.23', '2.23', '2.59', '3.10', '3.10', '3.21', '3.21']
>>> sorted([sanitize(t) for t in sarah])
['2.18', '2.25', '2.39', '2.54', '2.55', '2.55', '2.55', '2.58', '2.58']
>>> sorted([sanitize(t) for t in mikey])
['2.22', '2.38', '2.49', '3.01', '3.01', '3.02', '3.02', '3.02', '3.22']

3、删除重复项、集合

如果我们要删除列表中的重复项，要怎么做呢？毫无疑问我们可以创建一个新的列表然后边检查边将原列表元素追加到新列表：

>>> unique_james=[]
>>> for each_t in clean_james:
    if each_t not in unique_james:
        unique_james.append(each_t)

        
>>> unique_james
['2.34', '3.21', '2.45', '3.01', '2.01', '3.10', '2.22']

这当然可以达到目的，但看上去有些麻烦。事实上，这时候我们可以采用集合数据结构，Python中集合的特性是集合中数据项无序，且不允许重复。实际上，我们可以用set() BIF来处理列表去重：

>>> unique_james=set(clean_james)
>>> unique_james
{'2.45', '2.22', '2.01', '3.01', '3.21', '3.10', '2.34'}

推荐阅读更多精彩内容