# 数据编码与处理(cookbook笔记)

数据编码与处理

读写csv文件

  • 通过元组,命名元组,字典方式来读取csv
import csv
from collections import namedtuple
def main1():
    with open('stocks.csv') as f:
        f_csv = csv.reader(f)
        #跳过表头
        headers = next(f_csv)
        for row in f_csv:
            print (row)

def main2():
    with open('stocks.csv') as f:
        f_csv = csv.reader(f)
        headings = next(f_csv)
        Row = namedtuple('Row', headings)
        for r in f_csv:
            row = Row(*r)
            print (row)

def main3():
    with open('stocks.csv') as f:
        f_csv = csv.DictReader(f)
        for r in f_csv:
            print (r)
  • 在使用命名元组时,需要处理表头头非法字符的情况比如'-',使用正则进行替换
def main5():
    import re
    with open('stocks.csv') as f:
        f_csv = csv.reader(f)
        headers = [re.sub(r'[^a-zA-Z]', '_', h) for h in next(f_csv)]
        Row = namedtuple('Row', headers)
        for r in f_csv:
            row = Row(*r)
            print (row)
  • 写入csv, 分别以列表和字典的形式写入
def write_1():
    headers = ['Symbol','Price','Date','Time','Change','Volume']
    rows = [
        ('AA', 39.48, '6/11/2007', '9:36am', -0.18, 181800),
        ('AIG', 71.38, '6/11/2007', '9:36am', -0.15, 195500),
        ('AXP', 62.58, '6/11/2007', '9:36am', -0.46, 935000),
    ]
    with open('stocks.csv', 'w') as f:
        f_csv = csv.writer(f)
        f_csv.writerow(headers)
        for row in rows:
            f_csv.writerow(row)

def write_2():
    headers = ['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume']
    rows = [
        {'Symbol':'AA', 'Price':39.48, 'Date':'6/11/2007','Time':'9:36am', 'Change':-0.18, 'Volume':181800},
        {'Symbol':'AIG', 'Price': 71.38, 'Date':'6/11/2007','Time':'9:36am', 'Change':-0.15, 'Volume': 195500},
        {'Symbol':'AXP', 'Price': 62.58, 'Date':'6/11/2007','Time':'9:36am', 'Change':-0.46, 'Volume': 935000},
    ]
    with open('stocks.csv', 'w') as f:
        f_csv = csv.DictWriter(f, headers)
        f_csv.writeheader()
        for row in rows:
            f_csv.writerow(row)

  • 改变编码的读取规则,例如以tab键分隔的csv
def main4():
    with open('stocks.csv') as f:
        #tab 分隔
        f_csv = csv.reader(f, delimiter='\t')
        for row in f_csv:
            print (row)

  • csv是不会对数据进行额外处理,需要自行处理
def convert_1():
    col_types = [str, float, str, str, float, int]
    with open('stocks.csv') as f:
        f_csv = csv.reader(f)
        headers = next(f_csv)
        for row in f_csv:
            row = tuple(convert(value) for convert, value in zip(col_types, row))
            print (row)

def convert_2():
    field_types = [
        ('Price', float),
        ('Change', float),
        ('Volume', int)
    ]
    with open('stocks.csv') as f:
        for row in csv.DictReader(f):
            #每行逐次扫描,转换数据更新到字典中
            row.update((key, conversion(row[key])) for key, conversion in field_types)
            print (row)

读写Josn数据

  • json 解码会解码出字典或者列表,在loads时传递object_pairs_hook或object_hook参数,可以解码成需要的对象
  • 分别将json字符串解码成OrderedDict和JSONObject对象
s= '{"name": "ACME", "shares": 50, "price": 490.1}'
>>> from collections import OrderedDict
>>> json.loads(s, object_pairs_hook=OrderedDict)
OrderedDict([('name', 'ACME'), ('shares', 50), ('price', 490.1)])
>>> class JSONObject:
...     def __init__(self, d):
...         self.__dict__ = d
>>> data = json.loads(s, object_hook=JSONObject)
>>> data.name
'ACME'
>>> 
  • 是编码json输出变得好看
>>> print (json.dumps({'a':1}, indent=4))
{
    "a": 1
}
  • 序列化类实例,通过函数将类实例转化为字典
import json
class Point:
    def __init__(self, x, y):
        self.x = x
        self.y = y

def serialize_instance(obj):
    d = {'__classname__':type(obj).__name__}
    d.update(vars(obj))
    return d

if __name__ == '__main__':
    p = Point(2, 3)
    s = json.dumps(p, default=serialize_instance)
    print (s)

解析简单的xml

  • parse()将整个xml文档解析为文档对象,就可以利用find查询特定的信息
>>> from urllib.request import urlopen
>>> from xml.etree.ElementTree import parse
>>> u = urlopen('http://planet.python.org/rss20.xml')
>>> doc = parse(u)
>>> doc
<xml.etree.ElementTree.ElementTree object at 0x10dcd42e8>
>>> e = doc.find('channel/title')
>>> e.tag
'title'
>>> e.text
'Planet Python'

将字典转化为xml

  • 如果需要保持dict元素的顺序,需要使用OrdereDict对象
from xml.etree.ElementTree import Element, tostring
def dict_to_xml(tag, d):
    #创建最外层的节点
    elem = Element(tag)
    for key, val in d.items():
        child = Element(key)
        child.text = str(val)
        #最外层节点上添加内容
        elem.append(child)

    return elem

if __name__ == '__main__':
    s = {'name':'GOOG', 'shares':100, 'price':490.1}
    e = dict_to_xml('stock', s)
    #给原始添加属性
    e.set('_id', '1234')
    print (tostring(e))
#输出
b'<stock _id="1234"><name>GOOG</name><shares>100</shares><price>490.1</price></stock>'
  • 使用字符串去构造xml
def dict_to_xml_str(tag, d):
    parts = ['<{}>'.format(tag)]
    for key, val in d.items():
        parts.append('<{0}>{1}<0>'.format(key, val))
    parts.append('</{}>'.format(tag))
    return ''.join(parts)

if __name__ == '__main__':
    s = {'name':'GOOG', 'shares':100, 'price':490.1}
    e = dict_to_xml_str('stock', s)
    print (e)
#输出
<stock><name>GOOG<0><shares>100<0><price>490.1<0></stock>

编码和解码十六进制数

  • 字节字符串和十六进制的编码或解码
  • base64中的16进制转换只能操作大写形式
>>> s = b'hello'
>>> import binascii
>>> h = binascii.b2a_hex(s)
>>> h
b'68656c6c6f'
>>> binascii.a2b_hex(h)
b'hello'
>>> import base64
>>> h = base64.b16encode(s)
>>> h
b'68656C6C6F'
>>> base64.b16decode(h)
b'hello'
#编码为Unicode
>>> h = h.decode('ascii')
>>> h
'68656C6C6F'

encode(编码) decode(解码) base64

>>> import base64
>>> s = b'hello'
>>> a = base64.b64encode(s)
>>> a
b'aGVsbG8='
>>> base64.b64decode(a)
b'hello'
#解码为unicode
>>> base64.b64decode(a).decode('ascii')
'hello'

读写二进制数组数据

  • 写入元组到二进制文本中
  • 使用struct编码写入
from struct import Struct
def write_records(records, format, f):
    record_struct = Struct(format)
    for r in records:
        f.write(record_struct.pack(*r))

if __name__ == '__main__':
    #write
    records = [
        (1, 2.3, 4.5),
        (6, 7.8, 9.0),
        (12, 13.4, 56.7),
    ]
    with open('data.b', 'wb') as f:
        #小端存储 int double double
        write_records(records, '<idd', f)
  • 以增量形式读取二进制数据
def read_records(format, f):
    record_struct = Struct(format)
    #没有形参的lambda,不断的生成size大小的迭代器,直到b''为止
    chunks = iter(lambda: f.read(record_struct.size), b'')
    #生成器可以迭代三次,每次20字节
    return (record_struct.unpack(chunk) for chunk in chunks)

if __name__ == '__main__':
    #read
    with open('data.b', 'rb') as f:
        for r in read_records('<idd', f):
            print (r)
  • 全量读取二进制文件
def unpack_records(format, data):
    '''
    设置好解包步长,一次解包返回迭代器
    '''
    record_struct = Struct(format)
    return (record_struct.unpack_from(data, offset) \
           for offset in range(0, len(data), record_struct.size))


if __name__ == '__main__':
    #read
    with open('data.b', 'rb') as f:
        data = f.read()
        for rec in unpack_records('<idd', data):
            print (rec)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353

推荐阅读更多精彩内容