python HDFS文件处理

python 存储hdf文件

1.出现问题

在使用hdf的时候，如果不指定格式，那么在存储数据中存在string类型的数据，会出现如下警告，这会导致导出的h5文件读不出来。

PerformanceWarning: 
your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block0_values] [items->['000005',

这是因为我们的数据，默认都是unicode编码格式，而这个hdf对unicode的支持并不好，因此，如果有字符串的列，我们需要去转换一次：

df["col1"] = df["col1"].str.decode("utf-8")

这么转好之后，就不会出现警告，但是当我们读取数据的时候数据就都变成了float64，还需要转换成int，在转换成string，也就是encode。

2.解决办法（table格式的存储）

我们再存入数据的时候，使用pd.HDFStore()，在put方法里指定一下存储格式format="table"，这种方式不需要做转换就可以。

hstore = pd.HDFStore("F:\\get_data\\sw_2020_1.h5",mode="w")
hstore.put("sw_20",sw_20,format="table",append=False)
hstore.close()

这样读取的时候就不会出现问题，
pd.read_hdf("F:\\get_data\\sw_2020_1.h5",key="sw_20")

3.pandas处理h5文件详解

pandas中的HDFStore()用于生成管理HDF5文件IO操作的对象，其主要参数如下：
「path」：字符型输入，用于指定h5文件的名称（不在当前工作目录时需要带上完整路径信息）
「mode」：用于指定IO操作的模式，与Python内建的open()中的参数一致，默认为'a'，即当指定文件已存在时不影响原有数据写入，指定文件不存在时则新建文件；'r'，只读模式；'w'，创建新文件（会覆盖同名旧文件）；'r+'，与'a'作用相似，但要求文件必须已经存在；
「complevel」：int型，用于控制h5文件的压缩水平，取值范围在0-9之间，越大则文件的压缩程度越大，占用的空间越小，但相对应的在读取文件时需要付出更多解压缩的时间成本，默认为0，代表不压缩

1. 写入数据的方式有两种
  第一种方式利用键值对将不同的数据存入store对象中：
  hstore['s'], hstore['df'] = s, df
  第二种方式利用store对象的put()方法，其主要参数如下：
key：指定h5文件中待写入数据的key
value：指定与key对应的待写入的数据
format：字符型输入，用于指定写出的模式，'fixed'对应的模式速度快，但是不支持追加也不支持检索；'table'对应的模式以表格的模式写出，速度稍慢，但是支持直接通过store对象进行追加和表格查询操作

使用put()方法将数据存入store对象中：

hstore.put(key='s', value=s,format="fixed");store.put(key='df', value=df,format="table")

既然是键值对的格式，那么可以查看store的items属性（注意这里store对象只有items和keys属性，没有values属性.

1. 数据的删除
  删除store对象中指定数据的方法有两种，一是使用remove()方法，传入要删除数据对应的键：
  hstore.remove('s')
  二是使用Python中的关键词del来删除指定数据：
  del store['s']
1. hstore.close()
1. h5文件的读取
  在pandas中读入HDF5文件的方式主要有两种，一是通过上一节中类似的方式创建与本地h5文件连接的IO对象，接着使用键索引或者store对象的get()方法传入要提取数据的key来读入指定数据：

hstore = pd.HDFStore('demo.h5')
'''方式1'''
df1 = store['df']
'''方式2'''
df2 = store.get('df')
df1 == df2

第二种读入h5格式文件中数据的方法是pandas中的read_hdf()，其主要参数如下：

path_or_buf：传入指定h5文件的名称
key：要提取数据的键
需要注意的是利用read_hdf()读取h5文件时对应文件不可以同时存在其他未关闭的IO对象，否则会报错。

最后，在处理非常大的数据时，h5的存储空间和读取速度都优于csv文件。

4 问题

如果出现如下问题，是因为，数据框中有string格式的数据，和int格式的数据，这种情况下，可以将这两种数据文件分来存储，设置不同的键-值。
ValueError: cannot set WRITEABLE flag to True of this array

最后编辑于：2020.10.30 15:19:11