Pandas库将外部数据转换为 DataFrame数据格式,处理完成后再存储到相应的外部文件中。
1. 数据的载入
读写文本文件
文本文件读取:典型的顺序文件。CSV文件是一种逗号分隔的文件格式,分隔符不一定是逗号,所以又称为字符分隔文件,文件以纯文本形式存储表格数据。
使用read_csv( )函数来读取CSV文件
pandas.read_cvs(filepath_or_buffer, sep=',', header='infer',names=None, index_col=None, dtype=None,engine=None, nrows=None)
参数说明:
filepath:文件以及路径
sep: 分隔符,read_csv默认 ",' read_table默认“[Tab]"
header: 默认 infer,接收int或Sequence表示名行数据作为列名
names: 接收array,表示列名,默认None
index_col: 接收int,sequence,False表示索引列的位置,sequence代表多重索引,默认None
dtype: 接收dict,代表写入的数据类型,默认None
engine: 接收c或者python,表示数据解析引擎,默认c
nrows:接收int,表示读取前n行,默认None
测试实例:
df1 = pd.read_table('loan.csv', sep=',', encoding='gbk')
print(df1.head(5))
输出:
用户ID 好坏客户 年龄 负债率 月收入 家属数量
0 1 1 45 0.802982 9120.0 2.0
1 2 0 40 0.121876 2600.0 1.0
2 3 0 38 0.085113 3042.0 0.0
3 4 0 30 0.036050 3300.0 0.0
4 5 0 49 0.024926 63588.0 0.0