Python 被视为数据科学标准语言的最主要原因之一在于其强大的包。NumPy、Pandas 和 Matplotlib 是数据分析的三个核心包。
pandas的csv操作,csv的意思是指以逗号分隔的文件
读取csv文件使用pd.read_csv(),默认的分隔符是英文逗号, 也可以指定分隔符,设置参数sep=,如可以使用pd.read_csv(file_name, sep=':')告诉pandas将:作为分隔符去读取文件。可以设置header参数来制定从哪行开始读取,之前的行将被舍去。pandas会将读到的第一行作为表头,会自动添加行所在位置0,1,2...作为索引,可以使用names=[....]来指定表头中每列的名称,会将原有的表头替换掉,即若设置了header=1将第二行作为表头又设置了names=[....],则表头为names设置的内容,而正文内容从第三行开始。参数index_col=列名可以指定某一列作为索引,可以是一个list,将多个列作为索引,若不设定则自动添加序号作为索引。
df.to_csv(file_name)可以将dataframe的数据写入到csv文件中,默认增加索引,可以设置参数index=Fasle,在保存时不加入索引列