简介: 本文主要介绍如何利用pandas读入表单数据。
读入数据
- pandas.read_csv()
从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为''," - pandas.read_table()
从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为"\t"
参数:
- 分隔符参数:sep=
read_csv和read_table的区别在于separator分隔符。csv是逗号分隔值(Comma-Separated Values),仅能正确读入以 "," 分割的数据。
pd.read_table("ex1.csv", sep=",")
- 是否读取文本数据的header:header=
headers = None表示使用默认分配的列名,一般用在读取没有header的数据文件。
pd.read_table("ex1.csv", header=None)
- 为文本的数据加上列名: names=
names = user_cols ,自定义列名为user_cols。
pd.read_table("ex1.csv", names = user_cols)
- 明确索引值: index_col=
index_col = user_col,明确表示要将user_col放入索引位置。
pd.read_table("ex1.csv", names = names, index_col = user_col)
也可以将多个列都放入索引位置,做成层次化索引。
pd.read_table("ex1.csv", names = names, index_col = ["col1", "col2"])
- 跳过指定行: skiprows=
skiprows = row_list_to_skipped,可以用与跳过非有效数据如注释等情形下。
pd.read_table("ex1.csv", skiprows = [row1, row2,..., rown])
- 缺失值处理:na_values=
na_values= ["null"],用null字符替换缺失值。
pd.read_table("ex1.csv", na_values= ["null"])
- 尝试将数据解析为日期:parse_dates=
parse_dates = True,尝试解析所有可能为日期类型的列。
pd.read_table("ex1.csv", parse_dates = True)
parse_dates = [1, 2],尝试解析给定列为日期类型的列。
pd.read_table("ex1.csv", parse_dates = [1, 2])
- 指定需要读取的行数:nrows=
nrows = 100, 指定读取前100行数据。
pd.read_table("ex1.csv", nrows = 100)
写出数据
- pandas.read_csv()
从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为''," - pandas.read_table()
从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为"\t"
参数和读入数据类似。
附上函数原型:
附上小哥哥的视频链接Data analysis in Python with pandas
所有文章列表