Apply:
利用df.apply(func)的方法可以将函数func应用于DataFrame。
频率统计:
df.value_counts() 可以统计df中各元素出现的频率
字符串操作:
DataFrame 包含了一系列对于字符串的操作:
str方法还可以对索引进行操作:
使用split方法可以将元素进行分割,返回的是装有一组list的Series:
可以使用get或[]对分割后list中的元素进行访问:
split方法中的expand参数,可以选择是否将结果输出为dataframe:
元素的拼接:
将一个Series拼接成字符串:
正常情况下,NaN在拼接时被忽略,你也可以选择使用na_rep变量来指定替代NaN的字符:
cat()可以接受一个类似list作为第一个参数。在这种情况下,Series的各元素将依次与参数中包含的各元素进行拼接。NaN与其他元素拼接仍为NaN:
join参数,两个Series的拼接可以输入join参数,其原理与SQL的join原理相似。join的可选值为: 'left', 'outer', 'inner', 'right'。(注:join需要0.23.0以上的版本)
contains(等价于match)函数可以检查Series中的元素是否含有相应格式的部分:
合并:
concat:
利用concat方法可以将不同的dataframe对象拼接。
merge方法可以将dataframe进行SQL风格的合并:
groupby方法可将元素进行分组,需要对分组对象应用相应的方法生成合适的数据结构:
时间序列:
如果DataFrame的数据是一定频率的数据,resample函数可以用来改变频率: