2022-01-11数据整理

描述:shape  head() tail() describe() 

替换:dataframe['Sex'].replace(["female","male"], ["Woman","Man"])   #regex=True) #正则表达

重命名:dataframe.rename(columns={'PClass': 'Passenger Class', 'Sex': 'Gender'})

import collections

column_names = collections.defaultdict(str)

for name in dataframe.columns:

    column_names[name]

column_names #生成一个键是旧列名的空字典,方便改名

唯一值: dataframe['Sex'].unique() #查找该列的唯一值

                dataframe['Sex'].value_counts() #对值计数

                dataframe['PClass'].nunique()  # 查看唯一值的个数

缺失值:dataframe[dataframe['Age'].isnull()]   #np.nan

删除:dataframe.drop(['Age', 'Sex'], axis=1) 

去重:dataframe.drop_duplicates(subset=['Sex']) 

分组:dataframe.groupby(['Sex','Survived'])['Age'].mean() 

按时间分组:

time_index = pd.date_range('06/06/2017', periods=100000, freq='30S')

dataframe = pd.DataFrame(index=time_index)

dataframe['Sale_Amount'] = np.random.randint(1, 10, 100000)

dataframe.resample('W').sum() #按周求和,resample 要求索引的类型必须是类 datetime 的值

#resample 会返回时间组的右边界的值(最后一个标签),作为这个组的标签。可以通过使用 label 参数改变这个行为

apply函数:

def uppercase(x):

    return x.upper()

dataframe['Name'].apply(uppercase)

连接:

pd.concat([dataframe_a, dataframe_b], axis=0) #连接数据

dataframe_a.append(row, ignore_index=True)

合并:

pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer') #合并两个数据

#left_on='employee_id',right_on='employee_id'

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容