19、Pandas 数据分析入门

1、计算常用的统计值

1、查看字段数据说明

movie.columns

2、查看数据行列数

movie.shape

3、统计数值列,并进行转置

movie.describe().T

4、统计对象和类型列

movie.describe(include='all') # 描述包含所有列
movie.describe(include=object) # 描述包含对象列

5、Info 方法
通过info 方法了解不同字段的条目数量,数据类型,是否缺失及内存占用情况

movie.info()

2、常用排序方法

1、用nlargest方法,选出imdb_score分数最高的100个

import pandas as pd
movie = pd.read_csv('movie.csv')
movie2 = movie[['movie_title', 'imdb_score', 'budget']]
movie2.head()
movie2.nlargest(100, 'imdb_score')

2、使用nsmallest方法再从中挑出预算最小的五部

movie2.nlargest(100, 'imdb_score').nsmallest(5, 'budget')

3、sort_values 按照年排序,ascending 升序排列

movie2 = movie[['movie_title', 'title_year', 'imdb_score']]
movie2.sort_values('title_year', ascending=False).head()

4、同时对'title_year','imdb_score' 两列进行排序

movie3 = movie2.sort_values(['title_year', 'imdb_score'], ascending=False)
movie3.head()
# 多列排序
movie3 = movie2.sort_values(['title_year', 'imdb_score'], ascending=[False, True])

5、用drop_duplicates去重,只保留每年的第一条数据

# subset:指定重复字段
# keep first/last 去重的时候,保留第一条/最后一条
movie_top_year = movie3.drop_duplicates(subset='title_year', keep='first')
movie_top_year.head()
# 去重多列数据源
movie_top_year = movie3.drop_duplicates(subset=['title_year', 'content_rating'])
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容