1、计算常用的统计值
1、查看字段数据说明
movie.columns
2、查看数据行列数
movie.shape
3、统计数值列,并进行转置
movie.describe().T
4、统计对象和类型列
movie.describe(include='all') # 描述包含所有列
movie.describe(include=object) # 描述包含对象列
5、Info 方法
通过info 方法了解不同字段的条目数量,数据类型,是否缺失及内存占用情况
movie.info()
2、常用排序方法
1、用nlargest方法,选出imdb_score分数最高的100个
import pandas as pd
movie = pd.read_csv('movie.csv')
movie2 = movie[['movie_title', 'imdb_score', 'budget']]
movie2.head()
movie2.nlargest(100, 'imdb_score')
2、使用nsmallest方法再从中挑出预算最小的五部
movie2.nlargest(100, 'imdb_score').nsmallest(5, 'budget')
3、sort_values 按照年排序,ascending 升序排列
movie2 = movie[['movie_title', 'title_year', 'imdb_score']]
movie2.sort_values('title_year', ascending=False).head()
4、同时对'title_year','imdb_score' 两列进行排序
movie3 = movie2.sort_values(['title_year', 'imdb_score'], ascending=False)
movie3.head()
# 多列排序
movie3 = movie2.sort_values(['title_year', 'imdb_score'], ascending=[False, True])
5、用drop_duplicates去重,只保留每年的第一条数据
# subset:指定重复字段
# keep first/last 去重的时候,保留第一条/最后一条
movie_top_year = movie3.drop_duplicates(subset='title_year', keep='first')
movie_top_year.head()
# 去重多列数据源
movie_top_year = movie3.drop_duplicates(subset=['title_year', 'content_rating'])