Lesson 21 简单计算
通过对已有字段加减乘除,得出新的字段
当增加或修改某一列时,只能使用:
data['column_name'] = data.column1 * data.column2
Attention 不可使用:
data.column_name
Lesson 22 数据标准化
数据标准化是指数据按比例缩放,使之落入到特定区间
标准化的作用是消除量纲的影响,方便进行不同变量间的比较分析,用于综合评价分析,聚类分析,因子分析,主成分分析前,如果量纲不统一,需要将数据标准化。
十分制,百分制或处于0-1之间
//round(num, 2)用于保留两位小数
data['scale'] = round(
(
data.score-data.score.min()
)/(
data.score.max()-data.score.min()
)
, 2
)
Lesson 23 数组分组
根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,以揭示其内在联系和规律性
cut(series, bins, right, labels)
series: 需要分组的数据
bins: 分组的划分数组
right: 分组的时候,右边是否闭合, default: 左开右闭区间;right = false: 左闭右开区间
labels: 分组的自定义标签,可以不自定义
Lesson 24 时间处理
将字符型的时间格式数据转换成时间型的数据过程
datetime = pandas.to_datetime(datastring, format)
格式化成其他字符串:
dateTimeFormat = datetime.dt.strftime('%Y-%m-%d %H:%M:%S')
抽取datetime的属性:
datetime.dt.year
datetime.dt.month
datetime.dt.weekday
datetime.dt.day
datetime.dt.hour
datetime.dt.minute
datetime.dt.second
Lesson 25 时间抽取
时间抽取是指根据一定的条件,对时间格式的数据进行抽取
根据索引进行抽取
DataFrame.ix[start:end]
DataFrame.ix[dates]
//dates为数组
根据时间列进行抽取
DataFrame[condition]