pandas速度没有numpy快!!!
read_csv等一些读取数据的操作,设定dtype有助于减少内存开销,dtype为字典,大量重复的字符串用category,数值可以减少存储位数,如使用int8、float32。
read_csv中参数parse_dates可以将制定某些列组合生成时间类型。
value_counts()方法是对内容进行计数并按倒序排列,返回值方法[]获取计数,方法keys()获取内容。
groupby() + agg() 进行分组操作。
对DataFrame类数据方法[]中使用&、|进行逻辑连接。[]按列名选择数据。info()方法获取信息,memory_usage='deep'参数列出具体内存占用。