1 第一章:数据加载:
任务一:导入python库
import numpy as np
import pandas as pd
import os
from matplotlib import pyplot as plt
*注:import numpy和from numpy import 的区别
两种方式都是引入numpy库中的所有函数、函数、对象、变量等,两者的区别在于调用其中内容时不同。
import numpy,则后续使用该库下的属性都需要在前面加上numpy
from numpy import *,则不需要加入。以调用numpy中的random模块为例,第一种方式要用numpy.random,第二种方式只用random即可,一般推荐使用第一种方式
任务三:逐块读取数据
每1000行为一个数据模块,逐块读取
df = pd.read_csv('train.csv',chunksize = 1000)
1
这时我们想要查看表格的前几行,可以看到使用chunksize赋值之后 df的数据类型变成textfilereader之后head方法不再适用,需要用到命令df.get_chunk()
————————————————
df.shape ——行数 列数
df.dtypes——列数据类型
df.ndim ——数据维度
df.index——行索引
df.columns——列索引
df.values——对象值,二维ndarray数组
df.info() #查看数据类型结构
df.describe()
df.head(10)——显示前10行,默认是5行
df.tail()——显示末尾几行,默认是5
df.info()——相关系数,如行数,列数,列索引、列非空值个数,列类型,内存占用
df.describe()——快速统计结果,计数、均值、标准差、最大值、四分数、最小值
df.isnull()——判断数据是否为空,为空的地方返回True,其余地方返回False
# 注意:不同的操作系统保存下来可能会有乱码,大家可以加入`encoding='GBK' 或者 ’encoding = ’utf-8`
encoding = 'utf-8'
df.to_csv('train_chinese.csv')
Series是带标签的一维数组,可存储整数、浮点数、字符串、python对象登类型的数据,轴标签统称为索引。调用pd.Series即可创建Series s=pd.Series(data, index=index)
Dataframe是由多种类型的列构成的二维标签数据结构,类似于excel、SQL表、或series对象构成的字典
原文链接:https://blog.csdn.net/weixin_45409985/article/details/119761173