机器学习开发流程

获取数据
数据处理
缺省值

# 首先替换 np.nan
data = data.replace(to_replace="?",value=np.nan)
# 删除缺失值样本
data.dropna(inplace=True)
data.isnull().any()# 不存在缺失值

异常值
目的特征值x 目标值y
3.划分数据集

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y)

特征工程

特征抽取 feature_extraction
字典特征提取文本特征提取
特征预处理
标准化归一化

# 标准化
from sklearn.preprocessing import StandardScaler
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)

特征降维
PCA

XX算法预估流程

from sklearn.linear_model import LogisticRegression
estimator = LogisticRegression()
estimator.fit(x_train,y_train)
# 逻辑回归的模型参数 回归系数和偏置
estimator.coef_
estimator.intercept_

模型选择与调参
模型评估

# 模型评估
# 直接比对真实值和预测值
y_predict = estimator.predict(x_test)
print("y_predict:\n", y_predict)
print("直接比对真实值和预测值:\n", y_test == y_predict)
# 计算准确率
score = estimator.score(x_test, y_test)
print("准确率为：\n", score)

准确率精确率召回率
ROC曲线 AUC指标

最后编辑于：2019.12.22 09:16:28

机器学习开发流程

推荐阅读更多精彩内容