机器学习pycaret常用的命令详解.1

数据集的定义和意义

image.png

测试集是独立的,模型训练完成之后,最终的期末考试,所以数据是保密的。
训练集和验证集是主要的模型训练中使用的数据集。一般(训练集+验证集):测试集=8:2或9:1.
训练集:验证集=8:2或9:1,具体比例,可以根据数据的多少灵活调整,以获得最佳模型用于预测。

pycaret分析用到的函数的基本流程图

常用的函数功能说明:此处是以回归模型为例

1. setup() 初始化一个数据,
from pycaret.regression import *
s = setup(data,target =phe,train_size=0.95,session_id=115) 

data是一个数据框,行是样本,列是性状,target指定要预测的性状的列名。train_size指定训练的数据集占比。

2. create_model()创建一个模型,

例如rf=create_model("rf"),创建一个随即森林模型。
lightgbm=create_model("lightgbm") 创建一个lightgbm模型

3. compare_models()比较模型

用法1:自动选取所有模型中最优的模型

best=compare_models()

此时会使用所有可用的模型计算比较,最终最优模型存储在best中。
用法2:自己指定一个模型列表,从中选取最优的

model_list = ['lightgbm','et','rf','gbr','xgboost','ada','dt']#,'catboost']
best = compare_models(include=model_list)

用法3:从所有模型中挑选R2排名前3的模型,存在为一个最优模型的列表top3.

top3 = compare_models(n_select=3)
4. ensemble_model()模型集成函数

参数:
method:Bagging或Boosting 集成模型的方法. 两者的详解参考https://zhuanlan.zhihu.com/p/37730184
Bagging是有放回的抽样,最后汇总结果。
Boosting是固定的训练集,每轮不断提升权重。

ensemble_model(estimator_list=top3,method="Bagging")
5. tune_model()通过调整超参数优化模型
run_model_tune=tune_model(best,n_iter=30)
6. blend_model()混合模型集成函数

混合模型,通过提供一个训练后的模型list,然后使用这个list的每个模型进行预测,然后投票给出最优的结果。

##创建top3列表,包含3个模型
top3=[
    create_model("lr"),
    create_model("rf"),
    create_model("xgboost")
]
blender=blend_models(estimator_list=top3,fold=5)
blender
7. stack_model()堆叠模型集成函数,输入一个训练后最优模型的列表,然后返回一个堆叠后的模型。
stacker=stack_models(top3,fold=5)
8. plot_model()

对模型进行可视化,参数比较多

#显示最佳模型的结果
plot_model(best)
# 显示特征重要性
plot_model(best,plot="feature")
9. evaluate_model()

这个是使用一个用户按钮界面显示给定的可用图形,底层是plot_model.我用的时候,会有各种报错,所以一般不用,也不影响结果。

10. interpret_model()

使用shap对模型的特征进行解释,有些模型不支持该函数。

interpret_model(modelname,save=True)

save参数是设置保存图片到本地,是png格式。
绘制出的shap的图如下:排在最前面的是贡献最高的feature.


image.png

只对部分模型有用。
有用的模型是rf, catboost, et, xgboost, lightgbm, dt.

    1. predict_model() 使用模型预测新的数据。
      示例是使用data_unseen这个测试集,来检验best模型的最终的效果
      pred_unseen = predict_model(best,data=data_unseen)
    1. finalize_model()
      这个是最终化模型的函数,在前面训练模型之后,对模型进行调参优化,然后使用测试集检验模型之后,最终使用该函数对模型进行最终化,此时会使用所有数据,对模型进行最终的优化。
#这里是对前面的最优模型进行最终化,final_model就可以输出作为我们训练完成的模型,去预测新的数据了。
final_model = finalize_model(best)
    1. deep_check()检查训练好的模型的完整性和一致性,验证模型的可靠性和稳定性。
deep_check(best)
    1. deploy_model() 在云上部署转换管道和训练模型
      支持亚马逊AWS、谷歌GCP、微软Azure. 该函数我们一般不用。
    1. automl()该函数可以返回当前会话中所有训练的模型中的最优模型。
#这样就获得了最佳的模型了
all_best = automl()

可用参数:
best_mae_model = automl(optimize = 'MAE')
通过optimize参数,可以指定选择最优模型的指标,回归模型默认是根据R2

    1. pull()
      这个函数可以返回终端输出的表,
      这3行代码就是把比较最优模型的比较结果的表输出到本地,文件名是compare_results.txt
best=compare_models()
model_compare = pull()
model_compare.to_csv("compare_results.txt",sep="\t", index=False)
    1. models()
      数据初始化之后,使用该函数可以给出当前数据所有可用的模型名称列表。
      用法就是all_models=models()
    1. get_metrics()
      数据初始化之后,使用该函数给出实验中使用的评级模型性能的指标表格
      image.png
    1. add_metric()
      向实验中添加自定义的评价指标
from pycaret.datasets import get_data
boston = get_data('boston')
from pycaret.regression import *
exp_name = setup(data = boston,  target = 'medv')
from sklearn.metrics import explained_variance_score
add_metric('evs', 'EVS', explained_variance_score,Greater_is_better=True)

上面的最后两行就是增加一个指标evs,Greater_is_better参数是逻辑值,True表示该指标值越大,模型越好。
这里增加的指标是从sklearn里引来的。

    1. remove_metric()删除评价指标
      删除我们前面添加的指标
remove_metric('evs')
    1. get_logs()获取当前实验的日志表,必须在setup初始化中设置log_experiment为True才有用。
from pycaret.datasets import get_data
boston = get_data('boston')
from pycaret.regression import *
exp_name = setup(data = boston,  target = 'medv', log_experiment = True)
best=compare_models()
exp_logs = get_logs()
    1. get_config() 获取全局环境变量的值,如果括号内不包含变量名,则返回所有可用的全局变量名。例如:get_config("n_jobs_param")就可以获取到设置的cpu数量,如果是-1,则表示使用所有cpu
    1. set_config() 设置某个全局环境变量,例如:
      set_config("n_jobs_param",48) 设置当前实验使用48个cpu
      set_config("seed",135) 设置种子随机数为135
    1. save_experiment保存实验
      save_experiment("实验名称")保存实验的时候,不会一并保存数据集,数据集需要单独保存。
    1. load_experiment加载实验
      load_experiment("实验名称",data=data_train)
      注意加载实验时,需要指定数据集,需要初始化之后的数据集。
    1. get_leaderboard()获取当前设置中训练的所有模型的排行榜,
      这个函数和前面的automl()都是针对的当前所有训练过的模型,只是此处是可以返回所有的模型的排行榜。
    1. set_current_experiment
      用于设置当前实验,如果不存在,则创建该实验。
    1. get_current_experiment
      获取当前实验对象
    1. dashboard交互式仪表盘
      dashboard(best,display_format='inline') 使用仪表盘来可视化最佳模型,
      display_format参数
      默认是dash,会新开一个端口,运行在线服务,查看模型
      inline 在jupyter notebook的cell中展示
      jupyterlab 在jupyterlab pane展示
      external in colab
      更专业的交互功能可以去explainerdashboard官方文档查看。底层是借用的explainerdashboard
    1. convert_model()
      把训练得到的模型转为其他语言的模型,以方便在其他语言中使用训练好的模型。
      convert_model(best,'java')
      第一个参数是训练好的模型,
      第2个参数是要转换的语言名称,支持的语言列表如下:
      ‘python’
      ‘java’
      ‘javascript’
      ‘c’
      ‘c#’
      ‘f#’
      ‘go’
      ‘haskell’
      ‘php’
      ‘powershell’
      ‘r’
      ‘ruby’
      ‘vb’
      ‘dart’
    1. eda()
      使用 AutoVIZ 库生成 AutoEDA。 运行失败
    1. check_fairness()
      用于检测评估模型对不同特征组是否公平. 运行失败
    1. create_api()
create_api(best,"lightGBM_api",host="127.0.0.1",port=8080)
!python lightGBM_api.py
create_docker('lightGBM_api')

该函数会创建lightGBM_api.pkl文件和lightGBM_api.py.
上面运行之后,会在本地创建一个网页,访问:http://127.0.0.1:8080
create_docker 为前面的api,创建一个docker file.
create_app
用法也是

create_app(best) 

这样就在本地部署完成一个web页面,和上面一样访问端口即可使用模型了。

    1. get_allowed_engines()
      返回现在支持的机器学习引擎列表
    1. get_engine()
      输出当前模型所使用的机器学习引擎(框架)
engine=get_engine(best)
print(engine)

返回值可能是scikit-learn、xgboost、LightGBM

    1. check_drift()
check_drift(best,data)

参数1是模型名称,参数2是数据集。
该函数的功能是检测数据集的数据是否发生了数据漂移。数据漂移简单解释:训练模型时的数据的特征结构和后来使用模型时的数据特征结构不一致。简单说就是数据集的特征和训练时的特征分布不一样了,这时就需要重新训练模型。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 228,030评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,310评论 3 415
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 175,951评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,796评论 1 309
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,566评论 6 407
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 55,055评论 1 322
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,142评论 3 440
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,303评论 0 288
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,799评论 1 333
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,683评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,899评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,409评论 5 358
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,135评论 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,520评论 0 26
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,757评论 1 282
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,528评论 3 390
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,844评论 2 372

推荐阅读更多精彩内容