浅读机器学习有感(三)

十一、朴素贝叶斯分类算法:

11.1原理公式:



11.2使用示例:

11.3拉普拉斯平滑系数:

       作用:为了解决数据集中出现0的情况

       使用:

11.4sklearn中朴素贝叶斯算法API:

11.5案例分析:

       需求:对20个新闻组数据集包含20个主题的18000个新闻组帖子进行分类

       实现:


         朴素贝叶斯算法总结:


十二、精确率与召回率

          混淆矩阵:

        精确率:预测结果为正例样本中真实为正例的比例(查得准)


         召回率:真实为正例的样本中预测结果为正例的比例(查的全,对正样本的区分能力)

         分类模型评估API:

十三、模型的选择与调优:

          1.交叉验证

                   流程:将拿到的数据,分为训练和验证集。以下图为例:将数据分成5份,

                             其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。

                             即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。

          2.网格搜索

                    流程:通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值),

                              这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。

                              每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。


                    API:

+

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容