贝叶斯网络是有向无环图
朴素贝叶斯的优点与缺点:
优点:
- 容易快速建模,在多分类问题中表现优良;
- 当特征独立时,朴素贝叶斯分类效果好于逻辑回归等其他分类器,且需要的数据量更少;
- 相对连续性的数据,它在离散性的数据表现更好;当数据是连续时,数据的假设前提是正态分布;
缺点: - 如果离散型的数据在测试集中未出现,模型会无法给出预测(0频率)。需要使用平滑方法解决,常用的方法为拉普拉斯平滑;
- 另一方面朴素贝叶斯的预测概率并未能真实反映真正的概率,并不能太当真;
- 另一个限制是朴素贝叶斯是假设特征独立的。在显示生活中,这几乎是不可能的;
以下是提高朴素贝叶斯模型的方法:
- 如果连续型的数据特征不是正态分布,需要先把其转换为正态分布;
- 如果数据出现0概率的,使用拉普拉斯平滑修正;
- 去除相关性的特征,特别是高度相关的特征,因为这些会导致模型过于强调该类特征的重要性;
- 朴素贝叶斯分类只有很少的超参数。
alpha=1
用于平滑,fit_prior=[True|False]
是否使用先验概率。priors
先验概率值。应把重点放在数据清洗和特征选择; - ensembling, bagging和boosting等减少方差的提升方法对朴素贝叶斯没有作用。因为朴素贝叶斯没有方差可以减少;
原文:https://www.analyticsvidhya.com/blog/2017/09/naive-bayes-explained/