朴素贝叶斯·浅辄

我们都知道有一类他们的人生轨迹是这样的:

      生物学  ||  生物信息学   ||   机器学习   ||   人工智能

看看
知道自己在什么位置了吧?
向贝叶斯靠近的第一步就是去了解他,然后就是安装R(当然Python也完全可以胜任)。
本文R代码已经亲测有效了。

来来来,坐坐坐,听王先生讲讲贝叶斯。

分类

主要内容:

  • 了解分类
  • 朴素贝叶斯分类(Naïve Bayes classifier)
  • ROC曲线
  • 随机森林分类R实现(Random Forest)

1 分类综述

分类是逻辑的基础

资料来源

  • 分类,是指按照种类、等级或性质分别归类。
根据特征判断类别
  • 帅气?性格?上进心?身高?-----嫁(YES/NO)

  • 体温?脸色?喉咙?咳嗽?--------感冒类型

  • 数学表达


    分类表达
  • 贝叶斯分类:以贝叶斯定理为基础
公式
贝叶斯公式

2 朴素贝叶斯

朴素 : 各特征变量之间相互独立; 贝叶斯 : 分类思想依据贝叶斯公式

3 分类流程

分类器步骤.png
朴素贝叶斯.png
  • Laplace校准

    由于数据的稀疏性, 当某个类别下某个特征项划分没有出现时,就是产生这种现象,这会令分类器质量大大降低。为了解决这个问题,我们引入Laplace校准,它的思想非常简单,就是对没类别下所有划分的计数加1,这样如果训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述频率为0的尴尬局面。

资料来源

.libPaths("E:/Rstudio/R_packages")
library(mlbench)
data(PimaIndiansDiabetes2)
#类变量必须是因子型变量

#数据探索和缺失值探索
data <- PimaIndiansDiabetes2
str(data)
sum(complete.cases(data))
table(data$diabetes)
prop.table(table(data$diabetes))

#数据准备
library(e1071)
ind <- sample(2,nrow(PimaIndiansDiabetes2),replace=TRUE,prob=c(0.7,0.3))
train <- data[ind == 1, ]
test <- data[ind == 2, ]

#分类器构建和应用
classifier <- naiveBayes(diabetes~., data = train, laplace=0.1)
#mean(train[train$diabetes=="neg", ]$age)
#sd(train[train$diabetes=="neg", ]$age)
pred1 <- predict(classifier, test)
pred2 <- predict(classifier, test, type = "raw")

#查看错误率
a <- table(test$diabetes, pred1)
(sum(a) - sum(diag(a)))/sum(a)
#b <- paste0(round((sum(a) - sum(diag(a)))*100/sum(a), 2), "%")

#模型评估1
library(gmodels)
CrossTable(test$diabetes, pred1, prop.r = F, prop.c=F, prop.t=T, prop.chisq = F)

#ROC曲线评估2
library(ROCR)
pred <- prediction(predictions = pred2[,2], labels = test$diabetes)
perf <- performance(pred, measure = "tpr", x.measure = "fpr")
plot(perf,main="ROC curve", col = "blue", lwd = 3)

#ROC曲线评估3
library(pROC)
pre <- predict(classifier, test, type = "raw")
modelroc <- roc(test$diabetes, pre[,1])
plot(modelroc, print.auc = T, auc.polygon=T, grid=c(0.1,0.1),
     grid.col=c("red", "red"), max.auc.polygon=T,
     auc.polygon.col="skyblue", print.thres=T)

4 ROC

ROC曲线(receiver operating characteristic)是一种对于灵敏度进行描述的功能图像。ROC曲线可以通过描述真阳性率(TPR)和假阳性率(FPR)来实现。由于是通过比较两个操作特征(TPR和FPR)作为标准,ROC曲线也叫做相关操作特征曲线。

roc.png

针对预测值和真实值之间的关系,我们可以将样本分为四个部分,分别是:

​ 真正例(True Positive,TP):预测值和真实值都为1

​ 假正例(False Positive,FP):预测值为1,真实值为0

​ 真负例(True Negative,TN):预测值与真实值都为0

​ 假负例(False Negative,FN):预测值为0,真实值为1


ROC_metrix.png

就着这个图大家在重温一下,曹先生的:假作真时真亦假,无为有处有还无

下面引入两个衡量分类的指标:

真阳性率(TPR): TPR = TP / P = TP / (TP+FN) ---------------灵敏度(sensitivity)

假阳性率(FPR): FPR = FP / N = FP / (FP + TN) -----------1-特异度(1-specificity)

ROC1.png

不难看出,灵敏度与特异度是一张一弛,相互牵扯的。
准确度(ACC) :ACC = (TP + TN) / (P + N)
即:(猜对为阳性+猜对为阴性) / 总样本数

特征 (SPC) 或者真阴性率 :SPC = TN / N = TN / (FP + TN) = 1 - FPR

阳性预测值(PPV) :PPV = TP / (TP + FP)

阴性预测值(NPV) :NPV = TN / (TN + FN)

假发现率 (FDR) :FDR = FP / (FP + TP)


ROC_AUC
  • 分类器-分馏器 类别因子-化学物质 特征变量-化学性质

5 应用

  • 文本过滤:垃圾短信分类、新闻内容分类、广告分类
  • 发酵异常;肠道健康;土壤类型;油田探测

6 随机森林分类

资料来源

.libPaths("E:/Rstudio/R_packages")
library(randomForest)
#数据清理:去除NA的观测样本
data1 <- data[complete.cases(data),]
str(data1)
#数据准备
ind1 <- sample(2,nrow(data1),replace=TRUE,prob=c(0.7,0.3))
train1 <- data1[ind1 == 1, ]
test1 <- data1[ind1 == 2, ]
#分类器构建和应用
rf <- randomForest(diabetes ~ ., data=train1, importance=TRUE,proximity=TRUE)
importance(rf) #变量重要性
varImpPlot(rf)
MDSplot(rf, fac=train1$diabetes, k=2)

rfpre <-  predict(rf, test1, type = "prob")
#分类器评价(ROC曲线)
rfroc <- roc(test1$diabetes, rfpre[,2])
plot(rfroc, print.auc = T, auc.polygon=T, grid=c(0.1,0.1),
     grid.col=c("red", "red"), max.auc.polygon=T,
     auc.polygon.col="skyblue", print.thres=F)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容