【机器学习实战】朴素贝叶斯进行文本分类

贝叶斯定理

贝叶斯定理.png

     解决的问题:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。

朴素贝叶斯分类

     对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。在进行具体分类时,

三个阶段

  1. 收集训练样本,并确定用于描述数据属于某一类的特征属性。
  2. 计算每个类别在训练样本中的出现频率及每个特征属性划分到每个类别的条件概率估计,并将结果记录。
  3. 使用分类器对待分项进行分类。

应用——文档分类

判断是否是侮辱性言论。类别:侮辱、非侮辱。

词表到向量的转换
     首先从样本中创建词汇表,这是一个集合,在集合里面所有的词汇只出现一次。然后将每一条言论表示为词汇表上的向量——若某词汇出现,则词汇向量上这个词的值变为1(默认0,代表未出现)。

def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not
    return postingList,classVec
def createVocabList(dataSet):
    vocabSet = set([])  #create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document) #union of the two sets
    return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else: print "the word: %s is not in my Vocabulary!" % word
    return returnVec

训练算法,从词向量计算概率
     对应于上述贝叶斯定理公式,A代表特征向量,B代表类别。计算p(B)的方法很简单,只要用侮辱性/非侮辱性言论的数量除以总数量即可。计算p(A/B)(A是一个向量,含有很多个特征值),假设特征或者是单词之间相互独立,那么p(A/B)可以简化成通过p(A1/B)*p(A2/B)……p(An/B)来计算。若B是侮辱性类别,则p(Ai/B)代表侮辱性言论中某个词的出现频率。需要注意的是:(1) 连乘中一个概率为零,那么最后乘积也为零,为避免这种影响,将所有词出现数初始值设为1,分母初始设为2.(2)太小的数相乘,可能会导致程序下溢出或得不到正确的答案,因此,可以采用自然对数处理。

def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = ones(numWords); p1Num = ones(numWords)      #change to ones() 
    p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num/p1Denom)          #change to log()
    p0Vect = log(p0Num/p0Denom)          #change to log()
    return p0Vect,p1Vect,pAbusive

分类函数

     输入参数:要分类的向量、trainNB0计算出的两个条件概率以及样本侮辱性言论概率。

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)    #element-wise mult
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else: 
        return 0

     将一个词在文档中出现与否作为特征称之为词集模型,如果以一个词在文档中出现的次数作为特征则称之为词袋模型。上例用的是词集模型,将之改为词袋模型可能更符合实际。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容