核心问题
给定n个文本m个类别,将每个文本与类别建立对应关系。比如垃圾邮件分类问题,最简单的是二分类,将文本分为是否是垃圾邮件两个类别;再比如,文章情感分类。
分词
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
给定n个文本m个类别,将每个文本与类别建立对应关系。比如垃圾邮件分类问题,最简单的是二分类,将文本分为是否是垃圾邮件两个类别;再比如,文章情感分类。
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。