NLP文本分类领域概述(中文)

核心问题

给定n个文本m个类别,将每个文本与类别建立对应关系。比如垃圾邮件分类问题,最简单的是二分类,将文本分为是否是垃圾邮件两个类别;再比如,文章情感分类。

分词

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词方法可分为三大类:基于字符串匹配的分词方法基于理解的分词方法基于统计的分词方法

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容