《人工智能基础》17/91天阅读

对于文本的理解与分析，不同于图像处理和音频处理。由于每天产生的文本数据量过于庞大，因此人工标注的代价过于高昂，需要使用无监督学习算法。

潜在语义分析就是针对文本数据多主题的特点而设计的。这种技术可以通过无监督的方式从文本中分析出多个潜在的主题，完成聚类算法不能完成的任务。

词袋模型：

是用于描述文本的一个简单的数学模型，也是常用的一种文本特征提取方式。其基本思想是忽略难以建模的词句结构、保留体现主题的词语计数。

中文分词：

首先需要将句子中的词语分开。才能根据词语构建词袋。大多基于匹配与统计学的方法。

停止词：

不携带任何主题信息的高频词称为停止词。

词频率、文档频率、逆文档率。

词频率-逆文档率是对词频率的一种修正，作为文档的特征。

主题模型：

是描述语料库及其中潜在主题的一类数学模型。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。