《人工智能基础》17/91天阅读

对于文本的理解与分析,不同于图像处理和音频处理。由于每天产生的文本数据量过于庞大,因此人工标注的代价过于高昂,需要使用无监督学习算法 。

潜在语义分析就是针对文本数据多主题的特点而设计的。这种技术可以通过无监督的方式从文本中分析出多个潜在的主题,完成聚类算法不能完成的任务。

词袋模型:

是用于描述文本的一个简单的数学模型,也是常用的一种文本特征提取方式。其基本思想是忽略难以建模的词句结构、保留体现主题的词语计数。

中文分词:

首先需要将句子中的词语分开。才能根据词语构建词袋。大多基于匹配与统计学的方法。

停止词:

不携带任何主题信息的高频词称为停止词。

词频率、文档频率、逆文档率。

词频率-逆文档率是对词频率的一种修正,作为文档的特征。

主题模型:

是描述语料库及其中潜在主题的一类数学模型。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容