步骤 分词、去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 两篇中文文本,如何计算相似度?...
收录了7篇文章 · 2人关注
步骤 分词、去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 两篇中文文本,如何计算相似度?...
Ricequant团队出品,如需转发请注明且请私信联系,否则必究。 原文:https://www.ricequant.com/community...
马尔可夫模型描述 存在一类重要的随机过程:如果一个系统有个状态, 随着时间的推移,该系统从某一状态转移到另一状态。如果用 表示系统在时间的状态变...
有词典切分/ 无词典切分 基于规则的方法/ 基于统计的方法 1. 最大匹配法(Maximum Matching, MM) -有词典切分,机...
形式语言 1. 关于语言的定义 人类所特有的用来表达意思、交流思想的工具,是一种特殊的社会现象,由语音、词汇和语法构成一定的系统。 2. 语言描...
自动机 自动机是一种理想化的“机器”,它只是抽象分析问题的理论工具,并不具有实际的物质形态。它是科学定义的演算机器,用来表达某种不需要人力干涉的...
命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,而人名、地名、组织机构名、时间...
本系列第三篇,承接前面的《浅谈机器学习基础》和《浅谈深度学习基础》。 自然语言处理绪论 什么是自然语言处理? 自然语言处理是研究人与人交际中以及...
专题公告
自然语言处理相关技术文章