前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后的文章,会从更贴近业务的角度来写,侧重于介绍一些与自然语言问...
IP属地:广东
前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后的文章,会从更贴近业务的角度来写,侧重于介绍一些与自然语言问...
步骤 分词、去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 两篇中文文本,如何计算相似度?相似度是数学上的概念,自然语言...
本文重新整理的更详细规范的介绍见这里 判断文本的相似度在很多地方很有用,比如在爬虫中判断多篇已爬取的文章是否相似,只对不同文章进一步处理可以大大提高效率。在Python中,可...
深度学习简介 深度学习的资料很多,这里就不展开了讲,本文就介绍中文NLP的序列标注工作的一般方法。 机器学习与深度学习 简单来说,机器学习就是根据样本(即数据)学习得到一个模...
DNS 解析 DNS基于UDP DNS报文的类型: A记录: Address to ip,指定地址到ip的映射。 CNAME记录:别名记录,如果返回的是CNAME,需要再对C...
连接Neo4j数据库 要通过python来操作Neo4j,首先需要安装py2neo,可以直接使用pip安装。需要注意的是如果使用默认的pip install py2neo则在...
知识图谱( Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联...