聚类算法 前面介绍的集中算法都是属于有监督机器学习方法,这章和前面不同,介绍无监督学习算法,也就是聚类算法。在无监督学习中,目标属性是不存在的,也就是所说的不存在“y”值,我...
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的...
综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种...
前面提到了用CNN来做OCR。这篇文章介绍另一种做OCR的方法,就是通过LSTM+CTC。这种方法的好处是他可以事先不用知道一共有几个字符需要识别。之前我试过不用CTC,只用...
这两天因为实现mxnet的nce-loss,因此研究了一下tensorflow的nce-loss的实现。所以总结一下。 先看看tensorflow的nce-loss的API:...
最近新接触文本分类问题,对于我来数第一个问题就是Word Embedding这个词到底是什么意思,因此也就开始学习了相关知识http://licstar.net/archiv...
优秀的博客:【图解什么是 Transformer(很全)】https://www.jianshu.com/p/e7d8caa13b21【自注意力机制Self-attentio...
word2vector已经成为NLP领域的基石算法。作为一名AI 从业者,如果不能主动去熟悉该算法,应该感到脸红。本文是一篇翻译的文章,原文链接是:http://mccorm...
本文主要改写了一下"Sequence Tagging with Tensorflow"程序。原文是基于英文的命名实体识别(named entity recognition)问...
Word2vec word2vector,顾名思义,就是将语料库中的词转化成向量,以便后续在词向量的基础上进行各种计算。 我们以词为单位扫描这句话,每扫描到一个词,都把该词左...
概率 概率通常理解为衡量事件发生的可能性大小,但是不严谨。拿投骰子举例,投一次骰子,称作一次试验,所有可能的试验结果就称为样本空间,事件就是样本空间的子集。 概率是赋予...
马尔可夫模型简介: 马尔可夫模型个人认为这个概念应该是从 随机过程 里面提出来的,由马尔可夫过程过来的概念。实际上掌握了随机过程里面对马尔可夫过程的特殊情况:离散参数离散状态...
命名实体识别(Named Entity Recognition, NER)是NLP领域一个非常非常重要的方向,比如人名、地名通用性的实体识别,还有像车型名、车款名这些垂直领域...
弹性分布式数据集(RDD Resilient Distributed Dataset)是不可变JVM对象的分布式集合,允许您非常快速地执行计算,并且它们是Apache Spa...
摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程. 工具:python,pyspark,jieba,p...