简介 本文介绍一下机器学习和深度学习中常用的优化算法和优化器以及一些其他我知道的优化算法,部分算法我也没有搞懂,就先记录下来以后慢慢研究吧.*_...
简介 因为神经网络是线性组合,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型...
前言 学习决策树时会接触到一些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等乱七八糟的知识和名字,我本人已...
简介 Transformer是谷歌提出的只基于Attention的网络模型,它也是一种Encoder-Decoder的网络结构,但是没有使用任何...
简介: BERT,全称BidirectionalEncoderRepresentations fromTransformers,是一个预训练的语...
BM25算法,通常用于计算两个文本,或者文本与文档之间的相关性.所以可以用于文本相似度计算和文本检索等应用场景.它的主要思想是:对于文本quer...
前面说了Memory-network的基础模型以及可以end to end的扩展形式.但是其模型还是有很多缺陷,比如只能处理简单的文本数据,无法...
基础Memory-network 传统的RNN/LSTM等模型的隐藏状态或者Attention机制的记忆存储能力太弱,无法存储太多的信息,很容易...
最近在研究问答系统,但是在查找资料的过程中一直处于懵逼状态,因为问答系统分类比较多,根据不同的依据可以分为不同种类,总是搞混,也没有找到资料详细...