安装:conda install jupyter notebook配置:1、设置登录密码pythonfrom notebook.auth import passwdpassw...
安装:conda install jupyter notebook配置:1、设置登录密码pythonfrom notebook.auth import passwdpassw...
问题:Jupyter设置密码后,Web登陆提示密码无效 问题原因: 注意观察提示,密码无效是因为jupyter_notebook_config.json文件和jupyter_...
whl文件下载地址 https://pypi.org/project/tensorflow-gpu/1.10.0/#files 类比修改链接即可:比如下载CPU版本的http...
对于二分类 一般我们说,对某个类别的precision、Recall、F1,二分类,默认是对正例的。 对于多分类 假设有三分类[1,2,3],那么有P1,R1,F1和P2,R...
伯努利分布 随机变量X的概率质量函数: 重复n次伯努利实验,成功次数是x,失败次数是n-x的概率为: 当n=1时,即是伯努利分布。所以伯努利分布的概率质量函数也表示为: x代...
信息熵 信息熵也被称为熵,用来表示所有信息量的期望。 其中X是一个离散型随机变量。 相对熵 相对熵即KL散度。如果随机变量X有两个单独的概率分布P(x)和Q(x),用KL散度...
1、XLNet的出发点 自回归语言模型AR:仅根据上文预测,或仅根据下文预测。ELMO、GPT。优势是擅长生成式自然语言处理任务。 因为在生成上下文时,通常是前向的。缺点是仅...
《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》 1.Transformer...
1、CNN+GLU 论文:Language Modeling with Gated Convolutional Networks 对于同一层输入,进行卷积操作A和B,其中A得...
内容摘自https://zhuanlan.zhihu.com/p/54743941 1.NLP四大任务 2.RNN 2.1 RNN为什么在NLP流行并占据主导地位呢? 1、适...
GPT GPT用的是transformer decoderfine-tuning的输入:最后一个词的向量。 GPT采用单向transformer可以解决Bert无法解决的生成...
深度学习中的ICS问题? covariate shift 是分布不一致假设之下的一个分支问题,它是指源空间和目标空间的条件概率是一致的,但是其边缘概率不同。而统计机器学习中的...
1.AutoEncoder自编码网络 2.StackAutoEncoder堆栈自编码网络 两阶段: 1、无监督逐层贪婪预训练,layer-wise unsuperwised ...
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Trans...
2001 - 神经语言模型 第一个神经语言模型是Bengio等人在2001年提出的前馈神经网络,如图所示: 2008- 多任务学习 多任务学习鼓励模型学习对许多任务有用的表述...
自Attention机制提出后,加入attention的Seq2seq模型在各个任务上都有了提升,所以现在的seq2seq模型指的都是结合rnn和attention的模型。 ...
1. 核心思想 在Decoding阶段对input中的信息赋予不同权重。 在nlp中就是针对sequence的每个time step input,在cv中就是针对每个pixe...
本文主要内容引自大话搜索Query理解 搜索场景下,Query理解(QU,Query Understanding)示意: 一、搜索 整个检索系统的目标可以抽象为给定query...
jieba分词用到了DAG分词法。在此介绍其原理: 第一步:分句 通过正则表达式,将文章内容切分,形成一个句子数组,这个比较好理解 第二步:构建DAG词图 下述程序其实是找以...