一、BERT的设计原理与预训练策略 Bert(Bidirectional Encoder Representations from Transf...
Transformer 来自2017年Google研究团队的名为《Attention is All You Need》的论文。其思想抛弃了传统R...
标准seq2seq 存在信息瓶颈问题,同一个固定的上下文向量C,作为解码输入,在生成阶段无法找到实际关注点。 为了解决这个问题,注意力机制被提出...
前边学习了如何使用RNN和LSTM处理序列数据。这些模型在三类任务重表现出色: 多对一:将序列信息压缩成一个特征向量,用于文本分类情感分析等任务...
一、LSTM与门控机制 常规RNN的问题是内部状态的更新方式是与旧信息无差别混合,并通过权重矩阵W进行变换。这种无论信息是否重要,都会在反向传播...
一、如何处理序列信息 从分词到embedding是从文件到稠密词向量的过程,解决了模型输入的问题,即文本数值化。第二个问题就是,如何从一个词向量...
一、Gensim简介 Gensim是一个功能强大且高效的Python库,专门处理原始、非结构话的纯文本文档。内置了多种主流词向量和主题模型算法,...
一、寻找理想的词向量 哑编码、序号化等方式都无法解决语义关系,例如“国王”与“女王”的语义比“国王”与“苹果”更近。 分布式表示的方式就是为了解...
第一部分 理论篇 第一章 第一章 NLP简介[https://www.jianshu.com/p/84fb67d283d0] 第二章 文本表示 ...