Bert是基于Encoder架构,擅长理解(如分类、实体识别),GPT基于Decoder架构,擅长生成(如续写、对话), T5回归了Encoder-Decoder架构,将输入...
Bert是基于Encoder架构,擅长理解(如分类、实体识别),GPT基于Decoder架构,擅长生成(如续写、对话), T5回归了Encoder-Decoder架构,将输入...
GPT系列模型是完全基于Transformer构建的,与BERT致力于通过双向上下文来“理解”语言不通,GPT的中心在生成语言。它的设计初衷是为了根据给定的上文,以自回归的方...
一、BERT的设计原理与预训练策略 Bert(Bidirectional Encoder Representations from Transformers))是纯编码器架构...
Transformer 来自2017年Google研究团队的名为《Attention is All You Need》的论文。其思想抛弃了传统RNN和卷积网络,整个模型基于注...
标准seq2seq 存在信息瓶颈问题,同一个固定的上下文向量C,作为解码输入,在生成阶段无法找到实际关注点。 为了解决这个问题,注意力机制被提出。 一、注意力机制的设计原理 ...
前边学习了如何使用RNN和LSTM处理序列数据。这些模型在三类任务重表现出色: 多对一:将序列信息压缩成一个特征向量,用于文本分类情感分析等任务 多对多: 输入序列的每一个词...
一、LSTM与门控机制 常规RNN的问题是内部状态的更新方式是与旧信息无差别混合,并通过权重矩阵W进行变换。这种无论信息是否重要,都会在反向传播中形成梯度累乘。LSTM是赋予...
一、如何处理序列信息 从分词到embedding是从文件到稠密词向量的过程,解决了模型输入的问题,即文本数值化。第二个问题就是,如何从一个词向量序列中有效地提取整个序列的特征...
一、Gensim简介 Gensim是一个功能强大且高效的Python库,专门处理原始、非结构话的纯文本文档。内置了多种主流词向量和主题模型算法,如Word2Vec、TF-ID...
一、寻找理想的词向量 哑编码、序号化等方式都无法解决语义关系,例如“国王”与“女王”的语义比“国王”与“苹果”更近。 分布式表示的方式就是为了解决这个问题,目的是将词语映射到...
第一部分 理论篇 第一章 第一章 NLP简介[https://www.jianshu.com/p/84fb67d283d0] 第二章 文本表示 1.2.1 初级分词技术[ht...
一、为什么需要词向量? 以文本分类为例,jieba分词无法理解语义, 需要使用机器学习和深度学习模型。 这些模型的输入都是数值形式。解决自然语言和数学模型之间的鸿沟。词向量表...
第一节 初级分词技术 一、分词的定义与重要性 定义:把连续的文本序列切分成具有独立语义的基本单元。 重要性: 气氛错误可能会导致语义信息的丢失。 这中错误会在后续的处理链条中...
一、 NLP 是什么 1.1 定义与核心任务 定义: 它是ai领域重要组成部分,赋予计算机理解、解释、生成人类语言的能力,并基于这些能力对文本数据进行决策。目标: 我的理解是...
1. KeyError: 'intermediate_steps' 报错原因:在 Agent 执行流程中,传入 agent_scratchpad 的输入字典缺少 interm...
为什么需要compaction? LSM是一个顺序存储的结构,而且删除,修改都是追加方式存储,所以需要定时合并以减少数据冗余。 compaction的类型 按大小:较新和较小...