黄粱梦醒 - 简书

发简信

2
关注
22
粉丝
77
文章
106781

字数
61

收获喜欢
10

总资产

IP属地：上海

黄粱梦醒

MCP开发实战
构建客户端具体代码见githubgithub中使用的是DeepSeek API调用同时也可以调用本地模型进行对话如通过ollama 或者vllm 首先启动vllm服务2....

18 0 0
黄粱梦醒

Qwen3技术报告
Abstract Qwen3 系列包括dense transformer和MoE架构的模型。Qwen3 的一项关键创新是将思维模式（用于复杂的多步骤推理）和非思维模式（用于快...

441 0 0

黄粱梦醒

DeepSeek-V3技术报告
总结和原生的transformer架构的decoder部分相比，deepseek架构有几点不同 layernorm替换为RMSnorm FFN替换为DeepSeekMoE ...

38 0 0
黄粱梦醒

DeepSeekMoE论文精读
Abstract 在大型语言模型时代，Mixture-of-Expert （MoE）是一种很有前途的架构，用于在扩展模型参数时管理计算成本。然而，像GShard这样传统Mo...

493 0 0
黄粱梦醒

Llama3技术报告精读--(1)
总结 Llama3的模型依旧是用的是传统的dense Transformer架构，与Llama2和Llama在架构上没有本质的区别，只是在训练数据量和参数规模上有了很大的提升...

402 0 1
黄粱梦醒

InstructGPT论文精读--Training language models to follow instructions with human feedback
总结 InstructGPT 的训练方法就是ChatGPT的训练方法 Abstract 作者认为，语言模型越大本质上并不能让它更好地遵循人类的意图，它可能会生成一些不真实的、...

14 0 0
黄粱梦醒

T5模型论文精读
总结 T5 是谷歌提出了一个统一预训练模型和框架，模型采用了谷歌最原始的 Encoder-Decoder Transformer结构。 T5将每个文本处理问题都看成“Text...

14 0 0

黄粱梦醒

GPT3论文精读
总结 GPT3在模型架构上，主要是扩大了GPT2的参数；在论文创新内容上，提出了few-shot learning，GPT3能在少样本的提示上表现出不错的效果。 Abstra...

33 0 0
黄粱梦醒

NLP的tokenizer---分词器
tokenizer作为NLP领域不可缺少的一部分，对于模型的训练时间和效果有着重要的影响，如果分词器的粒度太细，词表会很小，但是能代表的实际含义也会很少；如果粒度较粗，整个词...

27 0 0
黄粱梦醒

GPT2论文精读----Language Models are Unsupervised Multitask Learners
总结：论文：gpt2不需要fine-tuning阶段，探索多任务学习，即gpt2在zero-shot learning的效果。模型结构：在gpt1的基础上，将layern...

28 0 0
黄粱梦醒

hive sql优化
调优经验尽量限制更少的分区制定列，不要使用select * 业务层面，指标是否可以从汇总层取 where条件尽量去掉无关行查询优化对作业进行合理拆分使用合适的数据类...

19 0 0
黄粱梦醒

模型下载方法
1 通过huggingface 进行下载 1.1 通过python transformers包进行下载-- 需要科学上网 1.2 hugging face专用工具 -- 通过...

37 0 0

黄粱梦醒

GPT1论文精读
Abstract 自然语言理解包括各种不同的下游任务。尽管大型未标记的文本语料库很丰富，但用于学习这些特定任务的标号数据很少，这使得训练分辨（判别）模型比较难。作者的解决方法...

15 0 0
黄粱梦醒

BERT论文精读
Abstract BERT是通过对所有层中的左右上下文进行联合调节，从未标记的文本中预训练深度双向表示。大家可以只需要一个额外的输出层来进行微调这个模型，就可以在很多不同的任...

393 0 0
黄粱梦醒

模型参数的大小的计算方式
拿BERT为例L= 12， H = 768 embedding = 30000 * H transformer块：包括自注意力机制和MLP2.1 QKV 3个权重矩阵 + ...

34 0 0
黄粱梦醒

第一段就写错了，Sinusoidal Positional Encoding有外推的能力， learned才没有

位置编码（Positional Encoding）
在大语言模型（LLM）中，位置编码（Positional Encoding）是用于表示输入序列中词汇或标记相对位置的技术。由于Transformer架构本身并没有内建顺序信息...

躺不平的NLPer
5485 1 0
黄粱梦醒

llms-from-scratch--attention mechanism 详解代码计算
1.1 长序列建模的问题由于源语和目的语语法结构的差异，逐字翻译文本是不可行的在引入transformer之前，encoder-decoder 的RNN模型通常用于机器翻...

421 0 1

黄粱梦醒

什么是generative AI -- 李宏毅
生成式人工智能：机器产生复杂有结构的物件。模型：是带有大量未知参数的函数机器学习的学习，就是找到这个大量未知参数的过程，也叫training 。当你把这个大量未知参数的...

24 0 0
黄粱梦醒

Transformer论文精读
1 Introduction 目前最新的方法是RNN，包括LSTM、GRU等等，主要是语言模型和encoder-decoder两类。 RNN的特点是：给定一个序列，从左往右一...

412 0 0
黄粱梦醒

batchnorm 和 layer norm的区别
BatchNorm一般用于CV领域，而LayerNorm一般用于NLP领域。 batchnorm 是对一个batch，所有样本的某一个特征进行标准化，就是做成均值是0，方差是...

29 0 0

暂无个人介绍