黄粱梦醒 - 简书

IP属地：上海

MCP开发实战
构建客户端具体代码见githubgithub中使用的是DeepSeek API调用同时也可以调用本地模型进行对话如通过ollama 或者vl...

21 0 0
Qwen3技术报告
Abstract Qwen3 系列包括dense transformer和MoE架构的模型。Qwen3 的一项关键创新是将思维模式（用于复杂的多...

910 0 0

DeepSeek-V3技术报告
总结和原生的transformer架构的decoder部分相比，deepseek架构有几点不同 layernorm替换为RMSnorm FFN...

393 0 0
DeepSeekMoE论文精读
Abstract 在大型语言模型时代，Mixture-of-Expert （MoE）是一种很有前途的架构，用于在扩展模型参数时管理计算成本。然...

761 0 0
Llama3技术报告精读--(1)
总结 Llama3的模型依旧是用的是传统的dense Transformer架构，与Llama2和Llama在架构上没有本质的区别，只是在训练数...

559 0 1
InstructGPT论文精读--Training language models to follow instructions with human feedback
总结 InstructGPT 的训练方法就是ChatGPT的训练方法 Abstract 作者认为，语言模型越大本质上并不能让它更好地遵循人类的意...

34 0 0
T5模型论文精读
总结 T5 是谷歌提出了一个统一预训练模型和框架，模型采用了谷歌最原始的 Encoder-Decoder Transformer结构。 T5将每...

25 0 0

GPT3论文精读
总结 GPT3在模型架构上，主要是扩大了GPT2的参数；在论文创新内容上，提出了few-shot learning，GPT3能在少样本的提示上表...

631 0 0
NLP的tokenizer---分词器
tokenizer作为NLP领域不可缺少的一部分，对于模型的训练时间和效果有着重要的影响，如果分词器的粒度太细，词表会很小，但是能代表的实际含义...

44 0 0