240 发简信
IP属地:江苏
  • Resize,w 360,h 240
    Intel 显卡单机多卡 FSDP 模型 checkpointing 时 Assert Out

    现象 使用 Hugging Face Trainer 在单机多卡环境下对 LLAMA2-7B 进行 LoRA finetuning 时,在第一次...

  • Resize,w 360,h 240
    辅助式文本生成 - 文本生成新范式

    辅助式文本生成 - 文本生成新范式 @(NLP)[文本生成] 引言 LLM 要跨越从早期采用者到大众市场的鸿沟,其必要条件是价格大众化,也就是降...

    0.3 50 0 1
  • Resize,w 360,h 240
    使用开源 LLM 充当 LangChain 智能体

    太长不看版 开源 LLM 现已达到一定的性能水平,可堪作为智能体工作流的推理引擎。在我们的测试基准上,Mixtral[https://huggi...

  • Resize,w 360,h 240
    详解 MoE

    随着 Mixtral 8x7B 的发布(公告[https://mistral.ai/news/mixtral-of-experts/],模型卡[...

  • Resize,w 360,h 240
    乱弹 LLM 的工程化

    乱弹 LLM 的工程化 @(Thoughts) 仅为个人观点,乱弹而已。 这一波 LLM 狂热很有意思,从现象上来看跟智能手机 + 移动互联网那...

  • Resize,w 360,h 240
    Transformer 估算 101

    @(Engineering Practice) 本文主要介绍用于估算 transformer 类模型计算量需求和内存需求的相关数学方法。 引言 ...

  • Resize,w 360,h 240
    优化故事: BLOOM 模型推理

    优化故事: BLOOM 模型推理 @(Engineering Practice) 经过“九九八十一难”,大模型终于炼成。下一步就是架设服务,准备...

  • Resize,w 360,h 240
    BLOOM 训练背后的技术

    BLOOM 训练背后的技术 @(Engineering Practice) 假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,...

  • Resize,w 360,h 240
    ChatGPT 与 AIGC 简问乱答

    ChatGPT 与 AIGC 简问乱答 ** 仅代表个人观点。 ** [Q1] ChatGPT 最近非常火爆,2 个月突破 1 亿月活,从产品形...