240 发简信
IP属地:广东
  • unsloth使用grpo训练

    以下是基于Unsloth框架集成GRPO方法微调Qwen2.5-7B模型的完整流程,结合Redis源码学习场景的实操指南: 一、环境准备(需引用...

  • 理想与现实的碰撞:当创新遇上企业文化的壁垒

    在职场中,有一种微妙的感受——当你满怀热情地想要为公司贡献价值,提出一些具有创新性和可行性的想法时,却发现领导并未真正理解其中的价值。于是,你试...

  • 《合规主义》

    玻璃幕墙外阳光正好,张一鸣的工位却永远笼罩在中央空调的冷气里。他把第七版优化方案压进文件夹时,突然想起入职培训时副总说的"扁平化管理",现在才明...

    1.1 41 0 4
  • 从随机到语义:多层注意力如何逐层理解语言的语法、情感与逻辑

    Transformer模型的核心是自注意力机制,而它的强大之处在于多层堆叠。每一层的注意力机制都有自己的 ( W_Q )、( W_K ) 和 (...

  • Q、K、V在Transformer训练中的角色:谁才是真正的“学习者”?

    自注意力机制(Self-Attention)是Transformer模型的核心组件,它的目标是为输入序列中的每个位置的元素,找到该位置与其他所有...

  • 1980年代反向传播算法就已经在ai领域流行了,为什么当时没有做同来非常厉害的东西

    计算资源有限 硬件性能不足:当时的计算机硬件性能相对较弱,处理速度慢,内存容量小,无法高效地支持大规模神经网络的训练。例如,训练一个包含较多层数...

  • 西游记类比模型训练

    将SFT(监督式微调)、DPO(直接偏好优化)、Offline DPO(离线直接偏好优化)和RLHF(基于人类反馈的强化学习)比喻成《西游记》里...

    0.6 39 0 1
  • AI THINKING

    todays ai is like i commonely dream fly then on wake up awareness its a ...

  • 2024-12-05

    Study Rancher Cluster Deployment Physical Machines Server 1 (192.168.1.1...