240 发简信
IP属地:北京
  • Resize,w 360,h 240
    通信

    Chimera: Communication Fusion for Hybrid Parallelism in Large Language M...

    0.4 23 0 1
  • 针对all-reduce的优化

    Distributed On-Device LLM Inference With Over-the-Air Computation 这篇文章针对...

  • Resize,w 360,h 240
    关于LLM支持的agent的api调用

    Less is More: Optimizing Function Calling for LLM Execution on Edge Dev...

  • Resize,w 360,h 240
    基于PD分离的流水线并行

    Jupiter: Fast and Resource-Efficient Collaborative Inference of Generati...

  • KVcache与prefill和decoding

    解码阶段的kvcache是什么数据构成的,每个新的token是计算后再合并到KVcache中吗 在 Transformer 模型的解码阶段(尤其...

  • Resize,w 360,h 240
    基于生成错误的微调和推理增强

    Can LLMs Learn from Previous Mistakes? Investigating LLMs’ Errors to Boo...

  • CoT

    最近看了一篇文章是关于CoT微调的,所以看了一下关于CoT的内容。看之前其实是有两个疑问的,1)思考链这个是否是额外生成的,还是说模型的每一次推...

  • Resize,w 360,h 240
    4D并行负载平衡

    WLB-LLM: Workload-Balanced 4D Parallelism for Large Language Model Train...

  • Resize,w 360,h 240
    关于稀疏注意力头

    MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS 如图所示,就是模仿moe的形式来...