ako8 - 简书

ako8

IP属地：北京

通信
Chimera: Communication Fusion for Hybrid Parallelism in Large Language M...

0.4 24 0 1
针对all-reduce的优化
Distributed On-Device LLM Inference With Over-the-Air Computation 这篇文章针对...

11 0 0

关于LLM支持的agent的api调用
Less is More: Optimizing Function Calling for LLM Execution on Edge Dev...

9 0 0
基于PD分离的流水线并行
Jupiter: Fast and Resource-Efficient Collaborative Inference of Generati...

6 0 0
KVcache与prefill和decoding
解码阶段的kvcache是什么数据构成的，每个新的token是计算后再合并到KVcache中吗在 Transformer 模型的解码阶段（尤其...

775 0 0
基于生成错误的微调和推理增强
Can LLMs Learn from Previous Mistakes? Investigating LLMs’ Errors to Boo...

15 0 0
CoT
最近看了一篇文章是关于CoT微调的，所以看了一下关于CoT的内容。看之前其实是有两个疑问的，1）思考链这个是否是额外生成的，还是说模型的每一次推...

39 0 0

4D并行负载平衡
WLB-LLM: Workload-Balanced 4D Parallelism for Large Language Model Train...

46 0 0
关于稀疏注意力头
MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS 如图所示，就是模仿moe的形式来...

384 0 1