峰子的乐园

VLLM custom allreduce 实现

vllm custom allreduce 实现动机用过 vllm 执行大模型的读者应该很清楚， vllm 使用张量并行（tensor parallel）的方式执行多卡推理。在 Self-Attention 和 MLP 层会将张量分布到各个 GPU worker 上计算，因此各个 GPU 上计算的只是一部分矩阵乘的数据，故完成计算后所有的 GPU worker 需要将结果“汇总”起来，即执行

2024-08-02

AI

#AI

在基于 hexo 框架的博客上部署定制化 AI 聊天应用

在基于 hexo 框架的博客上部署定制化 AI 聊天应用

10 分钟为您的网站添加一个 AI 助手！

2024-07-21

AI

#AI

深入探索 DeepSpeed（三）

深入探索 DeepSpeed（三）

探究 dynamic splitfuse 的奥秘

2024-06-12

AI

#AI #DeepSpeed

大模型性能优化的总结和分享

大模型性能优化的总结和分享

来自阿里安全在大模型工程领域积累的实践经验

2024-05-29

AI

#AI #Transformer

深入探索 deepspeed（二）

深入探索 deepspeed（二）

加速深度学习推理的高性能kernel

2024-05-15

AI

#AI #deepspeed

深入探索 deepspeed（一）

深入探索 deepspeed（一）

加速深度学习推理和训练的新引擎

2024-04-20

AI

#AI #deepspeed

将博客切换到 hexo Fluid 主题

将博客切换到 hexo Fluid 主题

Hexo 是个非常好用且好看的个人博客搭建工具!

2024-04-10

#Miscellaneous

THUDM/chatglm代码细读

智谱清言の大模型

2024-01-27

AI

#AI #Transformer

大模型推理优化技术之显存优化

在消费级显卡上运行大模型

2023-11-30

AI

#AI #Transformer

huggingface下llama代码细读（下）

揭开它神秘的面纱

2023-11-30

AI

#AI #Transformer