峰子的乐园
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
VLLM custom allreduce 实现

VLLM custom allreduce 实现

vllm custom allreduce 实现 动机 用过 vllm 执行大模型的读者应该很清楚, vllm 使用张量并行(tensor parallel)的方式执行多卡推理。在 Self-Attention 和 MLP 层会将张量分布到各个 GPU worker 上计算,因此各个 GPU 上计算的只是一部分矩阵乘的数据,故完成计算后所有的 GPU worker 需要将结果“汇总”起来,即执行
2024-08-02
AI
#AI
在基于 hexo 框架的博客上部署定制化 AI 聊天应用

在基于 hexo 框架的博客上部署定制化 AI 聊天应用

10 分钟为您的网站添加一个 AI 助手!
2024-07-21
AI
#AI
深入探索 DeepSpeed(三)

深入探索 DeepSpeed(三)

探究 dynamic splitfuse 的奥秘
2024-06-12
AI
#AI #DeepSpeed
大模型性能优化的总结和分享

大模型性能优化的总结和分享

来自阿里安全在大模型工程领域积累的实践经验
2024-05-29
AI
#AI #Transformer
深入探索 deepspeed(二)

深入探索 deepspeed(二)

加速深度学习推理的高性能kernel
2024-05-15
AI
#AI #deepspeed
深入探索 deepspeed(一)

深入探索 deepspeed(一)

加速深度学习推理和训练的新引擎
2024-04-20
AI
#AI #deepspeed
将博客切换到 hexo Fluid 主题

将博客切换到 hexo Fluid 主题

Hexo 是个非常好用且好看的个人博客搭建工具!
2024-04-10
#Miscellaneous

THUDM/chatglm代码细读

智谱清言の大模型
2024-01-27
AI
#AI #Transformer

大模型推理优化技术之显存优化

在消费级显卡上运行大模型
2023-11-30
AI
#AI #Transformer

huggingface下llama代码细读(下)

揭开它神秘的面纱
2023-11-30
AI
#AI #Transformer
1234…8

搜索

Hexo Fluid
总访问量 次 总访客数 人