峰子的乐园

使用 MMA 的 flash-attn 实现

Tensor Core 与 MMA 自 Volta 架构开始，nvidia 在显卡上装上了 Tensor Core 架构。该架构是为满足深度学习中所需的大量矩阵类运算需求而设计的硬件架构，专门提供高效小块的矩阵乘法：D=A×B+CD=A\times B+CD=A×B+C。因为深度学习中高精度 float 运算不是必须的，所以 Tensor Core 还支持更低精度的计算，更低精度的计算意味着更高

2025-03-09

AI > Parallel Computing > cuda

#AI #cuda

2024-10-28

GraphRAG 框架

GraphRAG 框架

引言对于大模型的应用而言，也许最大的挑战就是让它回答一些在预训练和后训练时从未知晓的领域的问题（比如你昨天的日记、商业公司内部的机密文档等私有数据）。目前，业界解决该问题的方案之一就是使用检索增强生成（RAG），RAG 是一种利用大模型（LLMs）对私有数据文献的检索、理解和生成的 AI 回答技术。虽然传统的 RAG 技术可以很好地帮助大模型回答基于私人数据的问题，但它无法进一步地理解私有数据中

2024-10-13

AI

#AI

GraphRAG 个人部署

GraphRAG 个人部署

3060 TI 玩转大模型

2024-10-13

AI

#AI

深入 CUTLASS 之 CuTe 详解

深入 CUTLASS 之 CuTe 详解

Layout（一）

2024-08-18

AI

#AI #CUTLASS

VLLM Paged Attention 实现

Paged Attention 简介 Paged Attention 是 vllm 在 decode 阶段用来解决 KV cache 利用率不高的加速技术。它仿照了操作系统中经典的分页技术（paging）。Paged Attention 通过切分一个 sequence 序列中的 KV cache 为多个 KV blocks 的方法，允许在非连续的内存空间存储连续的 key 和 value。每一个

2024-08-02

AI

#AI

VLLM custom allreduce 实现

vllm custom allreduce 实现动机用过 vllm 执行大模型的读者应该很清楚， vllm 使用张量并行（tensor parallel）的方式执行多卡推理。在 Self-Attention 和 MLP 层会将张量分布到各个 GPU worker 上计算，因此各个 GPU 上计算的只是一部分矩阵乘的数据，故完成计算后所有的 GPU worker 需要将结果“汇总”起来，即执行

2024-08-02

AI

#AI

在基于 hexo 框架的博客上部署定制化 AI 聊天应用

在基于 hexo 框架的博客上部署定制化 AI 聊天应用

10 分钟为您的网站添加一个 AI 助手！

2024-07-21

AI

#AI

深入探索 DeepSpeed（三）

深入探索 DeepSpeed（三）

探究 dynamic splitfuse 的奥秘

2024-06-12

AI

#AI #DeepSpeed

大模型性能优化的总结和分享

大模型性能优化的总结和分享

来自阿里安全在大模型工程领域积累的实践经验

2024-05-29

AI

#AI #Transformer