GraphRAG 框架
引言 对于大模型的应用而言,也许最大的挑战就是让它回答一些在预训练和后训练时从未知晓的领域的问题(比如你昨天的日记、商业公司内部的机密文档等私有数据)。目前,业界解决该问题的方案之一就是使用检索增强生成(RAG),RAG 是一种利用大模型(LLMs)对私有数据文献的检索、理解和生成的 AI 回答技术。虽然传统的 RAG 技术可以很好地帮助大模型回答基于私人数据的问题,但它无法进一步地理解私有数据中
VLLM Paged Attention 实现
Paged Attention 简介 Paged Attention 是 vllm 在 decode 阶段用来解决 KV cache 利用率不高的加速技术。它仿照了操作系统中经典的分页技术(paging)。Paged Attention 通过切分一个 sequence 序列中的 KV cache 为多个 KV blocks 的方法,允许在非连续的内存空间存储连续的 key 和 value。每一个