长文介绍矩阵乘法——从自己手搓到CUTLASS实现 矩阵乘中很多计算步骤都十分相似且数据依赖不复杂,所以特别适合使用 GPU 来计算, 利用 GPU 内部的高度并行性,可极大地提高计算速度。使用 CUDA 完成矩阵乘法是一件非常有意义也有难度的事情。 2021-10-20 Parallel Computing #CUDA