7 分钟 读完 (大约 1035 个字)
核心观点:在大模型推理中,搬运数据的时间远多于计算的时间。推理优化的核心战役,就是打破”内存墙”(Memory Wall)。
1. 引言:你的显卡为什么在”摸鱼”?
你买了昂贵的 RTX 4090,跑大模型时却发现 GPU 利用率只有 30%?
不要怪显卡,它很委屈。
它就像一个米其林三星大厨(Tensor Core 计算核心),切菜速度极快,但他必须等服务员从几公里外的仓库(显存 VRAM)把土豆一个一个搬过来。
大模型推理的瓶颈,通常不在算力(Compute Bound),而在显存带宽(Memory Bound)。
2. 核心概念:内存墙与 KV Cache
2.1 显存:寸土寸金的仓