第 02 章:算力与推理工程:显存与量化

核心观点:在大模型推理中,搬运数据的时间远多于计算的时间。推理优化的核心战役,就是打破”内存墙”(Memory Wall)。 1. 引言:你的显卡为什么在”摸鱼”? 你买了昂贵的 RTX 4090,跑大模型时却发现 GPU 利用率只有 30%? 不要怪显卡,它很委屈。 它就像一个米其林三星大厨(Tensor Core 计算核心),切菜速度极快,但他必须等服务员从几公里外的仓库(显存 VRAM)把土豆一个一个搬过来。 大模型推理的瓶颈,通常不在算力(Compute Bound),而在显存带宽(Memory Bound)。 2. 核心概念:内存墙与 KV Cache 2.1 显存:寸土寸金的仓
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×