核心观点:大模型本质上是对人类知识的”有损压缩”。参数量决定了压缩的”分辨率”,而 Scaling Law 揭示了算力转化为智能的物理定律。
1. 引言:智能的”分辨率”
当我们谈论 7B、70B、671B 这些数字时,我们在谈论什么?
很多人认为参数量仅仅意味着”更大的硬盘”,存了更多的死记硬背的知识。大错特错。
参数量实际上代表了模型对世界认知的分辨率。就像一张 JPG 图片,像素越高,边缘越清晰;参数越多,模型对逻辑、因果、微妙情感的”边缘”刻画就越精准。
本章我们将拆解这个黑盒,看看智能是如何从这些浮点数中涌现的。
2. 核心概念:压缩即智能
2.1 这里的”压缩”不是 WinRAR
如果你能用一段极短的代码生成整个维基百科,那么这段代码一定掌握了维基百科背后的规律。
💡 比喻:想象你正在教一个 AI 学习画圆。
- 死记硬背 (Overfitting):它记住了这 1000 个圆的每一个坐标点。换个大小就不会画了。
- 掌握规律 (Generalization):它学会了 $x^2 + y^2 = r^2$。现在它能画出宇宙中所有的圆。
大模型的训练,就是在这个巨大的参数空间里,寻找那个能”压缩”人类所有文本的超级公式。
3. 技术解析:Transformer 与架构之争
3.1 Transformer:注意力的胜利
目前所有主流大模型(LLM)的基石都是 Transformer。它的核心是 Self-Attention(自注意力机制)。
简单来说,它的作用是“搞清楚谁跟谁有关系”。
在句子 “The animal didn’t cross the street because it was too tired” 中,it 到底指 animal 还是 street?
Attention 机制让模型在处理 it 时,回头”关注”了 animal,从而理解了语义。
3.2 Dense vs MoE (混合专家)
现在模型分为两派:Dense(稠密)和 MoE(混合专家)。
- Dense (如 Llama 3 70B):
- 机制:每一个 Token 进来,所有参数都要参与计算。
- 比喻:一个全能天才,文理兼修,解决任何问题都调动全部脑细胞。
- 优点:比较稳定,容易训练。
- 缺点:推理成本高,脑子太大,转得慢。
- MoE (如 DeepSeek-V3, Mixtral):
- 机制:把模型切分成很多个”专家”(Experts)。处理数学题时激活数学专家,写诗时激活文学专家。
- 比喻:一个由 100 个专才组成的顾问团。遇到问题,先由”路由(Router)”判断,派最懂的那 2 个人去解决。
- 优点:推理极快。虽然总参数量大(如 total 671B),但每次只激活一小部分(active 37B)。
- 缺点:训练难度大,容易出现”专家负载不均衡”(有的累死,有的闲死)。

4. 工业实战:Scaling Law (缩放定律)
OpenAI 的 Kaplan 团队提出的 Scaling Law 是这一轮 AI 浪潮的信仰基石。
公式本质:
$$ L(N) \approx (N_c/N)^\alpha $$
(Loss 与参数量 N 呈幂律关系)
4.1 核心结论
- 大力出奇迹:增加算力、数据量、参数量,模型性能会持续、可预测地提升。
- 数据质量至关重要:垃圾进,垃圾出 (Garbage In, Garbage Out)。Scaling Law 的前提是高质量数据。
4.2 选型指南:参数量怎么选?
| 需求场景 | 推荐规模 | 典型代表 | 硬件门槛 (4-bit) |
|---|---|---|---|
| 端侧/个人助理 | 3B - 8B | Llama 3.2 3B, Qwen 2.5 7B | 手机/单张 8GB 显卡 |
| 企业级应用/RAG | 14B - 32B | Qwen 2.5 14B/32B, Gemma 27B | 单张 24GB (3090/4090) |
| 复杂逻辑/代码 | 70B+ | Llama 3.1 70B, DeepSeek V3 | 多卡 (2x3090 或 A100) |
5. 总结与预告
- 本章总结:
- 参数是认知的压缩分辨率。
- MoE 架构通过”按需激活”解决了大参数与低延迟的矛盾。
- Scaling Law 告诉我们,只要算力和数据跟得上,AI 还会更强。
- 下章预告:
既然模型参数这么多,跑起来显存不够怎么办?下一章《算力与推理工程:显存与量化》,我们将探讨如何把大象装进冰箱——量化技术的魔法。

