2025-12-24

经验心得/AI

8 分钟读完 (大约 1188 个字)

第 01 章：大模型解剖学：参数与 Scaling Law

核心观点：大模型本质上是对人类知识的”有损压缩”。参数量决定了压缩的”分辨率”，而 Scaling Law 揭示了算力转化为智能的物理定律。

1. 引言：智能的”分辨率”

当我们谈论 7B、70B、671B 这些数字时，我们在谈论什么？
很多人认为参数量仅仅意味着”更大的硬盘”，存了更多的死记硬背的知识。大错特错。
参数量实际上代表了模型对世界认知的分辨率。就像一张 JPG 图片，像素越高，边缘越清晰；参数越多，模型对逻辑、因果、微妙情感的”边缘”刻画就越精准。
本章我们将拆解这个黑盒，看看智能是如何从这些浮点数中涌现的。

2. 核心概念：压缩即智能

2.1 这里的”压缩”不是 WinRAR

如果你能用一段极短的代码生成整个维基百科，那么这段代码一定掌握了维基百科背后的规律。

💡 比喻：想象你正在教一个 AI 学习画圆。

死记硬背 (Overfitting)：它记住了这 1000 个圆的每一个坐标点。换个大小就不会画了。

掌握规律 (Generalization)：它学会了 $x^2 + y^2 = r^2$。现在它能画出宇宙中所有的圆。

大模型的训练，就是在这个巨大的参数空间里，寻找那个能”压缩”人类所有文本的超级公式。

3. 技术解析：Transformer 与架构之争

3.1 Transformer：注意力的胜利

目前所有主流大模型（LLM）的基石都是 Transformer。它的核心是 Self-Attention（自注意力机制）。
简单来说，它的作用是“搞清楚谁跟谁有关系”。
在句子 “The animal didn’t cross the street because it was too tired” 中，it 到底指 animal 还是 street？
Attention 机制让模型在处理 it 时，回头”关注”了 animal，从而理解了语义。

3.2 Dense vs MoE (混合专家)

现在模型分为两派：Dense（稠密）和 MoE（混合专家）。

Dense (如 Llama 3 70B)：
- 机制：每一个 Token 进来，所有参数都要参与计算。
- 比喻：一个全能天才，文理兼修，解决任何问题都调动全部脑细胞。
- 优点：比较稳定，容易训练。
- 缺点：推理成本高，脑子太大，转得慢。
MoE (如 DeepSeek-V3, Mixtral)：
- 机制：把模型切分成很多个”专家”（Experts）。处理数学题时激活数学专家，写诗时激活文学专家。
- 比喻：一个由 100 个专才组成的顾问团。遇到问题，先由”路由（Router）”判断，派最懂的那 2 个人去解决。
- 优点：推理极快。虽然总参数量大（如 total 671B），但每次只激活一小部分（active 37B）。
- 缺点：训练难度大，容易出现”专家负载不均衡”（有的累死，有的闲死）。

Dense vs MoE 架构对比

4. 工业实战：Scaling Law (缩放定律)

OpenAI 的 Kaplan 团队提出的 Scaling Law 是这一轮 AI 浪潮的信仰基石。
公式本质：
$$ L(N) \approx (N_c/N)^\alpha $$
(Loss 与参数量 N 呈幂律关系)

4.1 核心结论

大力出奇迹：增加算力、数据量、参数量，模型性能会持续、可预测地提升。
数据质量至关重要：垃圾进，垃圾出 (Garbage In, Garbage Out)。Scaling Law 的前提是高质量数据。

4.2 选型指南：参数量怎么选？

需求场景	推荐规模	典型代表	硬件门槛 (4-bit)
端侧/个人助理	3B - 8B	Llama 3.2 3B, Qwen 2.5 7B	手机/单张 8GB 显卡
企业级应用/RAG	14B - 32B	Qwen 2.5 14B/32B, Gemma 27B	单张 24GB (3090/4090)
复杂逻辑/代码	70B+	Llama 3.1 70B, DeepSeek V3	多卡 (2x3090 或 A100)

5. 总结与预告

本章总结：
- 参数是认知的压缩分辨率。
- MoE 架构通过”按需激活”解决了大参数与低延迟的矛盾。
- Scaling Law 告诉我们，只要算力和数据跟得上，AI 还会更强。
下章预告：
既然模型参数这么多，跑起来显存不够怎么办？下一章《算力与推理工程：显存与量化》，我们将探讨如何把大象装进冰箱——量化技术的魔法。

# AI, 大模型, 机器学习