第 01 章:大模型解剖学:参数与 Scaling Law

第 01 章:大模型解剖学:参数与 Scaling Law

核心观点:大模型本质上是对人类知识的”有损压缩”。参数量决定了压缩的”分辨率”,而 Scaling Law 揭示了算力转化为智能的物理定律。

1. 引言:智能的”分辨率”

当我们谈论 7B、70B、671B 这些数字时,我们在谈论什么?
很多人认为参数量仅仅意味着”更大的硬盘”,存了更多的死记硬背的知识。大错特错。
参数量实际上代表了模型对世界认知的分辨率。就像一张 JPG 图片,像素越高,边缘越清晰;参数越多,模型对逻辑、因果、微妙情感的”边缘”刻画就越精准。
本章我们将拆解这个黑盒,看看智能是如何从这些浮点数中涌现的。

2. 核心概念:压缩即智能

2.1 这里的”压缩”不是 WinRAR

如果你能用一段极短的代码生成整个维基百科,那么这段代码一定掌握了维基百科背后的规律

💡 比喻:想象你正在教一个 AI 学习画圆。

  • 死记硬背 (Overfitting):它记住了这 1000 个圆的每一个坐标点。换个大小就不会画了。
  • 掌握规律 (Generalization):它学会了 $x^2 + y^2 = r^2$。现在它能画出宇宙中所有的圆。

大模型的训练,就是在这个巨大的参数空间里,寻找那个能”压缩”人类所有文本的超级公式。
压缩即智能


3. 技术解析:Transformer 与架构之争

3.1 Transformer:注意力的胜利

目前所有主流大模型(LLM)的基石都是 Transformer。它的核心是 Self-Attention(自注意力机制)
简单来说,它的作用是“搞清楚谁跟谁有关系”
在句子 “The animal didn’t cross the street because it was too tired” 中,it 到底指 animal 还是 street
Attention 机制让模型在处理 it 时,回头”关注”了 animal,从而理解了语义。

3.2 Dense vs MoE (混合专家)

现在模型分为两派:Dense(稠密)和 MoE(混合专家)。

  • Dense (如 Llama 3 70B)
    • 机制:每一个 Token 进来,所有参数都要参与计算。
    • 比喻:一个全能天才,文理兼修,解决任何问题都调动全部脑细胞。
    • 优点:比较稳定,容易训练。
    • 缺点:推理成本高,脑子太大,转得慢。
  • MoE (如 DeepSeek-V3, Mixtral)
    • 机制:把模型切分成很多个”专家”(Experts)。处理数学题时激活数学专家,写诗时激活文学专家。
    • 比喻:一个由 100 个专才组成的顾问团。遇到问题,先由”路由(Router)”判断,派最懂的那 2 个人去解决。
    • 优点推理极快。虽然总参数量大(如 total 671B),但每次只激活一小部分(active 37B)。
    • 缺点:训练难度大,容易出现”专家负载不均衡”(有的累死,有的闲死)。

Dense vs MoE 架构对比


4. 工业实战:Scaling Law (缩放定律)

OpenAI 的 Kaplan 团队提出的 Scaling Law 是这一轮 AI 浪潮的信仰基石。
公式本质
$$ L(N) \approx (N_c/N)^\alpha $$
(Loss 与参数量 N 呈幂律关系)

4.1 核心结论

  1. 大力出奇迹:增加算力、数据量、参数量,模型性能会持续可预测地提升。
  2. 数据质量至关重要:垃圾进,垃圾出 (Garbage In, Garbage Out)。Scaling Law 的前提是高质量数据。

4.2 选型指南:参数量怎么选?

需求场景 推荐规模 典型代表 硬件门槛 (4-bit)
端侧/个人助理 3B - 8B Llama 3.2 3B, Qwen 2.5 7B 手机/单张 8GB 显卡
企业级应用/RAG 14B - 32B Qwen 2.5 14B/32B, Gemma 27B 单张 24GB (3090/4090)
复杂逻辑/代码 70B+ Llama 3.1 70B, DeepSeek V3 多卡 (2x3090 或 A100)

5. 总结与预告

  • 本章总结
    • 参数是认知的压缩分辨率。
    • MoE 架构通过”按需激活”解决了大参数与低延迟的矛盾。
    • Scaling Law 告诉我们,只要算力和数据跟得上,AI 还会更强。
  • 下章预告
    既然模型参数这么多,跑起来显存不够怎么办?下一章《算力与推理工程:显存与量化》,我们将探讨如何把大象装进冰箱——量化技术的魔法。
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×