第 11 章：多模态视界：CLIP 与 ViT

核心观点：多模态（Multimodal）不是简单的”拼凑”，而是真正的”融合”。通过对齐文本空间和图像空间，AI 终于打破了感官的次元壁。

1. 引言：百闻不如一见

人类获取信息 80% 靠视觉。
如果 AI 只能读文字，它就是个瞎子博学士。
GPT-4o 的震撼之处，不仅在于它能说话，在于它能看懂你的视频，听懂你的语气。
要做到这一点，核心难题是：如何把”图像的像素”和”文本的语义”映射到同一个数学空间里？

2. 核心概念：CLIP (对齐大师)

2.1 文本与图像的罗塞塔石碑

OpenAI 发布的 CLIP (Contrastive Language-Image Pre-training) 是多模态领域的里程碑。
它不干别的，就干一件事：判断这张图和这句话是不是一对。
它爬取了互联网上 4 亿对 (图片, 文本) 数据。
通过对比学习 (Contrastive Learning)：

拉近：匹配的图文，向量距离拉近。
推远：不匹配的图文，向量距离推远。
结果是：它学会了图像和文本的通用语言。

💡 比喻：想象一个外交官。
左边是讲”像素语”的图像国，右边是讲”文本语”的文字国。
以前两国鸡同鸭讲。
CLIP 编写了一本双语词典。你给它一张”狗”的照片，它能在词典里瞬间找到单词”Dog”。

3. 技术解析：ViT (Vision Transformer)

3.1 抛弃 CNN

在 Transformer 统治 NLP 之后，Google 团队想：能不能用 Transformer 处理图像？
于是诞生了 ViT (Vision Transformer)。

3.2 图像分块 (Patchify)

Transformer 只能吃序列（Sequence）。图片是 2D 的。
ViT 的做法是：把图片切成小方块（Patch）。
比如一张 224x224 的图，切成 16x16 的小块。这就变成了 196 个小块。
这 196 个小块，就相当于 NLP 里的 196 个单词（Token）。
然后直接扔进 Transformer。

ViT 图像分块
结果证明：只要数据量够大，ViT 完爆传统的 CNN。

4. 工业实战：多模态应用

4.1 LLaVA (Large Language-and-Vision Assistant)

目前的开源多模态模型（LMM），主流架构大多参考 LLaVA。
LLaVA = LLM + CLIP ViT + Projector

Vision Encoder: 用 CLIP/ViT 把图片变成向量。
Projector: 一个简单的线性层，把图片向量”翻译”成 LLM 能懂的 Embedding 维度。
LLM: 接收（图片向量 + 用户文本），像处理纯文本一样生成回答。

4.2 推理成本

多模态推理很贵。
因为一张图片切分后，往往会产生 576 个甚至更多的 Token（相当于几百个单词）。
如果你发一张高清图，对于模型来说，可能相当于读了一篇小短文。
工程师建议：在构建应用时，如果不需要看清细节（如发票识别），可以适当压缩图片分辨率，节省 Token。

5. 总结与展望

本章总结：
- CLIP 解决了”图文对齐”的问题。
- ViT 证明了 Transformer 架构的普适性（万物皆 Token）。
- 多模态模型本质上是给 LLM 装上了眼睛（Visual Encoder）。
全书结语：
从 Scaling Law 的物理法则，到 RAG 的知识外挂，再到 Agent 的手眼通天。
大模型技术栈还在以天为单位迭代。
但这本指南中的第一性原理——压缩、向量、概率、对齐——将是你穿越周期的罗盘。
保持好奇，Keep Building.