第 11 章：多模态视界：CLIP 与 ViT

核心观点：多模态（Multimodal）不是简单的”拼凑”，而是真正的”融合”。通过对齐文本空间和图像空间，AI 终于打破了感官的次元壁。 1. 引言：百闻不如一见人类获取信息 80% 靠视觉。如果 AI 只能读文字，它就是个瞎子博学士。 GPT-4o 的震撼之处，不仅在于它能说话，在于它能看懂你的视频，听懂你的语气。要做到这一点，核心难题是：如何把”图像的像素”和”文本的语义”映射到同一个数学空间里？ 2. 核心概念：CLIP (对齐大师) 2.1 文本与图像的罗塞塔石碑 OpenAI 发布的 CLIP (Contrastive Language-Image Pre-trainin