6 分钟 读完 (大约 970 个字)
核心观点:多模态(Multimodal)不是简单的”拼凑”,而是真正的”融合”。通过对齐文本空间和图像空间,AI 终于打破了感官的次元壁。
1. 引言:百闻不如一见
人类获取信息 80% 靠视觉。
如果 AI 只能读文字,它就是个瞎子博学士。
GPT-4o 的震撼之处,不仅在于它能说话,在于它能看懂你的视频,听懂你的语气。
要做到这一点,核心难题是:如何把”图像的像素”和”文本的语义”映射到同一个数学空间里?
2. 核心概念:CLIP (对齐大师)
2.1 文本与图像的罗塞塔石碑
OpenAI 发布的 CLIP (Contrastive Language-Image Pre-trainin