7 分钟 读完 (大约 1046 个字)
核心观点:在 AI 的眼里,万物皆是坐标。RAG(检索增强生成)的本质,就是把用户的自然语言问题,映射到知识库的坐标系中,寻找最近的”邻居”。
1. 引言:计算机不懂中文,它只懂数学
你问 AI:”苹果怎么卖?”
在计算机底层,它根本不知道”苹果”是水果还是手机。
但如果你告诉它:”苹果”的坐标是 [0.8, 0.2],”香蕉”的坐标是 [0.85, 0.1],”卡车”的坐标是 [-0.5, 0.9]。
它会立刻计算出:苹果和香蕉很近,离卡车很远。
这就是 Embedding(向量化) —— 它是 RAG 系统地基中的地基。
2. 核心概念:Embedding Space (向量空间)
2