20 分钟 读完 (大约 2986 个字)
“最好的数据压缩算法,不是 zip,而是理解数据的结构。”
我们生活在一个高维数据爆炸的时代。
* 图像:一张 100x100 像素的小头像,如果展平,就是 10,000 维的向量。
* 文本:一段包含 512 个 token 的文本,如果用 Embedding 表示,通常是 768 维或 1536 维。
* 用户画像:一个电商用户的特征,可能包含点击历史、购买力、地理位置等几千个指标。
在这些成千上万的维度中,往往充斥着冗余(比如“出生年份”和“年龄”完全相关)和噪声(比如图片边缘的随机噪点)。
降维 (Dimensionality Reduction) 的目标很简单:去粗取精。