12 分钟 读完 (大约 1866 个字)
第 16 章:模型驱动异常检测 (Model-Based Anomaly Detection)
“如果你想把一个苹果从一堆西瓜里分出来,你不需要描述苹果长什么样,你只需要切几刀。”
前两章我们讨论了基于统计(Z-Score)和距离(KNN, LOF)的异常检测。
但在大数据时代,它们都有一个致命伤:慢。
计算距离矩阵是 $O(N^2)$ 的复杂度。如果你有 100 万条数据,计算量就是 $10^{12}$ 次。即使是现在的超算也得跑很久。
本章我们将介绍基于模型的方法,特别是工业界的神器——隔离森林 (Isolation Forest)。它不计算距离,而是通过“随机切割”来快速锁定异常。它