22 分钟 读完 (大约 3345 个字)
“在拥挤的城市里,社区是由密度定义的,而不是由圆心定义的。”
想象一下,你站在上海的人民广场或者纽约的时代广场。你怎么判断哪些人是一伙的?
K-Means 算法像是一个拿着圆规的管理员。它假设大家都是以某个中心站成一个个圆圈。如果一群人排成了长长的贪吃蛇队伍(非凸形状),或者环绕着喷泉站成了一个甜甜圈形状,K-Means 就彻底傻眼了——它会强行把“贪吃蛇”切成几段,或者把“甜甜圈”切成几块蛋糕。
但在现实世界中,数据的形状千奇百怪。有些客户群体像细长的河流(比如随着时间推移的特定行为模式),有些像紧密的蜂巢。
本章我们将介绍 DBSCAN,一种基于密度的聚类算法。它不需要你预先告诉它