20 分钟 读完 (大约 3053 个字)
第 08 章:概率模型聚类 (Probabilistic Clustering)
“上帝不掷骰子,但数据科学家掷。” —— 改编自爱因斯坦
之前的聚类算法(K-Means, DBSCAN)都有一个共同特征:硬聚类 (Hard Clustering)。
一个样本要么属于 A,要么属于 B,没有中间地带。
这就像把人简单分为“好人”和“坏人”,丢失了人性的复杂灰度。
在实际的文本分析场景中,我们经常遇到这种情况:
用户工单:”快递员态度太差了,而且还不给我送上楼,我要退款!”
这句话既涉及【物流服务】,又涉及【退款流程】。如果硬把它归为某一类,就会丢失另一半信息。
本章我们将介绍 高斯混合