7 分钟 读完 (大约 1035 个字)
“算法只是冰山一角,工程才是水面下的巨兽。”
恭喜你,你已经掌握了无监督学习的所有核心算法。
但在实际工作中,写出算法代码可能只占 10% 的时间。
剩下的 90% 时间,你在处理:数据管道、异常恢复、性能优化、成本控制。
本章将以一个典型的文本分析系统为例,剖析工业级数据挖掘系统的架构设计。
1. 核心概念:批处理 vs 流处理
1.1 批处理 (Batch Processing)
* 模式:T+1。每天凌晨把昨天的数据全量跑一遍。
* 适用:Embedding, KMeans, LLM 总结。这些算法很重,没法实时跑。
* 常见选择:文本分析系统通常采用批处理。因为”风险挖