第 11 章：多模态视界：CLIP 与 ViT

核心观点：多模态（Multimodal）不是简单的”拼凑”，而是真正的”融合”。通过对齐文本空间和图像空间，AI 终于打破了感官的次元壁。 1. 引言：百闻不如一见人类获取信息 80% 靠视觉。如果 AI 只能读文字，它就是个瞎子博学士。 GPT-4o 的震撼之处，不仅在于它能说话，在于它能看懂你的视频，听懂你的语气。要做到这一点，核心难题是：如何把”图像的像素”和”文本的语义”映射到同一个数学空间里？ 2. 核心概念：CLIP (对齐大师) 2.1 文本与图像的罗塞塔石碑 OpenAI 发布的 CLIP (Contrastive Language-Image Pre-trainin

2025-12-24

经验心得/AI

6 分钟读完 (大约 942 个字)

第 10 章：模型微调实战：LoRA 与 SFT

核心观点：如果通用大模型是”大学毕业生”，微调（Fine-tuning）就是”岗前培训”。LoRA 技术的出现，让原本需要几百万美元的微调成本，降低到了几百块人民币。 1. 引言：通才 vs 专才 GPT-4 什么都懂，但在写你们公司的”内部公文格式”时，可能总是写不对。 Prompt 工程可以解决一部分问题，但当规则太复杂、或者需要学习大量私有知识（Domain Knowledge）时，Prompt 就塞不下了。这时你需要 SFT (Supervised Fine-Tuning，有监督微调)。你要给模型看 1000 份完美的内部公文，让它内化这种风格。 2. 核心概念：LoRA (低

2025-12-24

经验心得/AI

9 分钟读完 (大约 1290 个字)

第 09 章：交互革命：A2UI 与生成式界面

核心观点：最好的界面是”没有界面”。Generative UI (生成式界面) 意味着 UI 不再是开发者预设死的静态页面，而是 AI 根据用户当下的需求，实时”画”出来的动态组件。 1. 引言：从 GUI 到 LUI 再到 GenUI * GUI (Graphical UI)：点图标，点菜单。用户适应机器。 * LUI (Language UI)：ChatGPT 对话框。机器适应用户，但交互效率低（纯文字太慢）。 * GenUI (Generative UI)：你在聊天时，AI 突然给你变出一个”机票预订卡片”，上面有按钮、滑块、地图。既有自然语言的灵活性，又有图形界面的高效

2025-12-24

经验心得/AI

6 分钟读完 (大约 896 个字)

第 08 章：开发者进化：Agentic CLI 与智能 IDE

核心观点：IDE 正在从”文本编辑器”进化为”结对编程伙伴”。未来的编程，是人类负责 Intent (意图)，AI 负责 Implementation (实现)。 1. 引言：从 Vim 到 Cursor 几十年来，程序员的工作流基本没变：思考 -> 打字 -> 编译 -> 报错 -> 修改。我们花了大量时间在“翻译”上：把脑子里的逻辑翻译成符合语法的 ASCII 码。 Agentic IDE (代理式 IDE) 的出现，试图消除这个翻译过程。你不再是孤军奋战，你旁边坐着一个看过 Github 上所有代码的超级专家。 2. 核心概念：Context Awareness (上下文感知)

2025-12-24

经验心得/AI

9 分钟读完 (大约 1301 个字)

第 07 章：连接协议与生态：MCP 标准解析

核心观点：Agent 能力进化的两块拼图。MCP 是连接世界的”硬件接口”，解决了工具的互通性；Skills 是指导行动的”软件SOP”，解决了复杂任务的流程化。 1. 引言：从”连得上”到”用得好” 在 Agent 的世界里，长期存在两个痛点： 1. 数据孤岛（连接难）：你的 Agent 连不上本地数据库，也读不到 Notion 文档。 2. 上下文爆炸（认知难）：为了教 Agent 办成一件事，你要把几万字的工具文档塞进它的上下文，Token 瞬间耗尽。 MCP (Model Context Protocol) 的出现解决了第一个问题。而近期 Anthropic

第 11 章：多模态视界：CLIP 与 ViT

第 10 章：模型微调实战：LoRA 与 SFT

第 09 章：交互革命：A2UI 与生成式界面

第 08 章：开发者进化：Agentic CLI 与智能 IDE

第 07 章：连接协议与生态：MCP 标准解析

分类

标签

最新文章

Your browser is out-of-date!