从顶流开源 Kimi K2-Thinking 学习:什么是推理模型?
引言:推理模型,为什么值得我们关注 在开源模型阵营中,大佬 Kimi K2 Thinking(以下简称“K2‑Thinking”)的崛起为推理模型带来了优秀学习样本。 “推理模型”到底是什么?它与我们熟悉的传统大型语言模型(LLM)有什么根本不同? 在信息爆炸、任务越来越复杂的时代,仅靠“训练好一个大模型、输入–输出”已经难以满足:比如依赖多步逻辑、实时工具调用、环境反馈循环,这些场景里传统 LLM 往往容易漂移、跳步或卡顿。 而推理模型强调:从多个角度思考分析、多步推导、根据环境变化调整路径。 在这方面,K2‑Thinking 正是一个很典型的代表:它公开了技术路线,强调“思考 + 工具调用 +长流程”能力,这为我梳理“什么是推理模型”提供了一个很棒的资料。 什么是推理模型?与传统 LLM 的关键区别 最重要的来了,推理模型到底具备哪些关键特性,能够让它在复杂任务中脱颖而出呢? 1....
为什么李飞飞说:AI 真正的进步取决于世界模型
前言最近,“人工智能之母”李飞飞发布了新产品 Marble——一个可以用一句话生成完整 3D 场景、可探索、可编辑的世界模型原型。 我花了整个周末把访谈、演示与背景研究都看完,再回头想想我过去几年在做的几何 AI、空间计算、Agent 系统……意识到一个很深的事: 世界模型不是一个功能升级,而是下一代智能的底层逻辑。 但与其说我们离 AGI 又近了一步,不如说,我们可能再一次看到“世界模型时代”的新起点。 为什么世界模型突然被重提?因为所有人都发现了一个共同的瓶颈:语言大模型无法突破“世界理解”。 它们能说、能编、能解释、能写论文…… 但一旦进入真实世界场景——空间、物体、动态、因果就频繁翻车: 看不懂遮挡 分不清前后关系 无法从二维视频推断三维结构 对物理规律毫无概念 机器人操作路线像在瞎撞 视频生成 3 秒开始“世界解体” LLM 的本质是 按语言统计模式预测文本。 而物理世界不是语言,它是空间、物体、动力学、连续性、约束和因果的组合系统。 语言模型建不出这个系统。 于是“世界模型”再次成为前沿的焦点,不是替代 LLM,而是补齐它的最重要短板...
Claude Multi-Agent 的核心经验精华(面向工程与产品)
最近读了 Claude 团队做 Research 功能的工程文章,感觉被点醒了。 多智能体并不是我们想象的“多模型乱跑”,而是一套非常讲究实战经验的工程体系。 把我觉得最值钱的点分享出来,算是备忘,也给正在做 Agent 的朋友一些灵感。 我把那些读完后想立刻拿来用的部分整理成了下面这 12 条思考。 01. 多智能体的终极价值:扩大 token = 扩大智力Claude 的团队给出的最本质 insight: 多智能体 = 安全地扩大 Token、上下文、探索路径的规模。 Token 消耗解释了 80% 的性能差异。 也就是说: 单智能体的局限是 线性推理 + 有限上下文。 多智能体通过 并行上下文窗口 → 撑大推理深度与覆盖面积 这比提升模型本身更具收益(Sonnet 3.7 → 4 不如多智能体带来的收益) 02. 最适合多智能体的任务:高并行 + 信息巨量 + 方向不确定Claude 总结多智能体真正的 sweet spot: ✔ 开放式研究 ✔ 多方向并行探索 ✔ 信息分散、来源多样 ✔ 工具链复杂 ✔ 单一 agent...
deepseek-ocr 的几何识别,真的成立吗?
最近,deepseek 又引爆了一波热度。 他们新发布的 deepseek-ocr 模型,不仅能识别文字,还号称能看懂 化学分子式、数学公式、几何图形。 对我这个正好在做几何图形识别和重绘生成的人来说,这当然是个好消息。 所以我开始了一轮针对 deepseek-ocr 几何图识别的测试。 结果嘛,只能说,方向没错,但距离真正可用,还差得远。 论文里描绘的“理想图景”在官方论文中,deepseek-ocr 展示了不少让人兴奋的例子。比如它能从图片中识别出几何图形,并输出可直接渲染的图形定义: 看起来好像 AI 真的“理解”了几何结构。 而且论文提到,它在训练中使用了带几何、化学等多模态的专用数据集,覆盖了公式与图形的双模态信息。 理论上,这意味着: 未来我们拍一张几何题图,就能直接生成结构化定义,甚至自动画出图。 听起来很美好。 我的测试结果:模型确实“看见了”,但没“理解”我选了几张相对简单的几何图形来测试,左侧为模型识别出的代码定义,右侧为渲染结果。 case 1: case 2: case 3: case 4: case 5: case...
当几何遇上 CodeAct 范式:从语言理解到可执行推理的跃迁
面向 Agent 开发者的工程与范式探索 引言:从“语言理解”到“执行推理”在我的几何 AI 项目中,模型第一次尝试“画一个等腰三角形”时,图形看似完美,实际上两边长度并不相等。 AI画得像,却没画对。 几何画图任务并非自然语言理解,而是 构造 + 约束 + 验证 的闭环过程。 传统的 “Planner + DSL + Verifier” 体系虽然可控,但在动态构造与反复验证中显得笨重。 我开始思考: 如果让 AI 不再只是描述,而是直接写出代码、执行代码、并根据结果再思考呢? 这正是 CodeAct(Executable Code Actions Elicit Better LLM Agents)所提出的核心理念。 CodeAct 不再让语言模型“说怎么做”,而是让它“自己去做”。 CodeAct 的底层机制解析让模型写代码只是表象,真正的关键是形成一个可执行的闭环思维循环。 1. ReAct 与 CodeAct 对比项 ReAct CodeAct 表达形式 Thought + Action + Observation(文本) Thought +...
突破 MoE 限制,PEER 架构如何推动超级智能的未来发展
引言:大模型架构的“困境”这两年,大模型的风头正劲。 大家都在谈 MoE(Mixture of Experts) ——它被认为是突破大模型计算瓶颈的关键方向。 通过稀疏激活,只激活少量专家节点,让计算开销成比例下降,而模型能力却可以继续增长。听上去完美无缺。 不过,真正尝试将 MoE/SMoE 架构落地时,问题随之而来。 专家池一多,计算分配就变得不平衡;某些专家被频繁调用,而其他专家几乎闲置。系统扩展起来也不再优雅,想加新领域,常常意味着“推倒重来”。 MoE 虽然高效,却还远没到“万能”的阶段。 尤其对于我们这些做 多领域智能 Agent 的人来说——客服、教育、企业知识管理——系统要在不同任务之间灵活切换、持续学习,这套架构似乎仍有点笨重。 然而,《Mixture of A Million Experts》论文带来了新的思路,打破了行业普遍认为大模型计算瓶颈无法突破的常规认知。 研究者提出了一个颠覆性的观点:专家数量并非瓶颈,而是可以突破的限制。 通过 PEER 架构(Product Key Expert...
2025/10 Review
炉要小,火要旺
AI 如何自主管理记忆?三种前沿架构详解 A-MEM / Mem-α / Mem0
引言:AI 的记忆问题我们常常说 AI 越来越像人类,但在“记忆”这一环节,现有的系统仍然远未达到真正的类人能力。 在之前的文章《Agent 如何避免记忆漂移:三大策略与工程实践》中,我们讨论了如何设计一个稳定且高效的记忆系统,并分享了三大策略帮助解决记忆一致性和长期记忆问题。 然而,这些策略多侧重于工程实践,强调了如何避免记忆的失真、漂移和过度遗忘。 今天,我们要深入探讨一个更前沿的课题:AI 如何自主决定自己的记忆? 这一问题不仅挑战了传统的记忆存储方式,也为智能系统提供了更高的灵活性和自适应能力。 通过 AI 系统根据任务需求和经验,自主更新和优化记忆,AI 可以更智能地应对复杂的任务。 在这篇文章中,我们将介绍三种突破性的记忆管理方案——A-MEM、Mem-α 和 Mem0,并讨论它们如何通过创新的记忆架构,推动 AI 系统在长期任务中的表现。 记忆管理的基本概念在深入这三种方案之前,我们先简单回顾一下 AI 记忆管理的基本概念。 通常,AI 系统的记忆可以分为两大类: 工作记忆 类似于人类的短期记忆,用于存储和处理当前任务的信息。它是即时性的,帮助...
了解和 AI 对话时真正发生了什么(你可能一直理解错了)
你可能也有过这个体验: 打开豆包、腾讯元宝 或者 ChatGPT,输入一句话,它“立刻开始打字”,像一个反应敏捷的朋友,甚至比人类还懂得如何接话、如何幽默。 在绝大多数人心里,这是“像一个人一样在聊”。 但你知道吗? 技术视角看到的完全不是“对话”,而是一套被精准触发的工业级装配流程。 你看到的是“对话感”,系统看到的是“请求处理管线”我们以最常见的一句自然问话为例: “可以帮我整理成一份可以发给团队的正式总结吗?” 你觉得它马上开始“思考并组织语言”,但实际上 它做的是一串极其严格、完全程序化的流程: ① 接收到请求 → ② 安全扫描 → ③ 构建上下文窗口 → ④ 文本切割成 Token → ⑤ 开始预测第一个 Token ⑥ 一边预测一边实时往回流(你看到的“正在输入…”)→ ⑦ (如需要)中途调用某个外部工具 → 再继续生成 这几乎和流水线制造一台 iPhone...
Agent Memory 评估测试方案:从指标体系到开源基准
给那些正在构建智能体的开发者的一份记忆体检指南 前段时间,我在调试一个几何 Agent。 这个 Agent 能自动分析几何题、推理定理、调用绘图工具,看上去颇有点“自主学习”的影子。 但问题也随之而来——它太健忘了。 有时候明明刚在上文证明过某个结论,下一步又开始怀疑它自己。 我给它接上了向量数据库、加了摘要器、甚至写了个小型索引器,但效果依旧不稳定。 那时候我开始意识到: 我们都在拼命强化 Agent 的“行动力”,却很少认真测量它的“记忆力”。 于是我决定系统地研究一下,怎么评估一个 Agent 的 Memory 模块。 今天这篇文章,写给所有已经或准备构建 Agent 工程的人。 希望帮你找到一套可落地、可复现的记忆评测方案。 为什么要测记忆?如果说大模型是 Agent 的大脑,那 Memory 就是它的长期神经系统。 没有记忆,再聪明的模型也只能“现想”而无法“积累”。 在工程实践里,这会表现为: 对话几轮后开始失忆 任务中重复提问 自相矛盾的人设 一旦上下文超过 10K,就变成另一位陌生 AI 在我构建数学 Agent...

