信息展示

发表于2025-11-21

引言：推理模型，为什么值得我们关注在开源模型阵营中，大佬 Kimi K2 Thinking（以下简称“K2‑Thinking”）的崛起为推理模型带来了优秀学习样本。 “推理模型”到底是什么？它与我们熟悉的传统大型语言模型（LLM）有什么根本不同？在信息爆炸、任务越来越复杂的时代，仅靠“训练好一个大模型、输入–输出”已经难以满足：比如依赖多步逻辑、实时工具调用、环境反馈循环，这些场景里传统 LLM 往往容易漂移、跳步或卡顿。而推理模型强调：从多个角度思考分析、多步推导、根据环境变化调整路径。在这方面，K2‑Thinking 正是一个很典型的代表：它公开了技术路线，强调“思考 + 工具调用 +长流程”能力，这为我梳理“什么是推理模型”提供了一个很棒的资料。什么是推理模型？与传统 LLM 的关键区别最重要的来了，推理模型到底具备哪些关键特性，能够让它在复杂任务中脱颖而出呢？ 1....

为什么李飞飞说：AI 真正的进步取决于世界模型

发表于2025-11-19

前言最近，“人工智能之母”李飞飞发布了新产品 Marble——一个可以用一句话生成完整 3D 场景、可探索、可编辑的世界模型原型。我花了整个周末把访谈、演示与背景研究都看完，再回头想想我过去几年在做的几何 AI、空间计算、Agent 系统……意识到一个很深的事：世界模型不是一个功能升级，而是下一代智能的底层逻辑。但与其说我们离 AGI 又近了一步，不如说，我们可能再一次看到“世界模型时代”的新起点。为什么世界模型突然被重提？因为所有人都发现了一个共同的瓶颈：语言大模型无法突破“世界理解”。它们能说、能编、能解释、能写论文…… 但一旦进入真实世界场景——空间、物体、动态、因果就频繁翻车：看不懂遮挡分不清前后关系无法从二维视频推断三维结构对物理规律毫无概念机器人操作路线像在瞎撞视频生成 3 秒开始“世界解体” LLM 的本质是按语言统计模式预测文本。而物理世界不是语言，它是空间、物体、动力学、连续性、约束和因果的组合系统。语言模型建不出这个系统。于是“世界模型”再次成为前沿的焦点，不是替代 LLM，而是补齐它的最重要短板...

Claude Multi-Agent 的核心经验精华（面向工程与产品）

发表于2025-11-14

最近读了 Claude 团队做 Research 功能的工程文章，感觉被点醒了。多智能体并不是我们想象的“多模型乱跑”，而是一套非常讲究实战经验的工程体系。把我觉得最值钱的点分享出来，算是备忘，也给正在做 Agent 的朋友一些灵感。我把那些读完后想立刻拿来用的部分整理成了下面这 12 条思考。 01. 多智能体的终极价值：扩大 token = 扩大智力Claude 的团队给出的最本质 insight：多智能体 = 安全地扩大 Token、上下文、探索路径的规模。 Token 消耗解释了 80% 的性能差异。也就是说：单智能体的局限是线性推理 + 有限上下文。多智能体通过并行上下文窗口 → 撑大推理深度与覆盖面积这比提升模型本身更具收益（Sonnet 3.7 → 4 不如多智能体带来的收益） 02. 最适合多智能体的任务：高并行 + 信息巨量 + 方向不确定Claude 总结多智能体真正的 sweet spot： ✔ 开放式研究 ✔ 多方向并行探索 ✔ 信息分散、来源多样 ✔ 工具链复杂 ✔ 单一 agent...

deepseek-ocr 的几何识别，真的成立吗？

发表于2025-11-12

最近，deepseek 又引爆了一波热度。他们新发布的 deepseek-ocr 模型，不仅能识别文字，还号称能看懂化学分子式、数学公式、几何图形。对我这个正好在做几何图形识别和重绘生成的人来说，这当然是个好消息。所以我开始了一轮针对 deepseek-ocr 几何图识别的测试。结果嘛，只能说，方向没错，但距离真正可用，还差得远。论文里描绘的“理想图景”在官方论文中，deepseek-ocr 展示了不少让人兴奋的例子。比如它能从图片中识别出几何图形，并输出可直接渲染的图形定义：看起来好像 AI 真的“理解”了几何结构。而且论文提到，它在训练中使用了带几何、化学等多模态的专用数据集，覆盖了公式与图形的双模态信息。理论上，这意味着：未来我们拍一张几何题图，就能直接生成结构化定义，甚至自动画出图。听起来很美好。我的测试结果：模型确实“看见了”，但没“理解”我选了几张相对简单的几何图形来测试，左侧为模型识别出的代码定义，右侧为渲染结果。 case 1: case 2: case 3: case 4: case 5: case...

当几何遇上 CodeAct 范式：从语言理解到可执行推理的跃迁

发表于2025-11-07

面向 Agent 开发者的工程与范式探索引言：从“语言理解”到“执行推理”在我的几何 AI 项目中，模型第一次尝试“画一个等腰三角形”时，图形看似完美，实际上两边长度并不相等。 AI画得像，却没画对。几何画图任务并非自然语言理解，而是构造 + 约束 + 验证的闭环过程。传统的 “Planner + DSL + Verifier” 体系虽然可控，但在动态构造与反复验证中显得笨重。我开始思考：如果让 AI 不再只是描述，而是直接写出代码、执行代码、并根据结果再思考呢？这正是 CodeAct（Executable Code Actions Elicit Better LLM Agents）所提出的核心理念。 CodeAct 不再让语言模型“说怎么做”，而是让它“自己去做”。 CodeAct 的底层机制解析让模型写代码只是表象，真正的关键是形成一个可执行的闭环思维循环。 1. ReAct 与 CodeAct 对比项 ReAct CodeAct 表达形式 Thought + Action + Observation（文本） Thought +...

突破 MoE 限制，PEER 架构如何推动超级智能的未来发展

发表于2025-11-05

引言：大模型架构的“困境”这两年，大模型的风头正劲。大家都在谈 MoE（Mixture of Experts） ——它被认为是突破大模型计算瓶颈的关键方向。通过稀疏激活，只激活少量专家节点，让计算开销成比例下降，而模型能力却可以继续增长。听上去完美无缺。不过，真正尝试将 MoE/SMoE 架构落地时，问题随之而来。专家池一多，计算分配就变得不平衡；某些专家被频繁调用，而其他专家几乎闲置。系统扩展起来也不再优雅，想加新领域，常常意味着“推倒重来”。 MoE 虽然高效，却还远没到“万能”的阶段。尤其对于我们这些做多领域智能 Agent 的人来说——客服、教育、企业知识管理——系统要在不同任务之间灵活切换、持续学习，这套架构似乎仍有点笨重。然而，《Mixture of A Million Experts》论文带来了新的思路，打破了行业普遍认为大模型计算瓶颈无法突破的常规认知。研究者提出了一个颠覆性的观点：专家数量并非瓶颈，而是可以突破的限制。通过 PEER 架构（Product Key Expert...

2025/10 Review

发表于2025-11-01

炉要小，火要旺

AI 如何自主管理记忆？三种前沿架构详解 A-MEM / Mem-α / Mem0

发表于2025-10-31

引言：AI 的记忆问题我们常常说 AI 越来越像人类，但在“记忆”这一环节，现有的系统仍然远未达到真正的类人能力。在之前的文章《Agent 如何避免记忆漂移：三大策略与工程实践》中，我们讨论了如何设计一个稳定且高效的记忆系统，并分享了三大策略帮助解决记忆一致性和长期记忆问题。然而，这些策略多侧重于工程实践，强调了如何避免记忆的失真、漂移和过度遗忘。今天，我们要深入探讨一个更前沿的课题：AI 如何自主决定自己的记忆？这一问题不仅挑战了传统的记忆存储方式，也为智能系统提供了更高的灵活性和自适应能力。通过 AI 系统根据任务需求和经验，自主更新和优化记忆，AI 可以更智能地应对复杂的任务。在这篇文章中，我们将介绍三种突破性的记忆管理方案——A-MEM、Mem-α 和 Mem0，并讨论它们如何通过创新的记忆架构，推动 AI 系统在长期任务中的表现。记忆管理的基本概念在深入这三种方案之前，我们先简单回顾一下 AI 记忆管理的基本概念。通常，AI 系统的记忆可以分为两大类：工作记忆类似于人类的短期记忆，用于存储和处理当前任务的信息。它是即时性的，帮助...

了解和 AI 对话时真正发生了什么（你可能一直理解错了）

发表于2025-10-29

你可能也有过这个体验：打开豆包、腾讯元宝或者 ChatGPT，输入一句话，它“立刻开始打字”，像一个反应敏捷的朋友，甚至比人类还懂得如何接话、如何幽默。在绝大多数人心里，这是“像一个人一样在聊”。但你知道吗？技术视角看到的完全不是“对话”，而是一套被精准触发的工业级装配流程。你看到的是“对话感”，系统看到的是“请求处理管线”我们以最常见的一句自然问话为例： “可以帮我整理成一份可以发给团队的正式总结吗？” 你觉得它马上开始“思考并组织语言”，但实际上它做的是一串极其严格、完全程序化的流程： ① 接收到请求 → ② 安全扫描 → ③ 构建上下文窗口 → ④ 文本切割成 Token → ⑤ 开始预测第一个 Token ⑥ 一边预测一边实时往回流（你看到的“正在输入…”）→ ⑦ （如需要）中途调用某个外部工具 → 再继续生成这几乎和流水线制造一台 iPhone...

Agent Memory 评估测试方案：从指标体系到开源基准

发表于2025-10-24

给那些正在构建智能体的开发者的一份记忆体检指南前段时间，我在调试一个几何 Agent。这个 Agent 能自动分析几何题、推理定理、调用绘图工具，看上去颇有点“自主学习”的影子。但问题也随之而来——它太健忘了。有时候明明刚在上文证明过某个结论，下一步又开始怀疑它自己。我给它接上了向量数据库、加了摘要器、甚至写了个小型索引器，但效果依旧不稳定。那时候我开始意识到：我们都在拼命强化 Agent 的“行动力”，却很少认真测量它的“记忆力”。于是我决定系统地研究一下，怎么评估一个 Agent 的 Memory 模块。今天这篇文章，写给所有已经或准备构建 Agent 工程的人。希望帮你找到一套可落地、可复现的记忆评测方案。为什么要测记忆？如果说大模型是 Agent 的大脑，那 Memory 就是它的长期神经系统。没有记忆，再聪明的模型也只能“现想”而无法“积累”。在工程实践里，这会表现为：对话几轮后开始失忆任务中重复提问自相矛盾的人设一旦上下文超过 10K，就变成另一位陌生 AI 在我构建数学 Agent...