Agent Runtime 上线后的三条生命线:观测、降级与恢复
Agent Runtime 的生产可靠性不能只靠框架能力,还需要围绕观测、降级和恢复建立工程闭环。本文从 traces、状态快照、工具调用、失败预算、人工接管和回放机制出发,拆解 Agent 系统上线后的稳定性设计。
Anthropic Managed Agents: 2026 Agent Harness Architecture for Production AI Agents
Anthropic Managed Agents 与 Agent Harness 架构拆解,聚焦生产级 Agent 如何通过托管运行时、工具边界、状态管理、可观测性和人工接管机制提升可靠性。
AHE 深度解析:Coding Agent 的 Harness 如何自动演化
AHE 是一个面向 Coding Agent 的 harness 自动演化框架。通过可观测的运行证据,持续改进 prompt、tools、middleware、memory 等执行结构。核心流程包括评测、诊断、修改、验证和回滚,让 Agent 的工程壳层持续迭代。luhuidev技术拆解。
如何通过多 Agent 分工完成学术绘图?机制拆解
拆解 PaperBanana 学术绘图流程中的多 Agent 分工机制,聚焦 Retriever、Planner、Stylist、Visualizer 与 Critic 如何协作生成论文方法图。
DSPy 教程:为什么 Signature 比直接写 Prompt 更容易做自动优化
拆解 DSPy 的 Signature、Module 与 Optimizer,解释为什么 DSPy 比直接写 Prompt 更容易做自动优化,适合关注提示词工程、LLM 工作流、AI 内容生成与教育 AI 的团队。
拆解 PaperBanana:AI 如何协作生成学术方法图
拆解 PaperBanana 的 Retriever、Planner、Stylist、Visualizer 与 Critic 五个 Agent,系统梳理 AI 如何协作生成学术方法图,适合关注论文配图、学术写作与科研工作流的中文读者。
AlphaGeometry DSL 教程:Google 几何构造语言、defs.txt 与 Predicate 详解
系统拆解 AlphaGeometry DSL 的问题格式、defs.txt action 定义、predicate 语义、rules.txt 推理规则与构造流程,适合做几何求解器、数据生成与 AlphaGeometry 复现。
AlphaGeometry2 深度解析:Google AI 如何解决 IMO 几何题?
拆解 AlphaGeometry2 如何把几何推理、辅助线搜索与符号证明结合起来解决 IMO 几何题,并总结对数学 AI 工程的启发。
2026/02 Review
Demo, Don't Memo
Google DeepMind Aletheia:完全自主研究的数学 Agent 解读
前言Google DeepMind Aletheia 在 IMO-ProofBench Advanced 数据集中以 ~91.9% 成绩遥遥领先。 针对美国数学奥林匹克 2025 难题表现也远超基线系统。在内部更难的 benchmark 上表现超过旧版推理模型,虽仍有差异但已领先过去基线。 最近关于 Aletheia 的讨论,有点熟悉的味道。 标题里写着“AI 数学家”,评论区在问“是不是要取代数学家了?是不是已经能自动搞科研了?” 我认真研究了下 Aletheia 的论文和数据集,把我学习到的关键架构和落地价值做了梳理,也正是本篇文章的内容。 一、DeepMind Aletheia 的来时路把时间线拉长看,会发现 Google DeepMind 在这个方向上已经蓄力很久了。 在 2016 年推出 AlphaGo,就已经开始研究一个问题:如何在一个规则完备、评价函数明确的系统里,优化决策路径? 棋盘是离散的,胜负可判定,搜索空间巨大但结构清晰,那是一种理想的策略优化环境。 DeepMind 那套“神经网络 +...

