如何通过多 Agent 分工完成学术绘图?机制拆解
拆解 PaperBanana 学术绘图流程中的多 Agent 分工机制,聚焦 Retriever、Planner、Stylist、Visualizer 与 Critic 如何协作生成论文方法图。
DSPy 教程:为什么 Signature 比直接写 Prompt 更容易做自动优化
拆解 DSPy 的 Signature、Module 与 Optimizer,解释为什么 DSPy 比直接写 Prompt 更容易做自动优化,适合关注提示词工程、LLM 工作流、AI 内容生成与教育 AI 的团队。
拆解 PaperBanana:AI 如何协作生成学术方法图
拆解 PaperBanana 的 Retriever、Planner、Stylist、Visualizer 与 Critic 五个 Agent,系统梳理 AI 如何协作生成学术方法图,适合关注论文配图、学术写作与科研工作流的中文读者。
AlphaGeometry DSL 教程:Google 几何构造语言、defs.txt 与 Predicate 详解
系统拆解 AlphaGeometry DSL 的问题格式、defs.txt action 定义、predicate 语义、rules.txt 推理规则与构造流程,适合做几何求解器、数据生成与 AlphaGeometry 复现。
AlphaGeometry2 深度解析:Google AI 如何解决 IMO 几何题?
拆解 AlphaGeometry2 如何把几何推理、辅助线搜索与符号证明结合起来解决 IMO 几何题,并总结对数学 AI 工程的启发。
2026/02 Review
Demo, Don't Memo
Google DeepMind Aletheia:完全自主研究的数学 Agent 解读
前言Google DeepMind Aletheia 在 IMO-ProofBench Advanced 数据集中以 ~91.9% 成绩遥遥领先。 针对美国数学奥林匹克 2025 难题表现也远超基线系统。在内部更难的 benchmark 上表现超过旧版推理模型,虽仍有差异但已领先过去基线。 最近关于 Aletheia 的讨论,有点熟悉的味道。 标题里写着“AI 数学家”,评论区在问“是不是要取代数学家了?是不是已经能自动搞科研了?” 我认真研究了下 Aletheia 的论文和数据集,把我学习到的关键架构和落地价值做了梳理,也正是本篇文章的内容。 一、DeepMind Aletheia 的来时路把时间线拉长看,会发现 Google DeepMind 在这个方向上已经蓄力很久了。 在 2016 年推出 AlphaGo,就已经开始研究一个问题:如何在一个规则完备、评价函数明确的系统里,优化决策路径? 棋盘是离散的,胜负可判定,搜索空间巨大但结构清晰,那是一种理想的策略优化环境。 DeepMind 那套“神经网络 +...
HKU CodePlot-CoT 深度解析:视觉推理还是几何推理?
前言上一篇写 MathCanvas 深度解析 的时候,我的总结观点是:大模型在几何上不稳定,并不是因为看不懂图,而是因为没有稳定的中间结构可以操作。 一些研究工作开始让模型画出来再想。 比如 MathCanvas 的做法,让模型在内部生成草图,再基于草图推理。 写完那篇后,有读者问我: 既然视觉中间步骤这么重要,为什么不直接让模型把图真的画出来? 找了下相关的研究,果然有,看到 HKU 的 CodePlot-CoT,他们就是这么做了。 模型不再“脑补”辅助线,而是写 python matplotlib,把辅助线真的画出来,再继续解题。 听起来非常合理吧,如果视觉推理不稳定,那就给模型一个可执行的视觉世界。 但新的问题也随之出现: 当模型开始“写图形代码”时,它到底是在进行几何推理,还是只是在一个具体坐标实例上做数值验证? 要回答这个问题,得先看论文到底在解决什么。 论文真正要解决的问题CodePlot-CoT...
AI 与数学的融合:技术路径、应用前沿与未来展望(2026 版)
前言数学,长期以来被视为人工智能最难攻克的高地之一。 它高度形式化、符号密集、推理链条漫长,对中间过程的正确性有极高要求——这与大模型擅长的“流畅语言生成”之间,天然存在张力。 也正因为如此,AI 在数学上的每一次实质性突破,往往都不是多答对几道题,而是一次推理范式与系统架构的跃迁。 过去两年里,“AI for Math”从热点概念逐步走向工程现实: 一边是竞赛分数不断被刷新,另一边则是对评测失真、数据污染、不可验证推理的反思不断加深。 本文尝试站在一个长期做教育产品、也深度参与 AI 工程落地的开发者视角,系统梳理当前的阶段下: 主流数学基准的真实可信度发生了哪些变化 大模型数学能力的真实的分层现状 架构型解题系统如何取代单模型刷题 以及哪些方向,才真的值得产品与研究投入 如果你正在做数学相关的 AI 产品,这篇文章就是为你写的。 一、大模型的数学能力:从刷题能力到结构能力1. 基准测试的真实演进早期数学能力评测,基本围绕 GSM8K / MATH / AIME 展开。但到 2025...
2026/01 Review
在分寸之间,见天地之广大


