前言

过去两年,AI 在数学解题上的进展非常显眼。

GSM8K 接近饱和,代数题表现稳定,竞赛题成绩不断刷新。很多人自然会认为:模型更大、思维链更长,数学能力就会继续提升。

因为我所做的产品,长期关注几何题,会发现一个明显现象:

大模型在几何构造题上依然非常不稳定。


在一道简单的等腰三角形证明题中,模型会写出标准思路,却忘记作辅助线,导致后续逻辑依赖一个并不存在的结构。

不是算错,而是构造错。

  • 该作角平分线却没有作
  • 该引垂线却遗漏
  • 图形看起来合理,但约束逻辑是假的
  • 生成的图无法支撑后续推理

几何问题的难点,从来不是语言理解,而是结构构造。

这也是我认真读完 MathCanvas 之后真正警觉的一件事。

它明确告诉我们:

AI for Math Geometry 的突破口,在中间结构

这篇论文做的不是视觉增强,而是把“构造行为”纳入模型推理链。

本文会做三件事:

  1. 拆解 MathCanvas 的核心架构与训练逻辑
  2. 分析它真正的技术价值
  3. 讨论为什么我认为这是未来方向


MathCanvas 的核心思路:把画图变成推理算子

MathCanvas 提出的不是简单的 Visual CoT。

它强调的是:

Intrinsic Visual Chain-of-Thought

关键在 “Intrinsic”。

传统多模态推理往往是:读图 → 写解释 → 给答案

图像是输入特征。

MathCanvas 改变的是文本推理中可以主动生成图像,图像成为后续推理的条件,模型在每一段推理后都要决定是否画图。

也就是说画图是一种可学习的策略动作。

这一点非常非常重要。

因为几何解题的核心过程是:写两步 → 卡住 → 作辅助线 → 再继续推理

MathCanvas 把这种行为建模进模型内部。



MathCanvas 的技术拆解

我看下来这篇论文真正有价值的是它的训练逻辑。

Stage I:Visual Manipulation

目标:先让模型“会构造”。

他们做了两件事:

  • 10M caption → diagram 数据
  • 5.2M step-by-step editing trajectories

重点不是画一张图,重点是“逐步编辑”。

模型必须学会构造基础结构、添加辅助线、修改图形、保持几何一致性这些行为。

这一步训练时冻结理解路径,只训练生成能力。
避免破坏原有推理能力。

Stage II:Strategic Visual-Aided Reasoning

这一阶段是核心。

模型在每一段文本生成结束后,需要预测是否输出 <vision_start>

也就是说画图行为本身成为 next-token prediction 的一部分。

模型开始学习什么时候需要构造、构造什么、构造之后如何继续推理。

损失函数结合文本 CE 与图像生成的 flow loss。

图像成为推理链的中间状态。



数据设计是它真正的壁垒

MathCanvas 构造了一套几何 primitive + relation 体系,包含:

  • 基础几何对象
  • 构造关系(角平分线、垂足、外心、切线、平行等)

通过自动合成与过滤生成大规模编辑轨迹。

这实际上等价于一个“隐式几何 DSL”,只是最终渲染为图像进行训练。

论文中的消融结果显示当没有 Edit 轨迹,性能会明显下降。

这能说明模型真正学到的是“构造节奏”。



论文的亮点价值

1️⃣ 把结构操作纳入推理链

从语言 CoT 进入结构 CoT,这是范式升级。

2️⃣ 证明中间视觉态能增强推理稳定性

在平面几何、三角、立体几何等任务上提升明显。

说明构造行为确实改变了推理模式。

3️⃣ 提供可扩展的数据生成方式

几何 primitive + relation 生成机制,这比单纯标注数据更有长期价值。

4️⃣ 不过尽管方向正确,仍存在限制

  • 图像中的约束是隐式的
  • 无法直接验证构造正确性
  • 无法导出可执行结构
  • 不便于持续编辑


为什么我认为这是未来方向

读完 MathCanvas 后,我的判断更加明确:

AI for Math Geometry 的未来在于可操作的中间结构。

视觉是一种形式,约束图是一种形式,DSL 也是一种形式。

关键不在表现形式,而在中间态是否可构造、是否可持续、是否可监控、是否可复用。



大角几何在这个方向上的位置

我正在做的 Dino-GSP(大角几何),本质是实现 自然语言 → 几何 DSL → 约束图 → 渲染 → 持续 edit 这个流程。

实现每个点线都有依赖关系、每个构造步骤可追踪、每次 edit 会更新约束图,同时也可以回滚、可以验证、可以导出。

这是一个白盒几何系统。

它和 MathCanvas 方向是对齐的,只是中间态不同:

  • MathCanvas:视觉中间态
  • Dino-GSP:可执行约束中间态

如果说 MathCanvas 证明了构造行为可以增强模型推理

那 Dino-GSP 正在尝试把构造行为变成可计算系统。



写在最后

我越来越确信未来系统会有三层:

  1. 语言规划层:语言负责思考
  2. 结构构造层:结构负责约束
  3. 可视化反馈层:可视化负责反馈

当这三层打通,AI 才真正具备几何推理能力。

MathCanvas 不是一篇分数论文,它是一个方向论文。

我做 Dino-GSP 的过程让我更清楚:

如果中间态只是图像,系统很难进入工程阶段。

如果未来 AI 在几何领域真正达到稳定可用的水平,我相信关键节点不会出现在模型规模上,而会出现在“中间结构如何表达”这个问题上。

AI for Math 的下一阶段,是从更聪明转向会构造。

而构造,决定一切。







参考资料