MathCanvas 深度技术解读：几何推理新范式

前言

过去两年，AI 在数学解题上的进展非常显眼。

GSM8K 接近饱和，代数题表现稳定，竞赛题成绩不断刷新。很多人自然会认为：模型更大、思维链更长，数学能力就会继续提升。

因为我所做的产品，长期关注几何题，会发现一个明显现象：

大模型在几何构造题上依然非常不稳定。

在一道简单的等腰三角形证明题中，模型会写出标准思路，却忘记作辅助线，导致后续逻辑依赖一个并不存在的结构。

不是算错，而是构造错。

该作角平分线却没有作
该引垂线却遗漏
图形看起来合理，但约束逻辑是假的
生成的图无法支撑后续推理

几何问题的难点，从来不是语言理解，而是结构构造。

这也是我认真读完 MathCanvas 之后真正警觉的一件事。

它明确告诉我们：

AI for Math Geometry 的突破口，在中间结构。

这篇论文做的不是视觉增强，而是把“构造行为”纳入模型推理链。

本文会做三件事：

拆解 MathCanvas 的核心架构与训练逻辑
分析它真正的技术价值
讨论为什么我认为这是未来方向

MathCanvas 的核心思路：把画图变成推理算子

MathCanvas 提出的不是简单的 Visual CoT。

它强调的是：

Intrinsic Visual Chain-of-Thought

关键在 “Intrinsic”。

传统多模态推理往往是：读图 → 写解释 → 给答案

图像是输入特征。

MathCanvas 改变的是文本推理中可以主动生成图像，图像成为后续推理的条件，模型在每一段推理后都要决定是否画图。

也就是说画图是一种可学习的策略动作。

这一点非常非常重要。

因为几何解题的核心过程是：写两步 → 卡住 → 作辅助线 → 再继续推理

MathCanvas 把这种行为建模进模型内部。

MathCanvas 的技术拆解

我看下来这篇论文真正有价值的是它的训练逻辑。

Stage I：Visual Manipulation

目标：先让模型“会构造”。

他们做了两件事：

10M caption → diagram 数据
5.2M step-by-step editing trajectories

重点不是画一张图，重点是“逐步编辑”。

模型必须学会构造基础结构、添加辅助线、修改图形、保持几何一致性这些行为。

这一步训练时冻结理解路径，只训练生成能力。
避免破坏原有推理能力。

Stage II：Strategic Visual-Aided Reasoning

这一阶段是核心。

模型在每一段文本生成结束后，需要预测是否输出 <vision_start>。

也就是说画图行为本身成为 next-token prediction 的一部分。

模型开始学习什么时候需要构造、构造什么、构造之后如何继续推理。

损失函数结合文本 CE 与图像生成的 flow loss。

图像成为推理链的中间状态。

数据设计是它真正的壁垒

MathCanvas 构造了一套几何 primitive + relation 体系，包含：

基础几何对象
构造关系（角平分线、垂足、外心、切线、平行等）

通过自动合成与过滤生成大规模编辑轨迹。

这实际上等价于一个“隐式几何 DSL”，只是最终渲染为图像进行训练。

论文中的消融结果显示当没有 Edit 轨迹，性能会明显下降。

这能说明模型真正学到的是“构造节奏”。

论文的亮点价值

1️⃣ 把结构操作纳入推理链

从语言 CoT 进入结构 CoT，这是范式升级。

2️⃣ 证明中间视觉态能增强推理稳定性

在平面几何、三角、立体几何等任务上提升明显。

说明构造行为确实改变了推理模式。

3️⃣ 提供可扩展的数据生成方式

几何 primitive + relation 生成机制，这比单纯标注数据更有长期价值。

4️⃣ 不过尽管方向正确，仍存在限制

图像中的约束是隐式的
无法直接验证构造正确性
无法导出可执行结构
不便于持续编辑

为什么我认为这是未来方向

读完 MathCanvas 后，我的判断更加明确：

AI for Math Geometry 的未来在于可操作的中间结构。

视觉是一种形式，约束图是一种形式，DSL 也是一种形式。

关键不在表现形式，而在中间态是否可构造、是否可持续、是否可监控、是否可复用。

大角几何在这个方向上的位置

我正在做的 Dino-GSP（大角几何），本质是实现 自然语言 → 几何 DSL → 约束图 → 渲染 → 持续 edit 这个流程。

实现每个点线都有依赖关系、每个构造步骤可追踪、每次 edit 会更新约束图，同时也可以回滚、可以验证、可以导出。

这是一个白盒几何系统。

它和 MathCanvas 方向是对齐的，只是中间态不同：

MathCanvas：视觉中间态
Dino-GSP：可执行约束中间态

如果说 MathCanvas 证明了构造行为可以增强模型推理

那 Dino-GSP 正在尝试把构造行为变成可计算系统。

写在最后

我越来越确信未来系统会有三层：

语言规划层：语言负责思考
结构构造层：结构负责约束
可视化反馈层：可视化负责反馈

当这三层打通，AI 才真正具备几何推理能力。

MathCanvas 不是一篇分数论文，它是一个方向论文。

我做 Dino-GSP 的过程让我更清楚：

如果中间态只是图像，系统很难进入工程阶段。

如果未来 AI 在几何领域真正达到稳定可用的水平，我相信关键节点不会出现在模型规模上，而会出现在“中间结构如何表达”这个问题上。

AI for Math 的下一阶段，是从更聪明转向会构造。

而构造，决定一切。