MathCanvas 深度技术解读:几何推理新范式
前言
过去两年,AI 在数学解题上的进展非常显眼。
GSM8K 接近饱和,代数题表现稳定,竞赛题成绩不断刷新。很多人自然会认为:模型更大、思维链更长,数学能力就会继续提升。
因为我所做的产品,长期关注几何题,会发现一个明显现象:
大模型在几何构造题上依然非常不稳定。
在一道简单的等腰三角形证明题中,模型会写出标准思路,却忘记作辅助线,导致后续逻辑依赖一个并不存在的结构。
不是算错,而是构造错。
- 该作角平分线却没有作
- 该引垂线却遗漏
- 图形看起来合理,但约束逻辑是假的
- 生成的图无法支撑后续推理
几何问题的难点,从来不是语言理解,而是结构构造。
这也是我认真读完 MathCanvas 之后真正警觉的一件事。
它明确告诉我们:
AI for Math Geometry 的突破口,在中间结构。
这篇论文做的不是视觉增强,而是把“构造行为”纳入模型推理链。
本文会做三件事:
- 拆解 MathCanvas 的核心架构与训练逻辑
- 分析它真正的技术价值
- 讨论为什么我认为这是未来方向
MathCanvas 的核心思路:把画图变成推理算子
MathCanvas 提出的不是简单的 Visual CoT。
它强调的是:
Intrinsic Visual Chain-of-Thought
关键在 “Intrinsic”。
传统多模态推理往往是:读图 → 写解释 → 给答案
图像是输入特征。
MathCanvas 改变的是文本推理中可以主动生成图像,图像成为后续推理的条件,模型在每一段推理后都要决定是否画图。
也就是说画图是一种可学习的策略动作。
这一点非常非常重要。
因为几何解题的核心过程是:写两步 → 卡住 → 作辅助线 → 再继续推理
MathCanvas 把这种行为建模进模型内部。
MathCanvas 的技术拆解
我看下来这篇论文真正有价值的是它的训练逻辑。
Stage I:Visual Manipulation
目标:先让模型“会构造”。
他们做了两件事:
- 10M caption → diagram 数据
- 5.2M step-by-step editing trajectories
重点不是画一张图,重点是“逐步编辑”。
模型必须学会构造基础结构、添加辅助线、修改图形、保持几何一致性这些行为。
这一步训练时冻结理解路径,只训练生成能力。
避免破坏原有推理能力。
Stage II:Strategic Visual-Aided Reasoning
这一阶段是核心。
模型在每一段文本生成结束后,需要预测是否输出 <vision_start>。
也就是说画图行为本身成为 next-token prediction 的一部分。
模型开始学习什么时候需要构造、构造什么、构造之后如何继续推理。
损失函数结合文本 CE 与图像生成的 flow loss。
图像成为推理链的中间状态。
数据设计是它真正的壁垒
MathCanvas 构造了一套几何 primitive + relation 体系,包含:
- 基础几何对象
- 构造关系(角平分线、垂足、外心、切线、平行等)
通过自动合成与过滤生成大规模编辑轨迹。
这实际上等价于一个“隐式几何 DSL”,只是最终渲染为图像进行训练。
论文中的消融结果显示当没有 Edit 轨迹,性能会明显下降。
这能说明模型真正学到的是“构造节奏”。
论文的亮点价值
1️⃣ 把结构操作纳入推理链
从语言 CoT 进入结构 CoT,这是范式升级。
2️⃣ 证明中间视觉态能增强推理稳定性
在平面几何、三角、立体几何等任务上提升明显。
说明构造行为确实改变了推理模式。
3️⃣ 提供可扩展的数据生成方式
几何 primitive + relation 生成机制,这比单纯标注数据更有长期价值。
4️⃣ 不过尽管方向正确,仍存在限制
- 图像中的约束是隐式的
- 无法直接验证构造正确性
- 无法导出可执行结构
- 不便于持续编辑
为什么我认为这是未来方向
读完 MathCanvas 后,我的判断更加明确:
AI for Math Geometry 的未来在于可操作的中间结构。
视觉是一种形式,约束图是一种形式,DSL 也是一种形式。
关键不在表现形式,而在中间态是否可构造、是否可持续、是否可监控、是否可复用。
大角几何在这个方向上的位置
我正在做的 Dino-GSP(大角几何),本质是实现 自然语言 → 几何 DSL → 约束图 → 渲染 → 持续 edit 这个流程。
实现每个点线都有依赖关系、每个构造步骤可追踪、每次 edit 会更新约束图,同时也可以回滚、可以验证、可以导出。
这是一个白盒几何系统。
它和 MathCanvas 方向是对齐的,只是中间态不同:
- MathCanvas:视觉中间态
- Dino-GSP:可执行约束中间态
如果说 MathCanvas 证明了构造行为可以增强模型推理
那 Dino-GSP 正在尝试把构造行为变成可计算系统。
写在最后
我越来越确信未来系统会有三层:
- 语言规划层:语言负责思考
- 结构构造层:结构负责约束
- 可视化反馈层:可视化负责反馈
当这三层打通,AI 才真正具备几何推理能力。
MathCanvas 不是一篇分数论文,它是一个方向论文。
我做 Dino-GSP 的过程让我更清楚:
如果中间态只是图像,系统很难进入工程阶段。
如果未来 AI 在几何领域真正达到稳定可用的水平,我相信关键节点不会出现在模型规模上,而会出现在“中间结构如何表达”这个问题上。
AI for Math 的下一阶段,是从更聪明转向会构造。
而构造,决定一切。

