最近,deepseek 又引爆了一波热度。

他们新发布的 deepseek-ocr 模型,不仅能识别文字,还号称能看懂 化学分子式、数学公式、几何图形

对我这个正好在做几何图形识别和重绘生成的人来说,这当然是个好消息。

所以我开始了一轮针对 deepseek-ocr 几何图识别的测试。

结果嘛,只能说,方向没错,但距离真正可用,还差得远。



论文里描绘的“理想图景”

在官方论文中,deepseek-ocr 展示了不少让人兴奋的例子。
比如它能从图片中识别出几何图形,并输出可直接渲染的图形定义:

看起来好像 AI 真的“理解”了几何结构。

而且论文提到,它在训练中使用了带几何、化学等多模态的专用数据集,覆盖了公式与图形的双模态信息。

理论上,这意味着:

未来我们拍一张几何题图,就能直接生成结构化定义,甚至自动画出图。

听起来很美好。



我的测试结果:模型确实“看见了”,但没“理解”

我选了几张相对简单的几何图形来测试,左侧为模型识别出的代码定义,右侧为渲染结果。

case 1:

case 2:

case 3:

case 4:

case 5:

case 6:

case 7:


模型确实能识别出圆、线、点这些基础元素,但问题在于它只停留在“形似”的层面。



存在的主要问题:

  1. 元素类型太少

    目前几乎只能识别「圆、直线、点」三类对象。

    没有弧线、角度等基础构造,复杂图形几乎全失真。

  2. 没有样式信息

    模型输出完全忽略了虚线、颜色、标记这些样式描述,而这些恰恰是几何图表达逻辑关系的关键。

  3. 缺乏约束与推理链路

    从上面的测试案例能很明显看到,作为 OCR 模型,它并不理解几何推理。

    比如在识别一个多边形的图后,它会画出所有的边,但产生了不闭合的情况。

    对它而言,交点、垂直等等只是形状,不是满足约束的结构。

deepseek-ocr 目前的几何识别,像是一个会抄图的学生——会画样子,但不会推理。



思考

虽然模型结果不理想,但我认为这是一个重要的信号:OCR 模型正在从“识别文字”走向“理解结构”。

几何识别比文字识别复杂得多,它需要同时理解视觉结构逻辑约束

deepseek 这次的尝试,说明主流大模型团队开始意识到这一方向的重要性。

对我来说,这正好验证了我在做的另一件事——让 AI 不只是识别几何图,而是能构造 + 约束 + 验证整个几何过程。

在我开发的大角几何画板中,我们的目标不是“识别图像”,而是让 AI 具备“几何理解能力”。

当用户上传一张图时,系统不仅要知道“有圆、有直线”,还要能自动重建几何关系

  • 哪些线是垂直的?
  • 哪些点在同一条线上?
  • 这两个圆相切还是相交?
  • 哪条辅助线是解题关键?

这些才是“理解”层面的能力。



写在最后

deepseek-ocr 的几何识别,还远不算成立。

但它标志着一个趋势:AI 正在学习去“看懂”图形的结构世界。

也许几年后,我们真的能拍下几何题图,AI 自动识别、重构、推理、作答。

但在那之前,我们还要继续探索 几何语言、推理逻辑与可执行构造 的结合方式。

如果你也对 “AI 如何真正理解数学” 感兴趣,欢迎关注我,一起见证这场变化。