deepseek-ocr 的几何识别，真的成立吗？

最近，deepseek 又引爆了一波热度。

他们新发布的 deepseek-ocr 模型，不仅能识别文字，还号称能看懂 化学分子式、数学公式、几何图形。

对我这个正好在做几何图形识别和重绘生成的人来说，这当然是个好消息。

所以我开始了一轮针对 deepseek-ocr 几何图识别的测试。

结果嘛，只能说，方向没错，但距离真正可用，还差得远。

论文里描绘的“理想图景”

在官方论文中，deepseek-ocr 展示了不少让人兴奋的例子。
比如它能从图片中识别出几何图形，并输出可直接渲染的图形定义：

看起来好像 AI 真的“理解”了几何结构。

而且论文提到，它在训练中使用了带几何、化学等多模态的专用数据集，覆盖了公式与图形的双模态信息。

理论上，这意味着：

未来我们拍一张几何题图，就能直接生成结构化定义，甚至自动画出图。

听起来很美好。

我选了几张相对简单的几何图形来测试，左侧为模型识别出的代码定义，右侧为渲染结果。

case 1:

case 2:

case 3:

case 4:

case 5:

case 6:

case 7:

模型确实能识别出圆、线、点这些基础元素，但问题在于它只停留在“形似”的层面。

元素类型太少

目前几乎只能识别「圆、直线、点」三类对象。

没有弧线、角度等基础构造，复杂图形几乎全失真。
没有样式信息

模型输出完全忽略了虚线、颜色、标记这些样式描述，而这些恰恰是几何图表达逻辑关系的关键。
缺乏约束与推理链路

从上面的测试案例能很明显看到，作为 OCR 模型，它并不理解几何推理。

比如在识别一个多边形的图后，它会画出所有的边，但产生了不闭合的情况。

对它而言，交点、垂直等等只是形状，不是满足约束的结构。

deepseek-ocr 目前的几何识别，像是一个会抄图的学生——会画样子，但不会推理。

虽然模型结果不理想，但我认为这是一个重要的信号：OCR 模型正在从“识别文字”走向“理解结构”。

几何识别比文字识别复杂得多，它需要同时理解视觉结构和逻辑约束。

deepseek 这次的尝试，说明主流大模型团队开始意识到这一方向的重要性。

对我来说，这正好验证了我在做的另一件事——让 AI 不只是识别几何图，而是能构造 + 约束 + 验证整个几何过程。

在我开发的大角几何画板中，我们的目标不是“识别图像”，而是让 AI 具备“几何理解能力”。

当用户上传一张图时，系统不仅要知道“有圆、有直线”，还要能自动重建几何关系：

这些才是“理解”层面的能力。

deepseek-ocr 的几何识别，还远不算成立。

但它标志着一个趋势：AI 正在学习去“看懂”图形的结构世界。

也许几年后，我们真的能拍下几何题图，AI 自动识别、重构、推理、作答。

但在那之前，我们还要继续探索 几何语言、推理逻辑与可执行构造 的结合方式。

如果你也对 “AI 如何真正理解数学” 感兴趣，欢迎关注我，一起见证这场变化。