deepseek-ocr 的几何识别,真的成立吗?
最近,deepseek 又引爆了一波热度。
他们新发布的 deepseek-ocr 模型,不仅能识别文字,还号称能看懂 化学分子式、数学公式、几何图形。
对我这个正好在做几何图形识别和重绘生成的人来说,这当然是个好消息。
所以我开始了一轮针对 deepseek-ocr 几何图识别的测试。
结果嘛,只能说,方向没错,但距离真正可用,还差得远。
论文里描绘的“理想图景”
在官方论文中,deepseek-ocr 展示了不少让人兴奋的例子。
比如它能从图片中识别出几何图形,并输出可直接渲染的图形定义:
看起来好像 AI 真的“理解”了几何结构。
而且论文提到,它在训练中使用了带几何、化学等多模态的专用数据集,覆盖了公式与图形的双模态信息。
理论上,这意味着:
未来我们拍一张几何题图,就能直接生成结构化定义,甚至自动画出图。
听起来很美好。
我的测试结果:模型确实“看见了”,但没“理解”
我选了几张相对简单的几何图形来测试,左侧为模型识别出的代码定义,右侧为渲染结果。
case 1:
case 2:
case 3:
case 4:
case 5:
case 6:
case 7:
模型确实能识别出圆、线、点这些基础元素,但问题在于它只停留在“形似”的层面。
存在的主要问题:
元素类型太少
目前几乎只能识别「圆、直线、点」三类对象。
没有弧线、角度等基础构造,复杂图形几乎全失真。
没有样式信息
模型输出完全忽略了虚线、颜色、标记这些样式描述,而这些恰恰是几何图表达逻辑关系的关键。
缺乏约束与推理链路
从上面的测试案例能很明显看到,作为 OCR 模型,它并不理解几何推理。
比如在识别一个多边形的图后,它会画出所有的边,但产生了不闭合的情况。
对它而言,交点、垂直等等只是形状,不是满足约束的结构。
deepseek-ocr 目前的几何识别,像是一个会抄图的学生——会画样子,但不会推理。
思考
虽然模型结果不理想,但我认为这是一个重要的信号:OCR 模型正在从“识别文字”走向“理解结构”。
几何识别比文字识别复杂得多,它需要同时理解视觉结构和逻辑约束。
deepseek 这次的尝试,说明主流大模型团队开始意识到这一方向的重要性。
对我来说,这正好验证了我在做的另一件事——让 AI 不只是识别几何图,而是能构造 + 约束 + 验证整个几何过程。
在我开发的大角几何画板中,我们的目标不是“识别图像”,而是让 AI 具备“几何理解能力”。
当用户上传一张图时,系统不仅要知道“有圆、有直线”,还要能自动重建几何关系:
- 哪些线是垂直的?
- 哪些点在同一条线上?
- 这两个圆相切还是相交?
- 哪条辅助线是解题关键?
这些才是“理解”层面的能力。
写在最后
deepseek-ocr 的几何识别,还远不算成立。
但它标志着一个趋势:AI 正在学习去“看懂”图形的结构世界。
也许几年后,我们真的能拍下几何题图,AI 自动识别、重构、推理、作答。
但在那之前,我们还要继续探索 几何语言、推理逻辑与可执行构造 的结合方式。
如果你也对 “AI 如何真正理解数学” 感兴趣,欢迎关注我,一起见证这场变化。

