Luhui's Personal Website

AlphaGeometry DSL 教程：Google 几何构造语言、defs.txt 与 Predicate 详解

发表于2026-03-08

系统拆解 AlphaGeometry DSL 的问题格式、defs.txt action 定义、predicate 语义、rules.txt 推理规则与构造流程，适合做几何求解器、数据生成与 AlphaGeometry 复现。

AlphaGeometry2 深度解析：Google AI 如何解决 IMO 几何题？

发表于2026-03-06

拆解 AlphaGeometry2 如何把几何推理、辅助线搜索与符号证明结合起来解决 IMO 几何题，并总结对数学 AI 工程的启发。

2026/02 Review

发表于2026-03-03|生活

Demo, Don't Memo

Google DeepMind Aletheia：完全自主研究的数学 Agent 解读

发表于2026-02-25

前言Google DeepMind Aletheia 在 IMO-ProofBench Advanced 数据集中以 ~91.9% 成绩遥遥领先。针对美国数学奥林匹克 2025 难题表现也远超基线系统。在内部更难的 benchmark 上表现超过旧版推理模型，虽仍有差异但已领先过去基线。最近关于 Aletheia 的讨论，有点熟悉的味道。标题里写着“AI 数学家”，评论区在问“是不是要取代数学家了？是不是已经能自动搞科研了？” 我认真研究了下 Aletheia 的论文和数据集，把我学习到的关键架构和落地价值做了梳理，也正是本篇文章的内容。一、DeepMind Aletheia 的来时路把时间线拉长看，会发现 Google DeepMind 在这个方向上已经蓄力很久了。在 2016 年推出 AlphaGo，就已经开始研究一个问题：如何在一个规则完备、评价函数明确的系统里，优化决策路径？棋盘是离散的，胜负可判定，搜索空间巨大但结构清晰，那是一种理想的策略优化环境。 DeepMind 那套“神经网络 +...

HKU CodePlot-CoT 深度解析：视觉推理还是几何推理？

发表于2026-02-18

前言上一篇写 MathCanvas 深度解析的时候，我的总结观点是：大模型在几何上不稳定，并不是因为看不懂图，而是因为没有稳定的中间结构可以操作。一些研究工作开始让模型画出来再想。比如 MathCanvas 的做法，让模型在内部生成草图，再基于草图推理。写完那篇后，有读者问我：既然视觉中间步骤这么重要，为什么不直接让模型把图真的画出来？找了下相关的研究，果然有，看到 HKU 的 CodePlot-CoT，他们就是这么做了。模型不再“脑补”辅助线，而是写 python matplotlib，把辅助线真的画出来，再继续解题。听起来非常合理吧，如果视觉推理不稳定，那就给模型一个可执行的视觉世界。但新的问题也随之出现：当模型开始“写图形代码”时，它到底是在进行几何推理，还是只是在一个具体坐标实例上做数值验证？要回答这个问题，得先看论文到底在解决什么。论文真正要解决的问题CodePlot-CoT...

AI 与数学的融合：技术路径、应用前沿与未来展望（2026 版）

发表于2026-02-06

前言数学，长期以来被视为人工智能最难攻克的高地之一。它高度形式化、符号密集、推理链条漫长，对中间过程的正确性有极高要求——这与大模型擅长的“流畅语言生成”之间，天然存在张力。也正因为如此，AI 在数学上的每一次实质性突破，往往都不是多答对几道题，而是一次推理范式与系统架构的跃迁。过去两年里，“AI for Math”从热点概念逐步走向工程现实：一边是竞赛分数不断被刷新，另一边则是对评测失真、数据污染、不可验证推理的反思不断加深。本文尝试站在一个长期做教育产品、也深度参与 AI 工程落地的开发者视角，系统梳理当前的阶段下：主流数学基准的真实可信度发生了哪些变化大模型数学能力的真实的分层现状架构型解题系统如何取代单模型刷题以及哪些方向，才真的值得产品与研究投入如果你正在做数学相关的 AI 产品，这篇文章就是为你写的。一、大模型的数学能力：从刷题能力到结构能力1. 基准测试的真实演进早期数学能力评测，基本围绕 GSM8K / MATH / AIME 展开。但到 2025...

2026/01 Review

发表于2026-02-02

在分寸之间，见天地之广大

MCP、Skills、Agents SDK 到底谁是标准？AI 能力调度接口的 3 种范式解析

发表于2026-01-28

前言最近几乎每个做 Agent 的人都会听到这三个热门的词： MCP Skills Agents SDK 它们都在讲“让 AI 会用工具、会做事、会跑流程”，但和不少人聊发现都会陷入同一个困惑：好像都在解决能力接入又感觉彼此不能互相替代这篇文章帮助你对这三个概念建立清晰的认知，并且给出一些落地实践的建议。把 Agent 系统想成一座智能工厂先忘掉 AI、模型、Agent。我们从一个现实世界最熟悉的系统开始：工厂。假设你现在要建一座自动化工厂，目标是：接很多机器，跑复杂流程，尽量少人工。你一定会遇到三个问题： 1. 机器怎么接进来？（接口问题）电钻、焊机、机械臂、传送带如果每台设备接口都不一样，工厂永远扩不起来所以现实世界一定先有统一插头 + 接口标准 2. 每台机器应该怎么用？（流程问题）接好机器还远远不够。问题是电钻可以打孔，也可以拆螺丝，但在这条生产线上先做什么、后做什么，必须有标准。所以你一定会写标准工艺流程 / 操作说明书 3. 整个生产线谁来调度？（系统问题）现在你有一堆机器 + 一堆操作说明，还缺最关键的...

我这一年，如何用 AI 构建第二个大脑和第二套生产系统

发表于2026-01-23

一个工程型创作者的真实工作流

在一呼一吸间，看见那些无意识的目标

发表于2026-01-20

前言最近反复出现的 DAN KOE《How to fix your entire life in 1 day》这篇文章，找个时间看完了。作为一名正念践行者，我习惯了观察念头的来去。文章中的这个观点，像是一记响亮的钟声，在我的觉知层共振了：“所有行为都是有目的的，但很多目标是无意识的。” 在瑜伽哲学里，我们称之为Samskara。意思是我们以为自己在做选择，其实往往是过去的业力（习惯模式）在自动运行。为了看清这些操纵我的无意识暗流，需要戴着勇气和觉知，一次次走进内观之旅。一、心理挖掘：看见身体里的紧绷文章提到的 Psychological Excavation，对我而言，更像是一次深度的身体扫描。试着去感觉那些我习惯容忍的“不”。它们不仅仅是思维上的抱怨，更是身体上的一块块淤堵。...