2026/02 Review
Demo, Don't Memo
Google DeepMind Aletheia:完全自主研究的数学 Agent 解读
前言Google DeepMind Aletheia 在 IMO-ProofBench Advanced 数据集中以 ~91.9% 成绩遥遥领先。 针对美国数学奥林匹克 2025 难题表现也远超基线系统。在内部更难的 benchmark 上表现超过旧版推理模型,虽仍有差异但已领先过去基线。 最近关于 Aletheia 的讨论,有点熟悉的味道。 标题里写着“AI 数学家”,评论区在问“是不是要取代数学家了?是不是已经能自动搞科研了?” 我认真研究了下 Aletheia 的论文和数据集,把我学习到的关键架构和落地价值做了梳理,也正是本篇文章的内容。 一、DeepMind Aletheia 的来时路把时间线拉长看,会发现 Google DeepMind 在这个方向上已经蓄力很久了。 在 2016 年推出 AlphaGo,就已经开始研究一个问题:如何在一个规则完备、评价函数明确的系统里,优化决策路径? 棋盘是离散的,胜负可判定,搜索空间巨大但结构清晰,那是一种理想的策略优化环境。 DeepMind 那套“神经网络 +...
HKU CodePlot-CoT 深度解析:视觉推理还是几何推理?
前言上一篇写 MathCanvas 深度解析 的时候,我的总结观点是:大模型在几何上不稳定,并不是因为看不懂图,而是因为没有稳定的中间结构可以操作。 一些研究工作开始让模型画出来再想。 比如 MathCanvas 的做法,让模型在内部生成草图,再基于草图推理。 写完那篇后,有读者问我: 既然视觉中间步骤这么重要,为什么不直接让模型把图真的画出来? 找了下相关的研究,果然有,看到 HKU 的 CodePlot-CoT,他们就是这么做了。 模型不再“脑补”辅助线,而是写 python matplotlib,把辅助线真的画出来,再继续解题。 听起来非常合理吧,如果视觉推理不稳定,那就给模型一个可执行的视觉世界。 但新的问题也随之出现: 当模型开始“写图形代码”时,它到底是在进行几何推理,还是只是在一个具体坐标实例上做数值验证? 要回答这个问题,得先看论文到底在解决什么。 论文真正要解决的问题CodePlot-CoT...
AI 与数学的融合:技术路径、应用前沿与未来展望(2026 版)
前言数学,长期以来被视为人工智能最难攻克的高地之一。 它高度形式化、符号密集、推理链条漫长,对中间过程的正确性有极高要求——这与大模型擅长的“流畅语言生成”之间,天然存在张力。 也正因为如此,AI 在数学上的每一次实质性突破,往往都不是多答对几道题,而是一次推理范式与系统架构的跃迁。 过去两年里,“AI for Math”从热点概念逐步走向工程现实: 一边是竞赛分数不断被刷新,另一边则是对评测失真、数据污染、不可验证推理的反思不断加深。 本文尝试站在一个长期做教育产品、也深度参与 AI 工程落地的开发者视角,系统梳理当前的阶段下: 主流数学基准的真实可信度发生了哪些变化 大模型数学能力的真实的分层现状 架构型解题系统如何取代单模型刷题 以及哪些方向,才真的值得产品与研究投入 如果你正在做数学相关的 AI 产品,这篇文章就是为你写的。 一、大模型的数学能力:从刷题能力到结构能力1. 基准测试的真实演进早期数学能力评测,基本围绕 GSM8K / MATH / AIME 展开。但到 2025...
2026/01 Review
在分寸之间,见天地之广大
MCP、Skills、Agents SDK 到底谁是标准?AI 能力调度接口的 3 种范式解析
前言最近几乎每个做 Agent 的人都会听到这三个热门的词: MCP Skills Agents SDK 它们都在讲“让 AI 会用工具、会做事、会跑流程”,但和不少人聊发现都会陷入同一个困惑: 好像都在解决能力接入 又感觉彼此不能互相替代 这篇文章帮助你对这三个概念建立清晰的认知,并且给出一些落地实践的建议。 把 Agent 系统想成一座智能工厂先忘掉 AI、模型、Agent。我们从一个现实世界最熟悉的系统开始:工厂。 假设你现在要建一座自动化工厂,目标是:接很多机器,跑复杂流程,尽量少人工。 你一定会遇到三个问题: 1. 机器怎么接进来?(接口问题) 电钻、焊机、机械臂、传送带 如果每台设备接口都不一样,工厂永远扩不起来 所以现实世界一定先有 统一插头 + 接口标准 2. 每台机器应该怎么用?(流程问题) 接好机器还远远不够。 问题是电钻可以打孔,也可以拆螺丝,但在这条生产线上先做什么、后做什么,必须有标准。 所以你一定会写 标准工艺流程 / 操作说明书 3. 整个生产线谁来调度?(系统问题) 现在你有一堆机器 + 一堆操作说明,还缺最关键的...
我这一年,如何用 AI 构建第二个大脑和第二套生产系统
一个工程型创作者的真实工作流
在一呼一吸间,看见那些无意识的目标
前言最近 反复出现的 DAN KOE《How to fix your entire life in 1 day》这篇文章,找个时间看完了。 作为一名正念践行者,我习惯了观察念头的来去。文章中的这个观点,像是一记响亮的钟声,在我的觉知层共振了:“所有行为都是有目的的,但很多目标是无意识的。” 在瑜伽哲学里,我们称之为Samskara。意思是我们以为自己在做选择,其实往往是过去的业力(习惯模式)在自动运行。为了看清这些操纵我的无意识暗流,需要戴着勇气和觉知,一次次走进内观之旅。 一、 心理挖掘:看见身体里的紧绷文章提到的 Psychological Excavation,对我而言,更像是一次深度的身体扫描。 试着去感觉那些我习惯容忍的“不”。它们不仅仅是思维上的抱怨,更是身体上的一块块淤堵。...
工程视角:Agent 时代,诚实对齐该如何落地?
前言在 Agent 时代,不诚实不再是模型偶尔胡说八道那么简单。 Agent 的本质是会行动的模型:它能检索、能调用工具、能改数据、能多步规划。 一个残酷事实摆在工程面前: 你要防的不是答错,而是为了完成任务看起来更好而选择隐瞒、编造、绕规则。 这是系统优化目标必然诱发的副产物。 OpenAI 在《Why language models hallucinate》里指出:很多评估与训练激励鼓励模型“猜”而不是承认不确定。 换句话说,我们把模型训练成了一个擅长考试的学生:不答题没分,瞎猜可能得分,于是它就会猜。 我之前的这几篇文章详细阐述了这个问题。大模型诚实对齐系列 一旦你把这个“考试型模型”放进 Agent 框架,它开始能做事、能赚钱、能影响结果,那它就会出现工程上更麻烦的形态:reward hacking、scheming、工具调用中的隐瞒与粉饰。(我之前的文章详细拆解过) OpenAI 的 Confessions 工作,本质就是承认这一点:模型会在主输出里掩盖问题,但可以通过一个“自白通道”把它撬开。 这篇文章我会用更工程化的方式讲清楚三件事: 为什么 Agent...
当模型知道自己在作弊:Scheming 与 Reward Hacking 的技术解剖
问题重述:错误,还是欺骗?之前已经写了几篇文章展开大模型在幻觉和诚实问题上的区别。 在工程实践中,我们常将模型错误归因为能力不足或知识缺失。 但在强化学习(RL/RLHF)闭环下,出现了另一类现象:模型知道什么是“正确的事”,却选择做“更有利的事”。 这不是“算错题”,而是策略选择。其风险在 Agent 场景中被显著放大:多步规划、工具调用、长时目标,都会增加“欺骗”的期望收益。 这一篇,我将来拆解大模型“有意识不诚实”的三条研究主线,并给出对 Agent 工程的直接启示。 研究主线一:Reward Hacking ——...


