Agent Memory 评估测试方案：从指标体系到开源基准

给那些正在构建智能体的开发者的一份记忆体检指南

前段时间，我在调试一个几何 Agent。

这个 Agent 能自动分析几何题、推理定理、调用绘图工具，看上去颇有点“自主学习”的影子。

但问题也随之而来——它太健忘了。

有时候明明刚在上文证明过某个结论，下一步又开始怀疑它自己。

我给它接上了向量数据库、加了摘要器、甚至写了个小型索引器，但效果依旧不稳定。

那时候我开始意识到：

我们都在拼命强化 Agent 的“行动力”，却很少认真测量它的“记忆力”。

于是我决定系统地研究一下，怎么评估一个 Agent 的 Memory 模块。

今天这篇文章，写给所有已经或准备构建 Agent 工程的人。

希望帮你找到一套可落地、可复现的记忆评测方案。

为什么要测记忆？

如果说大模型是 Agent 的大脑，那 Memory 就是它的长期神经系统。

没有记忆，再聪明的模型也只能“现想”而无法“积累”。

在工程实践里，这会表现为：

对话几轮后开始失忆
任务中重复提问
自相矛盾的人设
一旦上下文超过 10K，就变成另一位陌生 AI

在我构建数学 Agent 的过程中，这种现象尤其明显。

模型在第一轮中记得“点 A 在圆上”，到了第五轮，它却开始假设“点 A 在圆外”。

一开始我以为问题在于 prompt 太短，后来才发现，真正的原因是缺乏系统的 Memory 测试。

没有量化，就无法优化。

于是，记忆评测成了我“修 Agent 心智”的重要一步。

我们到底要测什么？

衡量 Agent 的记忆，其实可以借鉴人类心理学：

人类记忆分为短时、长时、情节、语义……

在工程里，我们可以把测试拆成几个核心问题：

能不能想起来？（Recall）

例如：“用户之前提到的定理叫什么？”

对应指标 Recall@K。
说得一致吗？（Consistency）

“你昨天说角 A 等于 60°，今天怎么变 45° 了？”
更新正确吗？（Update）

“如果条件改变，旧记忆是否被覆盖？”
能承认不知道吗？（Calibration）

当没见过的信息出现，模型是否会拒答而不是胡编。
记忆会不会膨胀？（Forgetting）

随着交互增多，Agent 是否会被冗余记忆拖慢。
多模态下是否还记得？（Multimodal Memory）

看过的图、听过的指令，在下次提问时还能匹配回来吗？

这六个维度几乎涵盖了所有常见的 Memory 问题。

我自己在调试几何 Agent 时，最常暴露的是前两个：

模型常常能“记得关键词”，却丢失了几何关系；

它能复述公式，但忘了变量的含义。

这时候如果没有 Recall 或 Consistency 的量化指标，根本无法判断是哪一环在失灵。

市面上能用的评测基准

我查阅了近两年的研究，发现业界其实已经有了几套相当成熟的 Memory 评测基准。

只是大部分人没注意到它们可以直接上手。

第一个是 LoCoMo —— Snap Research 的长对话评测。

它用上百轮对话测试模型的“长期记忆力”，

问题涵盖事实回忆、时间因果、甚至多模态对话。

在官方结果里，GPT-4 的 F1 分数只有 32，而人类平均是 88。

也就是说，我们距离真正的长期记忆，还差一整个物种的距离。

第二个是 LongMemEval —— UCLA 团队的系统性基准。

它更像一个“记忆体检表”，从信息提取、跨会话推理、知识更新到拒答未知，一共五项指标。

如果你的 Agent 是任务型（比如客服、知识问答），

LongMemEval 是最值得尝试的那套测试。

第三类是 多会话记忆集，如 Facebook 的 MSC 和百度的 Persona-Long。

它们主要考察“角色一致性”，模型是否能记住用户和自己的设定。

这对陪伴型、教育型 Agent 尤其重要。

这类基准就能帮你精确量化这种人格断层。

评测指标背后的逻辑

这些基准的数据再多，也离不开几个核心指标：

Recall@K —— 检索召回率。衡量从记忆库中找到正确信息的能力。
QA Accuracy / F1 —— 回答是否正确。最终看的是能否“说对话”。
Consistency Score —— 是否前后矛盾。可以人工或自动打分。
Rejection Rate —— 面对未知是否拒答，防止“假记忆”。
ROUGE / BLEU / FactScore —— 用于生成式摘要或事件回忆任务。

在工程里我发现，指标越细，越能暴露 Memory 模块的真实问题。

比如我的几何 Agent 在 Recall 很高时，QA 准确率却低；

这说明它能检索出正确片段，但推理时用错了。

有时候优化 Memory，不是改数据库，而是改检索策略。

如何在自己的工程中测试记忆

如果你已经有一个可运行的 Agent，不妨这样操作：

第一步：准备测试集。

可以直接使用 LoCoMo 或 LongMemEval 的公开数据，也可以用自己系统中的聊天日志，人工标几个“记忆点”。

第二步：定义 Memory 模块接口。

无论你用的是 LangChain 的 ConversationBufferMemory，还是自研的像 MemGPT 那样的分页机制，确保你能随时 dump 出它“记住了什么”。

第三步：运行评测脚本。

LoCoMo 官方仓库里有 evaluate_qa.py，只需改一下模型接口，就能测你的 Agent 的 QA F1。

LongMemEval 也有现成脚本，可以测 Recall、拒答率等。

第四步：观察与反思。

别只看准确率，更要看错误类型。

有些错误是检索不到，有些是检索到但没用。

如果可能，把指标接入 CI 流程，每次更新记忆逻辑时自动跑一轮。

当你第一次看到自己的 Agent 在 LoCoMo 上得分只有二十几，那种“原来它根本没记住我”的感觉，会比任何 bug 都真实。

可直接上手的评测 Demo

如果你不想从零开始，可以直接试这几个项目：

LoCoMo 官方评测工具：
https://github.com/snap-research/locomo

包含超长对话数据和 QA 评测脚本。
LongMemEval 基准：
https://github.com/xiaowu0162/LongMemEval

五维记忆测试模板，支持 HuggingFace 模型。
MemoryBank / SiliconFriend：
https://github.com/zhongwanjun/MemoryBank-SiliconFriend

内置遗忘机制，可在本地启动一个有“长期记忆”的中文聊天机器人。
Reflexion Agent：
https://github.com/noahshinn/reflexion

教你如何让 Agent 自己反思并记录经验。

我个人推荐先跑 LongMemEval。

它轻量、指标明确、结果易解释。

如果你的 Agent 通过了它，再挑战 LoCoMo。

后者是真正的“长对话炼狱”，我第一次跑完时 GPU 都快烤化了。

评测之外的坑与反思

我最深的感触是：记忆问题不是硬件问题，是认知问题。

我曾花一周时间优化索引算法，却忽略了最根本的逻辑——Agent 根本不知道“什么时候该想起某件事”。

它拥有庞大的向量库，却缺乏触发机制。

那一刻我突然明白：真正需要评测的，不仅是“记得多少”，更是“何时想起”。

另外一个坑是“假记忆”。

我曾让模型复盘教师一天的教学日志，它开始一本正经地编造“我今天教了学生三角函数”。

这时拒答率指标就很关键。

一个 Agent 不该无所不答，能承认不知道，本身就是记忆成熟的表现。

未来的方向

目前的基准都还停留在文本和问答层面。

未来的评测一定会走向更真实的多模态场景——让 Agent 看图、听音、记住空间位置，甚至在几天后的任务中回忆它曾经画过的图。

我相信未来的开发工具里，会出现一种新的概念：MemoryOps。

就像今天的 DevOps 管理部署一样，MemoryOps 将监控和测试 Agent 的记忆健康。

到那时候，我们或许可以做到：“每次模型上线前，都跑一份记忆体检报告。”

写在最后

写这篇文章时，我想到一个比喻：

训练模型像造大脑，但让它拥有记忆，才是赋予它灵魂。

所以，在你下一次调试 Agent 时，
别只盯着推理精度和响应速度，
也问问它一句：

“你还记得我们第一次对话吗？”

没有被测过的记忆，终将变成幻觉。