引言:大模型架构的“困境”

这两年,大模型的风头正劲。

大家都在谈 MoE(Mixture of Experts) ——它被认为是突破大模型计算瓶颈的关键方向。

通过稀疏激活,只激活少量专家节点,让计算开销成比例下降,而模型能力却可以继续增长。听上去完美无缺。


不过,真正尝试将 MoE/SMoE 架构落地时,问题随之而来。

专家池一多,计算分配就变得不平衡;某些专家被频繁调用,而其他专家几乎闲置。系统扩展起来也不再优雅,想加新领域,常常意味着“推倒重来”。

MoE 虽然高效,却还远没到“万能”的阶段。

尤其对于我们这些做 多领域智能 Agent 的人来说——客服、教育、企业知识管理——系统要在不同任务之间灵活切换、持续学习,这套架构似乎仍有点笨重。


然而,《Mixture of A Million Experts》论文带来了新的思路,打破了行业普遍认为大模型计算瓶颈无法突破的常规认知。

研究者提出了一个颠覆性的观点:专家数量并非瓶颈,而是可以突破的限制。

通过 PEER 架构(Product Key Expert Retrieval),模型可以在保持轻盈的同时,拥有百万级专家容量,彻底改变大模型的设计和扩展方式。

大模型的未来,不再是一颗大脑,而是无数个微专家在协同工作。



MoE 架构:风光背后的隐忧

MoE 的设计初衷其实很优雅:

与其让一个庞大的模型处理所有问题,不如分工合作——不同专家解决不同任务。

这样既能减少计算,又能扩展模型容量。


但问题是,当“专家”变多,管理它们本身就成了一门学问。
MoE 模型在训练时容易出现负载不均:

  • 某些专家被反复选中,工作超载;
  • 某些专家几乎从不被调用,形同虚设。

而且专家数量也存在“物理极限”。几百个模块听起来不少,但放到一个需要多领域、多任务的 Super Agent 系统中,很快就会捉襟见肘。

MoE 的结构像是一栋办公楼——房间足够多,但一旦某几层太忙、几层太空,效率就会被拖垮。

MoE 的问题不是不聪明,而是不够灵活。它像一台巨大的机器,而不是一个会生长的生态系统。



PEER 架构:突破 MoE 限制的那一把钥匙

在这篇论文里,研究者提出了一个更激进的设想:

既然“专家”是瓶颈,那我们不如把它拆得更小、更细。

于是便有了 PEER(Product Key Expert Retrieval) 架构——一个拥有 百万级微专家 的系统。


1. 百万级 experts :打破扩展的上限

MoE 的专家通常是完整的子网络,庞大且昂贵;

而 PEER 则反其道而行,每个专家只保留 一个神经元(one-neuron MLP)


这种极简设计的好处是:

  • 可以容纳上百万个专家;
  • 每次推理只需激活极少一部分;
  • 模型容量得到几何级提升,但计算量几乎不变。

这就像把庞大的知识体系拆成了无数个“知识细胞”,
每个细胞只在特定输入下工作,真正实现了“用多少、算多少”。

PEER 不追求更强的单体智能,而是让微小的智慧汇聚成群体的力量。


2. 极致稀疏激活:从 O(N) 到 O(√N)

传统 MoE 的瓶颈之一是路由复杂度。

每次输入都要计算与 N 个专家的匹配度,复杂度是 O(N)。

当专家数量达到百万级时,这几乎不可接受。

PEER 用 Product Key Routing(产品键路由) 巧妙地把这个问题降到了 **O(√N)**。


想象一下专家池是一个二维表格。

每个专家的“键”被拆成两部分,分别属于两个子空间。

当输入到来时,只需:

  1. 在每个子空间里各自检索 top-k;
  2. 再组合成候选专家集合。

最终,模型只需从少量候选中选择真正相关的专家。

这样既避免了全量扫描,又保持了高匹配率。

PEER 的路由逻辑更像搜索引擎,而非广播通知。它只找需要的人,而不是通知所有人。


3. Product Key Routing:专家调度的自组织

PEER 的路由不仅高效,还具备“自组织”的特性。

每个专家的键是可学习的,随着训练推进,模型会自然地将相似任务分配给相近的专家集合。


久而久之,系统内部形成了类似“语义社区”的结构:

不同类型的问题,倾向激活不同区域的专家群落。

这让模型在面对多任务学习时,既能共享知识,又能保持分工明确。

PEER 让模型像一个自我成长的城市,不同街区专注不同产业,但彼此之间又保持联通。


4. 动态扩展专家池:支持持续学习与多领域适应

另一个令人惊喜的点在于,PEER 支持 专家池的动态扩展

也就是说,模型训练完后,仍然可以按需增加新专家,而无需重训全体网络。

这对于多领域智能 Agent 来说,是一种质变。

想象一个助手AI:

  • 初期专注电商;
  • 后来扩展到金融、旅游、医疗领域;
  • 不需要“重生”,只需“长出新神经元”。

这种能力让 AI 系统能像产品一样,持续成长,而不是一成不变的快照,不断去迭代新的版本。



PEER 架构的产品启示

从产品角度看,PEER 的价值不仅在于“能跑得更快”,而在于“能持续成长”。

  1. 可扩展性

    新领域到来时,不需要重训全模型,只需新增专家池。

    这让产品拥有真正的 演进式架构

  2. 计算效率与成本控制

    极致稀疏激活意味着按需使用算力,推理成本显著降低。

    对 SaaS 型 AI Agent 平台尤为重要——既能大规模服务,又能保持性价比。

  3. 长期学习与知识积累

    PEER 的设计天然支持 持续学习

    这意味着 AI Agent 不会像旧模型那样被“冻住”,而是能随着使用场景的变化,积累新知识。



写在最后

PEER 架构最打动我的地方,是它代表了一种新的思维方式:

我们不再把智能看成一个中心化的大脑,而是一张能自我生长、不断优化的网络。

对于 Super Agent 的未来而言,这正是我们缺失的那一环。

也许下一个时代的智能,不是更大的模型,而是更会生长的系统。