1o1 模型是什么?全新的系列?

三句话介绍的话,最重要的是

  1. o1 是 OpenAI 开发的一种新型推理系统。新的路线不再受到预训练的瓶颈,扩展推理计算的可能性,以应对更具有挑战性的推理场景。
  2. o1 通过在长推理链上训练新模型并进行大量强化学习来设计,教会模型如何以高度数据效率的方式利用其思维链进行高效思考,并且能够大规模部署。
  3. o1 为用户进行在线搜索,并且在推理上投入更多,因此推理成本也更高,它展示了 AI 未来的发展方向。

为什么是 o1 这个全新的系列呢?

就像前文提到的它代表了OpenAI看好的未来方向,名称“o1”中的“o”代表 OpenAI,并且将将计数器重置为1。OpenAI希望通过这个模型重新定义人工智能的推理能力,并开启一个新的纪元。

从技术的角度来说,之前大模型的迭代方向主要是预训练(pre training),依赖大量的数据,而在今天天然数据已经不够用了,很难说还有哪家能拿出超出一个数量级的天然数据,学术界也早有讨论后训练(post training)对于智能的提升,这也是为什么是 o1,因为范式已经改变了,引入了强化学习来持续提升智能。


一些必要知道的信息

  • o1 就是之前透露出的代号为 Strawberry、Q* 的新一代人工智能。目前发布的版本是 o1-preview(预览版) 和 o1 mini(迷你版),官方文章中的对比很多用的是正式版,至于为什么还未放出正式版有不同的猜测,可能是考虑推理成本、部署压力、安全管理。
  • o1-preview 是 o1 的缩小版本,以确定其最合适的用例和需要改进的领域。
  • o1-mini 是一个针对 STEM 应用程序优化的更具成本效益的版本。O1-mini 在数学和编程任务中实现了与 o1 几乎相同的性能,但成本却显著降低。
  • 目前 o1 的调用是限制速率和频率的,每周五十条,价格也很贵,输出成本 100m tok 是 60刀,是 GPT-4o 的 4 倍。官网价格🔗
  • 另外由于o1 的思维链是隐藏的,用户看不到,但是是算进输出 tokens 的用量里的。

一些重要的数据

👆人类对 GPT-4o 的写作和编辑任务评价更高,而 o1 在编程、数据分析、数学计算等逻辑方面的评价更高。

👆虽然大多数LLMs在预训练上投入了大量资金,但 o1 将更大的部分分配给推理。

👆与其他最先进的模型相比,o1 是数学推理的巨大进步!



o1 模型适用什么场景?

首先很确定的是,不适合简单的查询,如下图花费的token和time远超其他llm,没必要且浪费。

从官方和各方的测试数据来看,o1模型的展示了其在处理复杂认知任务方面的潜力,尤其是在需要深层次推理和分析的高价值领域。所以我们可以展望其在科学研究、软件编程、数学问题等方面的发展,但同时有理由怀疑奖励模型无法覆盖所有涉及通用知识的领域。

而且从目前的花费时间来说,应用端只能是更加异步的使用场景,这意味着很难在短时间内面向大众消费市场,还是偏向适用于专业生产者,对于效果的要求更高,对于延迟更加包容。

目前,o1 在做出反应之前只思考了几秒钟。在对于未来的描述中,OpenAI 的愿景是让模型能够在数小时、数天甚至数周的时间内思考答案。大多数场景用不到这么高的推理成本,不过对于一些复杂应用场景来说,比如学术、医学研究、生物学研究等等非常值得期待。



3o1 模型背后做了什么?

提取其中的关键点包括:

  1. o1模型使用强化学习算法来训练,这种算法可以教会模型如何高效地使用其思考链进行思考,并且通过这种方式,模型的性能随着更多的强化学习和更多的思考时间而持续提高。
    o1模型运用了一种过程奖励模型,该模型会对推理过程中的每一步进行评分。这种方法与传统的强化学习不同,后者通常只在整个过程结束时给予一次性奖励。过程奖励模型能够提供更细粒度的反馈,帮助模型在推理的每个步骤中进行改进。除了过程奖励外,推测o1模型还可能结合了基于结果的奖励模型或启发式方法,以判断模型是否给出了正确的答案。这可能包括对答案长度的惩罚,以避免模型生成无休止的非答案内容。值得注意的是,在不同场景下的奖励模型可能需要根据特定任务和目标进行定制和优化,所以 o1 未必在很多垂类逻辑问题上能取得可用的结果。

  2. o1 模型在训练过程中,通过引入动态的 Reasoning Token 来启发隐式思维链进行问题思考,使得模型的思考时间越长,推理能力越强。
    这种训练方式也涉及到了“后训练扩展律(Post-Training Scaling Laws)”,意味着可以通过在训练后期提升强化学习训练的探索时间和增加模型推理思考时间来实现性能提升。



o1 发布带来的影响猜测

OpenAI 指出要达成 AGI 的下一步发展不再是预训练(retraining),而是需要强化后训练(post training)了,并且选择了强化学习作为这个方向的抓手。

那么我们是不是可以说接下来的大模型领域的竞争不再是比拼预训练的数据量达成的通用知识了,而是去迭代模型解决问题的思维方式去达成更强的推理能力。

强化学习作为是本次新模型的关键技术之一,通过复杂的设计与训练(例如奖励模型、搜索和探索机制),使模型在面临长序列推理挑战时能有效地进行计算与分析,这个思路会很快扩展到大模型竞争中。如果是这个方向的话,垂直领域的强化学习设计是非常有可能跑出更多垂直模型的,我觉得不太可能有一个适用于所有推理场景的奖励模型。

未来的正式版 o1 估计会提供更多的参数给使用方去调节推理预算以及其中的搜索参数等,不然现在隐藏式的推理消耗实在兜不住,只有这样不同场景下成本和效果才能实现平衡。



参考资料

https://openai.com/index/learning-to-reason-with-llms/OpenAI
https://cdn.openai.com/o1-system-card.pdf
https://www.interconnects.ai/p/reverse-engineering-openai-o1
https://www.latent.space/p/openai-api-and-o1?r=q2z20
https://mp.weixin.qq.com/s/ZYIHoSUoTH4wd3d5Z2zmeQ