当前位置:首页 > 房产 > 正文

奥特曼因DeepSeek“认错”:在开源上OpenAI站在了历史的错误一方

  • 房产
  • 2025-02-01 14:20:05
  • 8

作者|张潇雪

邮箱|JessicaZhang@pingwest.com

在开源上我们站在了历史的错误一方。

这是 Sam Altman 对 DeepSeek 冲击做出的最新回应。

OpenAI 从来都是主动出击,这一次因 DeepSeek 而被动调整了它自己的节奏,甚至第一次在开源权重的问题上,有了动摇。

一切都发生的太快了。

1

o3-mini 全线开放,免费用,可联网

在 DeepSeek 压力之下, OpenAI 今天凌晨突然宣布,其最新推理模型o3-mini 全面上线

而且居然一改往日藏着掖着的调性,一次性向所有人开放了 o3-mini 在 ChatGPT 和 API 中的使用权限,包括免费用户

不仅支持联网,也终于舍得展示思考过程了。

o3-mini 于去年底的技术直播中首次亮相,是 OpenAI 推理系列中最新、最具性价比的小型 AI 模型,在科学、数学和编程领域表现出色,同时兼具低成本和低延迟优势。

强度模式上,o3-mini 提供了低、中、高三种选择,用户可根据需求在快速响应和深度思考之间灵活调整。只是 o3-mini 尚不支持视觉任务,需要进行视觉推理时仍要调用 o1。

此次发布,ChatGPT Pro 用户可无限制访问 o3-miniPlus 和 Team 用户每日消息限制从 o1-mini 的 50 条提升至 150 条免费用户也可通过选择 "Reason" 模式或重新生成回复来体验新模型(具体消息限制未说明)。所有付费用户还可在模型选择器中选择 "o3-mini-high",以获得需要更长时间响应的更高智能版本。

此前曾被社区贴脸对比 DeepSeek 有而 OpenAI 没有的深度思考 + 联网功能,这次也高亮加入:所有用户均可选择 "Search + Reason" 组合,利用搜索功能查找带有相关网络资源链接的最新答案。

来到开发者这边。即日起,API 使用等级 3-5 的开发者可在 Chat Completions API、Assistants API 和 Batch API 中调用 o3-mini。OpenAI 称它是自己首款支持函数调用、结构化输出和开发者消息的小型推理模型,可直接用于生产环境。

1

变快变便宜,但仍不如 DeepSeek 实惠

速度与效率方面,o3-mini 相较于 o1 具备更快的响应速度和更高的计算效率。测试结果显示,o3-mini 推理速度比 o1-mini 快 24%,将平均响应时间从 10.16 秒缩短至 7.7 秒。此外,o3-mini 的首个 token 生成时间也比 o1-mini 快 2500 毫秒,为用户提供更加流畅的交互体验。

而面对 " 模型界拼多多 "DeepSeek,OpenAI 也不得不加入了价格战。官方表示,自 GPT-4 推出以来,OpenAI 已将每 token 价格下调 95%。

最新的定价方案中,o3-mini 输入每百万 tokens 收费 $1.10,输出每百万 tokens 收费 $4.40,在使用缓存输入的情况下,费用可以减半至每百万 tokens $0.55。

这个价格相比之前有了显著下降,比 o1-mini 低 63%,比完整版 o1 更是降低了 93%。然而即便如此,与 DeepSeek R1 输入和输出费用分别为每百万 tokens $0.14 和 $0.55 相比,仍然明显偏高。

1

性能超 o1,采用 " 审慎对齐 " 技术

OpenAI 在官方博客中展示了 o3-mini 在多个领域相比 o1 和 o1-mini 的性能提升。

数学推理方面,o3-mini 于 AIME 2024 数学竞赛中表现优异。使用高推理强度时,其准确率达到 87.3%,全面超越 o1。即便在低推理强度模式下,其表现也能与 o1-mini 比肩。

科学领域评测中,o3-mini 的高推理强度模式在 PhD 级科学问题(GPQA Diamond)上达到 79.7% 的准确率,显著优于前代模型。在生物、化学和物理等高难度学科问题上,其高推理强度模式的表现与 o1 相当。

编程能力方面,o3-mini 这次展现出了肉眼可见的显著优势。在 Codeforces 编程竞赛中,其高推理强度模式获得 2130 的 Elo 评分,远超前代模型,即使最低推理强度也与 o1 持平。在 SWEbench-verified 软件工程测试中,高推理强度模式达到 49.3% 的准确率。在 LiveBench 编程任务中,中等推理强度已超越 o1-high,高推理强度模式则更是大幅领先。

一般知识评估中,o3-mini 全面超越 o1-mini。同时,人类偏好测试显示,56% 的专家更倾向于选择 o3-mini 的回答,认为其更准确且逻辑性更强。此外,o3-mini 在处理现实世界高难度问题时,主要错误率下降了 39%,凸显了其在复杂任务中的可靠性。

安全性方面,OpenAI 表示在 o3-mini 的安全性工作上取得了重要进展。最显著的是采用了他们开发的审慎对齐 "(deliberative alignment)技术,让 o3-mini 能在回答用户问题前,主动对安全规范进行推理思考。这种方法使其在应对各种安全挑战和越狱测试时的表现明显优于 GPT-4o。

为确保安全性,o3-mini 采用了与 o1 同样严格的流程,包括准备度评估、外部红队测试 等多个环节。评估结果显示,o3-mini 的总体风险等级被评为 " 中等 ",其中在说服力、危险物质、模型自主性等方面风险为中等,而在网络安全领域的风险则为低。通过强化 " 思维链 " 推理能力,o3-mini 在处理潜在风险场景(如非法建议和偏见回应)时达到了目前的最高安全水平。

值得注意的是,随着模型能力的不断提升,OpenAI 也意识到了潜在风险的增加。为此他们建立了完善的安全评估和防护体系,确保只有经过安全处理且风险达到中等或更低的模型才会被部署。

1

奥特曼领衔,OpenAI 团队上阵 Reddit 开版答疑

o3-mini 发布后,OpenAI CEO Sam Altman 带领首席研究员 Mark Chen、首席产品官 Kevin Weil、工程副总裁 Srinivas Narayanan、API 研究主管 Michelle Pokrass,和 o3-mini 团队研究主管 Hongyu Ren,上阵 Reddit 和网友们来了场互动 Q&A。

下面是几个点赞排名靠前的问题:

问题 1:我们能看到所有的思维 tokens 吗?

回答(Sam Altman):是的,我们将很快展示一个更有帮助和详细的版本。感谢 r1 提醒我们。

问题 2:你们会考虑发布一些模型权重和发表一些研究吗?

回答(Sam Altman):这个还在讨论中。我个人认为在这个问题上我们站在了历史的错误一方,需要找出一个不同的开源策略。不过不是所有 OpenAI 的人都同意这个观点,而且目前这也不是我们最高优先级。

问题 3:完整版 o3 什么时候发布?

回答(Sam Altman):我估计超过几周,少于几个月。

问题 4:语音模式会更新吗?这是 GPT-5o 的一个重点吗?GPT-5o 的大致时间表是什么?

回答(Sam Altman):语音模式更新即将到来!我想我们会直接叫它 GPT-5 而不是 GPT-5o。目前还没有时间表。

问题 5:你们会推出基于 4o 的图像生成器吗?

回答(Kevin Weil):是的!我们正在开发。而且我认为这值得等待。

问题 6:你们计划在未来推理模型中会添加文件附件功能吗?

回答(Srinivas Narayanan):正在开发中。推理模型未来将能够使用包括检索在内的不同工具。

补充回答(Kevin Weil):我只想说,我迫不及待想看到带工具使用的推理模型了 : )

问题 7:Stargate 的成功对 OpenAI 的未来有多重要?

回答(Kevin Weil):非常重要。我们看到的一切都表明,计算能力越多,我们就能建立更好的模型,并制造更有价值的产品。我们现在同时在两个维度上扩展模型——更大的预训练和更多的强化学习 /strawberry 训练,这两者都需要计算资源。为数亿用户提供服务,并且随着我们转向更多为您持续工作的智能产品,这些也都需要计算资源。因此可以将 Stargate 视为我们的工厂,将算力 /GPU 转化为令人惊叹的产品。

目前,大部分评论区群众表示喜闻乐见," 打起来了,爱看,多发!"

编程软件 Cursor 算是手快的,最新两条推文相继宣布 DeepSeek 模型和 o3-mini 都已经整合进来,但对平台的开发人员们仍然最爱 Claude Sonnet" 表示很惊讶 "。

当然也有人表示,既然 DeepSeek 已经免费提供这些尖端 AI 技术了,为什么要花钱升级 GPT 呢?

就像 Lex Fridman 说的,"OpenAI o3-mini 是一个很好的模型,但 DeepSeek R1 的性能相似还更便宜,并且展示推理过程(目前大家反映 o3-mini 并没像奥特曼说的那样看到思维链显示)。

尽管更好的模型将会出现(迫不及待地想看 o3pro),但「DeepSeek 时刻」是真实存在的。我认为 5 年后它仍将作为科技史上的关键事件被人们铭记。"

有话要说...