欢迎来到长春不老网

长春不老网

OpenAI发布下一代模型,O1后直接发布o3!

时间:2026-01-04 18:07:57 出处:娱乐阅读(143)

OpenAI发布下一代模型,发布发布O1后直接发布o3

“双12”直播活动的模型最后一天,终于来了一个大的直接,奥特曼本人也再次出现在直播间。发布发布

与o1相比,o3最突出的模型成绩是顶级程序员竞赛CodeForces目前人类超过这个分数的分数超过2700分,不到200分。直接

二是发布发布为AGI准备的测试ARC-AGI上分从32%跃升到75.7%、87.5%。下代

为什么会有两个成绩?模型

因为o3支持低思考程度高思考程度两种设置,计算能力(横轴)的直接高思维度也直接拉满。

ARC-AGI是发布发布Keras之父François 由Chollet发起的测试基准,典型的下代题目是图形逻辑推理。

另一项测试被称为最难的模型数学测试EpochAI Frontier Math,包括最新未公开的前沿话题。

陶哲轩之前对这次测试的第一印象是“可能会困住AI好几年”。

与SOTA相比,o3在测试中从2分提高到25分。

人类专业数学家需要几个小时到几天才能解决其中一个问题。现在o3只需要思考几分钟。

直播也公布了o3-mini,支持低、中、高三种思维水平的设置。

主要显示代码能力,低设置下的o3-mini与o1-mini相似,中高设置已超过o1的官方版本。

参与研究的北京大学校友任宏宇,现场展示了o3-mini编程能力。

他使用了ChatGPT的特殊版本,称为ChatGPT。 α。

任务如下:

写一个Python脚本,在当地为HTML文件启动服务器提供一个大文本框。当我在框中输入文本并按下提交时,它应该将代码请求发送到Openal o3-mini API ,使用medium reasoning_effort ,获取生成的代码,将其保存在桌面上的临时文件中,然后在新的Python终端中执行文件。还有一些细节:

可以在~/api在_key中找到我的API密钥

请在API的请求中添加一些额外的提示,指定它只应返回原始代码,没有任何格式或Markdown

您将在Mac笔记本电脑环境中运行

o3-mini的思维过程花费了38秒,然后代码秒出,一次成功运行。

这个演示可能不是很直观,但是另一个OpenAI研究员Aidan没有去现场。 直到Clark出汗。

综上所述,o3-mini用38秒为自己写了一个UI,通过API调用“自己”。

在后续演示中,任宏宇要求o3-mini在这个UI中编写并执行一个脚本,以评估“它自己”在低思维和GPQA数据集中的表现。

评估脚本正确运行,返回结果值为61.62%,与正式评估结果基本一致。

有没有科幻小说的感觉?

可惜呐~ 目前o3和o3-mini都处于早期预览状态,只看不玩。

安全研究人员可以在OpenAI官网申请早期访问权限。

北大校友、GPT-4o核心开发者出现在直播间

在这次直播中,另一个值得关注的是新出现的北大校友任泓宇(最左边)

他去年刚加入OpenAI作为研究科学家,主要负责语言模型训练,是GPT-4o的核心开发者,GPT-Next项目组成员。

直播中最新透露,他也参与了9月份的o1-mini,证实了三位中国人主要负责o1-mini(另外两个是Kevinin Lu和Jiahui Yu)

任宏宇博士毕业于斯坦福大学。在加入OpenAI之前,他在Applee上、Google、NVIDIA 与Microsoft有很多研究实习经验。

One More Thing

笑死,最后一天戴着圣诞帽的“青蛙”直接摆在了前面:

其实之前每一场都在,只是放在后面的架子上,数量随着直播天数的增加而增加。

昨天是直播的第11天,圣诞帽“青蛙”是酱阿姨的:

来源:量子位

分享到:

温馨提示:以上内容和图片整理于网络,仅供参考,希望对您有帮助!如有侵权行为请联系删除!

友情链接: