Open AI新模子o1问世,能像东谈主类相似想考?

发布日期:2024-09-14 05:04    点击次数:122

本文来自微信公众号:王智远,作家:王智远,原文标题:《Open AI发布新一代模子01》,题图来自:AI生成

凌晨1点,我还在追剧。

这时,一又友发来一条音问说:Open AI发布了新模子,你在电脑上碰庆幸能用吗?哎,老大,王人要就寝了,这要强制开机,让我起来加班码字啊。‍‍

带着有趣,翻开PC端ChatGPT一看,竟然,多出两个模子,分散是ChatGPT o1-mini和o1-preview。

这是什么东东?如何叫这个名字?这个模子有什么特质?如何还有两个版块呢?价位如何?难谈是此前被传的“草莓”作念出来了?

带着猜忌,熬夜看完官方文档,把内容归来共享给你。

为什么叫o1呢?官方说:

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1。

我用自带浏览器的翻译功能,翻译出来便是:

这个模子在复杂推理任务上是一个要紧的当先,代表了东谈主工智能材干的一个新水平;因此,咱们决定再交运转编号,把这一系列模子定名为OpenAI o1。

袄,底本因为这个模子相当锐利,能作念许多复杂的事情,OpenAI 以为这是一个新的起先,是以把编号再行设为1,运转一个新的系列。

那么,它为什么会有两个版块呢?官方说:

o1 mini版是个简化的版块。它在速率、体积和老本方面王人作念了优化。

这个版块在处理数学、编程推理任务时发达可以,独特适宜需要快速处理问题的步地;因为它体积小,老本也低,是以,若是你想快速得到谜底,那么o1 mini版可能更适宜你。

相对o1 preview版,是竣工版块。

比拟擅长贬责复杂的问题,比如,不管是科学问题、数学题如故编程,它王人能处理得相当好;天然,若是你碰到的问题要平日的学问或者久了的分解,那么这个版块更适宜你,因为它的推理材干相当弘远。

我不信,于是,让国产大模子Kimi Chat给我想了一个逻辑数学逻辑题,如下:

假定我有一个农场,内部有鸡和兔子。有一天,我数了数农场里动物的头和脚,发现系数有35个头和94只脚。求教,农场里各有若干只鸡和兔子?

preview版竟然很强。除了告诉我有23只鸡,和12只兔子外,还给出了门径,通盘下来,也就不到2秒。天然,这种测试用来拼集Chat确定是无压力的,若是你有时间,也可以带入职责中的问题,我方体验下。

总的来说,两个版块的主要区别是它们处理任务的材干、速率和老本;o1 mini版在速率、老本上有上风;preview版更适宜推理。

不外,践诺体验下来,没以为有什么互异,也许我自身要它作念的事情,比拟绵薄。

体验完后,仔细一想,这和GPT-4o、GPT-4omini有啥区别呢?非要搞出四个模子吗?加上GPT-4,我电脑上一经有五个模子了。

查了下官方文档,有一篇著作叫《用法学硕士学习推理》(Learning to Reason with LLMs)详备先容了一切。

他们是这样说的:

在对OpenAI的两个AI模子——o1-preview和GPT-4o的践诺使用偏好测试中,东谈主类评估者在不知情的情况下,比拟了两个模子对复杂问题的恢复。

成果涌现,在需要大王人推理的任务上,比如数据分析、编程和数学问题,天下更心爱o1-preview。因为o1-preview经过特别的强化学习造就,是以,在贬责这类问题时,推理材干更强,更高效。

然而,在天然讲话处理任务上,o1-preview的发达不如GPT-4o。这是因为它的造就重心在推理和贬抑止题的策略上,而不是在讲话的盛开度或文本生成的各样性上。

这证明,固然o1-preview在某些边界很出色,但它并不适宜扫数类型的任务,尤其是那些专注于天然讲话处理的场景。

底本如斯。

我又看了看o1-preview和o1 mini版适宜哪些东谈主。官方说,若是你在处理科学、编码、数学等边界的复杂问题,这些增强的推理材干可能独特有效。

比如:

医疗商讨东谈主员可以用o1来标注细胞测序数据;物理学家可以生成量子光学所需的复杂数学公式;各个边界的开垦者王人可以用o1来构建和实施多步的职责进程。

是以,若是你作念科学、敲代码、编程、数学方面的职责,用它再好不外了。

那么,o1-preview和o1 mini到底作念了哪些测试呢?

起先,为了涌现o1模子在推理方面比GPT-4o有多大纠正,他们在不同的东谈主体查验和机器学习基准上测试了它。

比如:

在2024年的AIME数学检修中,GPT-4o平均只贬责了12%的题目;而o1模子单次测试的平均解题率达到了74%。若是算上64次测试的平均得分,能达到83%;再行从1000个样本中名次,平均得分致使可以达到93%。

这个收获不仅让它投入了全好意思前500名,还突出了参加好意思国数学奥林匹克的分数线。

他们还用一个叫作念GPQA钻石的可贵来测试o1。这个测试波及化学、物理和生物学的专科学问。

他们请了一些领有博士学位的群众来恢复这些问题,成果发现,o1模子的发达突出了东谈主类群众,成为第一个在这个测试中获得这样收获的模子。

这并不虞味着o1在扫数方面王人比博士更锐利,而是证明它在贬责某些专科问题上更为老练。

天然,在其他一些机器学习的测试中,他们也作念了大王人测试;它在MMMU的视觉感知测试中得了78.2分,成为第一个能和东谈主类群众竞争的模子;况兼,在57个MMLU子测试中的54个名堂上,它的发达王人优于GPT-4o。

我有趣地搜索了一下,什么是 MMLU?绵薄讲,MMLU 像一场大型的轮廓检修,参加检修的不是东谈主类,而是东谈主工智能模子。

总之,这些测试最终论断是:

OpenAI的o1模子在全球编程比赛Codeforces中名依次89位,在好意思国数学奥林匹克(AIME)的资历赛中,投入了全好意思前500名。

在物理、生物学和化学问题的测试中,它的发达致使突出了博士水平。

因此,o1-preview和o1 mini在贬责高难度的推理和专科问题上发达更出色;而GPT-4o更适宜处理日常的任务。

是以,这样强的推理材干如何收尾的?要道有四个方面:

起先,o1模子用了一种“自我对弈强化学习”(Self-play RL)的花样;这是一种通过模拟环境和自我扞拒来进步模子性能的时刻。

这种花样中,模子在莫得外部指导,通过束缚尝试和荒唐来学习策略和优化有野心。

联想一下:

它就像在和我方棋战,一边玩一边学;过程中,无用别东谈主教,我方试试、出错、再试,渐渐就学会了如何作念有野心和贬抑止题。

其次,o1还师法了东谈主类的“慢想考”(Slow Thinking);这种想考要时间、致力和逻辑三者接续,就像咱们在检修时仔细想考一个可贵相似。

通过三想尔后行的样子,o1先分析问题,然后把它闭幕,再推理,再贬责;这让它在科学、编程或数学上更精确,更出色。

天然,这一步离不开想维链。

想维链的推理,还用一种特有的花样来监控模子。若是这些想维链是可读的,研发东谈主员就能“读懂”模子的想考过程。

这关于监测模子是否能主管用户活动相当有匡助,然而,为了让模子能摆脱地抒发想考,他们不在模子中加入任何与战略、用户偏好商酌的硬性次序。

因此,这个模子整合了安全战略和东谈主类价值不雅,通过在模子的谜底中重现想维链中的有效宗旨,让用户转折了解模子的想考过程。

还有极少,想维链加入了鲁棒性(Robustness)测试。所谓鲁棒性指一个系统、模子或者缔造在面临各式不测情况、干涉或者变化时,仍然能够正常职责,回绝易出问题。

比如:

一辆汽车,不管在高温、低温、下雨如故震荡的路面上,王人能正常行驶,这证明它的鲁棒性很好;在AI边界,鲁棒性指软件、模子在面临不同的数据输入、荒唐,致使坏心挫折时,仍然能保合手踏实和准确。

是以,鲁棒性强调的是在各式复杂、多变的环境下,仍然能保合手可靠和踏实的性能。

除以上两点,o1在造就时还用上了数据飞轮(Data Flywheel);它的正确谜底会被用来再造就它我方,匡助它变得更聪惠。

天然,为辅助这些复杂的想考任务,o1还用上了一些独特优化的算法、架构。这些时刻让它更快、更准确地贬抑止题,提高了它的合座材干。

总之,o1模子造就暖热五个维度:

1. 自我对弈强化学习;2. 师法东谈主类慢想考;3. 拆解了想维链的过程;4. 在想维链中加入了鲁棒性测试;5. 数据飞轮再强化。

看完官网文档,说白了,我以为他们让AI更像东谈主了。

再弘远的东西,不买卖化确定不行。那么,o1模子的老本和使用罢休有哪些呢?

o1-preview的价钱是:

每处理一百万个输入要花15好意思元,每处理一百万个输出则是60好意思元;这证明,若是你用这个版块,输入和输出的处理用度会比拟高。

爱护啊。这是什么见识?举个例子:

若是你每天和这个模子聊天100次,每次输入1000个单词,那么一天的用度是75好意思分乘以100次,等于75好意思元。按照目下汇率,75好意思元约等于540东谈主民币。

这样看来,使用这个模子的老本独特于每天花540块钱。若是你每天王人这样使用,一个月下来的破耗就相当可不雅了,堪比请一个群众了。

而o1-mini的价钱低廉一些。

每一百万个输入只需3好意思元,每一百万个输出12好意思元。但这个低廉版在功能上可能会有些罢休;若是你是ChatGPT Plus或Team的用户,就可以优先尝试o1模子的功能。

对开垦者来说,条目就严格多了,独一支付了1000好意思元的五级开垦者才能用这个模子,况兼每分钟只可调用20次。

至于API的调用罢休,o1-preview每周只可调用30次,o1-mini每周可以调用50次。这种罢休是按周来算的,不是按小时或分钟。

功能方面,目下的o1模子还不行辅助扫数的功能,比如分解图片、生成图片、暴露代码、网页搜索等。是以,用户目下只可用它来进行基本的对话。

官方还说:

固然目下o1模子老本较高,使用也有限,但跟着时刻发展和OpenAI的束缚纠正,瞻望将来会有更多用户能使用到这个模子,老本也可能会裁汰。

不管岂肯说,AI越来越像东谈主相似“三想尔后行”了,至于这个模子,谁会付费呢?谁又能为它支付1000好意思金呢?未必,独一大公司、商讨机构、有特定需求的专科东谈主士才能承担得起。

那到时候,真就成了费钱请了一个“AI群众”,是以,AI会替代群众吗?

归来‍

越来越像东谈主的模子。

谁也猜不到,改日的o1-preview(mini)会发展成什么样,至少,它确定不会是个普通的GPT。

它会发展成具身智能吗?有这个可能。跟着时刻束缚当先,o1-preview(mini)很概况率会更动一些行业的运作样子。

本文来自微信公众号:王智远,作家:王智远



热点资讯

相关资讯

Powered by 九游会J9·(china)官方网站-真人游戏第一品牌 @2013-2022 RSS地图 HTML地图