当地时间2月17日,埃隆·马斯克的AI公司xAI正式推出了最新的Grok 3模型,并宣称其为目前“地球上最聪明的AI”。
Grok 3的计算能力是上一代模型Grok 2的10至15倍。xAI从三个不同类别对Grok 3进行了评估:一般数学推理、STEM和科学的一般知识,以及计算机科学编码。
Amy是美国邀请数学考试,每年举办一次,用Amy评估模型的表现,可以看到 Grok 3 在所有方面都独树一帜。即便是其简化版Grok Mini,也达到了所有其他竞争对手的前沿水平。
为了测试实时实用性,xAI启动了代号为“巧克力”的Grok 3模型盲测,该测试已在Chatbot Arena平台上运行了两周。在此盲测中,Grok 3及其早期版本均达到了1400 Elo分,超越了其他模型。同时,在CH B能力、指令遵循、编码等方面的综合得分也位居第一。
xAI已为Grok 3添加了高级推理能力,并在过去几周内进行了大量测试。例如,绘制从地球到火星的可行轨迹,并规划在稍后时间点从火星返回地球的路径;此外,还让Grok 3编写游戏,成功创建了一款结合《俄罗斯方块》和《Beed》元素的新游戏。
在数学、科学和编码三个基准测试上,Grok 3的表现均优于其他竞争对手,并展现出了真正的泛化能力。尽管xAI主要在数学问题和竞赛编码问题上训练了Grok 3的推理能力,但它却能够处理各种其他任务,如创建游戏。这表明Grok 3学会了检测自己的错误并纠正其思考方式。
Grok 3的发布同时,xAI还推出了名为“Deep Search”的新产品,这是Grok代理的第一代。它不仅助力工程师、研究人员和科学家进行编码,还能帮助每个人回答日常问题,就像下一代搜索引擎一样,真正帮助用户理解宇宙。
据xAI团队透露,Grok语音助手正在润色阶段,将很快面向公众推出。而Grok 3 API,包括推理模型和Deep Search,都将在未来几周内发布。
按照惯例,xAI将在下一个版本完全推出后开源上一个版本。因此,当Grok 3成熟且稳定时,可能在几个月内,xAI将开源Grok 2。
当被问及该项目中最困难的部分时,xAI团队表示是如何让世界上最强大的训练集群投入运营。他们在122天内搭建了10万个GPU集群,并仅用92天将其拓展至20万个GPU集群。据悉,xAI已经开始了下一个集群的建设工作,其性能将比当前的数据中心集群强大五倍。
马斯克表示,“Grok”这个词意味着完全而深刻地理解某件事,并保持同理心。xAI和Grok的使命是理解宇宙及其本质,从而弄清楚宇宙的起源、外星人的存在、生命的意义、宇宙的终结等根源性问题。