Claude 3.7硬控马里奥90秒 GPT

AI资讯4周前发布 XiaoWen
118 0 0

Claude 3.7硬控马里奥90秒 GPT


新智元报道

编辑:编辑部 HYj


【新智元导读】

Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体,Claude 3.7结果令人瞠目结舌。

LLM评估基准的「黄金标准」,正在失效?

一大早,AI大神Karpathy发出质疑,「目前存在一种评估危机,我真的不知道现在该看哪些指标了」。

Claude 3.7硬控马里奥90秒 GPT

诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准,各有自己的优劣之处。

如果这些都不够,那么游戏算不算?

毕竟,曾经红极一时的AlphaGo是围棋界的头号AI;就连OpenAI也早年涉足游戏领域,拿着自研AI在DOTA国际赛中取得亮眼的成绩。

最近,Claude 3.7的出世,让「宝可梦」一时间成为LLM评判的新标杆。

UCSD Hao AI Lab再次出手,开源了一种全新的「游戏智能体」,能够实时让计算机使用智能体(CUA)运行解谜、益智等类型的游戏。

结果显示,Claude 3.7 Sonnet玩超级马里奥足足撑满90s,直接碾压了OpenAI、Gemini和自家前辈;而GPT4o一上来就直接挂掉了……

谷歌选手Gemini 1.5 Pro首战即败,而且非常有规律地两步一跳。到了Gemini 2.0虽多走了几步,最终还是栽坑。

Claude 3.7硬控马里奥90秒 GPT

GamingAgent项目代码已开源,下载安装即可观战AI游戏大PK。

Claude 3.7硬控马里奥90秒 GPT

开源地址:

「游戏智能体」演示demo

GPT-4.5反应迟钝,GPT-4o永远被第一个小怪杀死

GPT-4o总是被第一个小怪杀死,像极了操作很烂会被队友喷的游戏菜鸡。

短短20s,游戏就结束了。

Claude 3.7硬控马里奥90秒 GPT

相比之下,GPT-4.5的表现就好多了,起码没卡在第一个小怪。

Claude 3.7硬控马里奥90秒 GPT

但它的反应还是很迟缓,几乎是两步一停。

跳过一个矮水管之前,也要犹豫片刻,感觉像是刚学会了游戏操作,还在蹒跚学步。

Claude 3.7硬控马里奥90秒 GPT

一个稍高点的水管,尝试了7次,足足花了10s才跳了过去。

Claude 3.7硬控马里奥90秒 GPT

好不容易跳了过去,就撞到小怪死掉了。第一回合就这样告终了。

Claude 3.7硬控马里奥90秒 GPT

更好笑的是,第二回合的时候,GPT-4.5又栽倒在了第一个小怪那里。毕竟和GPT-4o同属于OpenAI家族,操作都比较菜(bushi)。

Claude 3.7硬控马里奥90秒 GPT

第三回合表现也比较一般,还不如第一回合。第一个矮水管就卡了半天,搁水管底下卡了快10s才想起来跳。

Claude 3.7硬控马里奥90秒 GPT

最后虽然丝滑地跳过了第二个水管,但还是被小怪杀死了,还没有第一回合走得远。第一回合起码跳过了第三个水管,虽说刚跳过就被杀了。

Claude 3.7硬控马里奥90秒 GPT

GPT-4.5完整视频

Gemini 1.5两步一跳,2.0栽进坑里

到了谷歌这边,Gemini 1.5 Pro首战也不如意,没能逃过第一个小怪的魔爪。

Claude 3.7硬控马里奥90秒 GPT

第二回合Gemini 1.5算是躲过了第一个小怪,甚至还碰到了问号箱,吃到了蘑菇。

Claude 3.7硬控马里奥90秒 GPT

有趣的是,和GPT-4.5两步一停不同,Gemini 1.5是「两步一跳」。

走了这么一小段路,一共就跳了9回。地板上也跳一跳,水管上也跳一跳。

Claude 3.7硬控马里奥90秒 GPT

最后也是跳过了第三根水管,甚至差点跳过了第四个,算是走得比GPT-4.5要远。

Claude 3.7硬控马里奥90秒 GPT

至于更新的Gemini 2.0 Flash,表现上不出意外地要好得多。

首先,跳得更大胆;其次,跳得也更流畅。

跳到了「前人」未曾涉足的更高的平台上,而且10s就轻松跳过了前面三个水管。

Claude 3.7硬控马里奥90秒 GPT

虽然第二回合的时候也惨遭第一个小怪的毒手。

Claude 3.7硬控马里奥90秒 GPT

但最后走得比OpenAI家族和Gemini 1.5都远——跳过了第四根水管,栽倒在了一个没能跳过去的坑中。

Claude 3.7硬控马里奥90秒 GPT

Gemini 2.0 Flash完整视频

Claude 3.7 Sonnet发现隐藏奖励

相比之下,Anthropic的Claude,就要惊艳多了。

Claude 3.7硬控马里奥90秒 GPT

相比于Gemini两步一跳的操作,Claude 3.7的操作更加丝滑,走得也远很多。

尤其是在跳跃的时机上,显得更有章法,碰到水管、碰到坑才会跳。

Claude 3.7硬控马里奥90秒 GPT

此外,还会有意识地通过跳跃来躲避小怪。

Claude 3.7硬控马里奥90秒 GPT

跳过了Gemini 2.0 Flash两回合都没跳过去的坑,Claude操作下的马里奥终于是吃到了金币;终于是碰到了除了哥布林(形似蘑菇)之外的小怪——库巴(形似乌龟);甚至还碰出了隐藏奖励——超级星星。

Claude 3.7硬控马里奥90秒 GPT

最后是掉到了阶梯平台之间的坑里,结束了游戏。

Claude 3.7硬控马里奥90秒 GPT

AI大战2048益智游戏,GPT-4o拿不出手

接下来,再看一个益智类的游戏2048。

可能很多人对这款游戏并不熟悉,规则是通过滑动进行拼图,玩家将带有相同数字的方块合并,达到可能最高的数值。

GPT-4o在挑战过程中,因为思考过久,陷入困境。

而Claude 3.7虽多走了几步,比GPT-4o强不少,但最终还是以失败告终。

Claude 3.7硬控马里奥90秒 GPT

俄罗斯方块,智商在线

那么Claude 3.7玩的表现,又如何呢?

Claude 3.7硬控马里奥90秒 GPT

Anthropic开发者关系负责人Alex Albert称赞道,「非常酷!我们需要把每一款电子游戏都变成一种评估工具」。

Claude 3.7硬控马里奥90秒 GPT

已经有网友在评论区许愿,让Grok 3加入战场。

看来,LLM评估即将开辟一条全新的路。

© 版权声明

相关文章

暂无评论

none
暂无评论...