7个AI打了200多场"狼人杀"!GPT-5胜率断崖式领先
2025-09-04 11:40:29
近日,OpenAI的总裁格雷格・布罗克曼转发了这样的一个基准测试:让7个强大的LLMs,包括开源和闭源,玩了210场完整的狼人杀。

其中GPT-5断崖式领先,胜率达到了惊人的96.7%!是目前当之无愧的MVP。国产模型中Qwen3和Kimi-K2分别位列第4和第6位。

官方博客分享了一些有趣的分析,包括这些模型在狼人杀游戏中表现出的性格特质。
比如Kimi-K2居然学会了“悍跳”:在作为狼人且犯了明显错误的情况下,选择公开声称自己是女巫,并成功扭转了局面。可以说是很大胆激进了。
在这场测试中,每对模型进行10场比赛:其中5场由一个模型控制狼玩家,另一个模型运行村民;另外5场角色互换。
这种设置能够看到两个维度:当模型是狼人时,它操纵其他玩家;当它是村民时,它抵抗被操纵。7个模型两两对决时,GPT-5完全没有败绩。

声明:文章不代表量链科技观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
相关阅读
-
佳能 EOS R6 V 定档 5 月 13 日发布:支持 7K 视频与自动散热深度解读 2026-05-08 10:35:15
-
百度网盘时光轴在哪里?百度网盘时光轴打开方法资讯百科 2026-05-08 10:35:05
-
190 元榴莲遭仅退款?商家驱车 1600 公里翻垃圾桶取证,结局大快人心金融科技前沿 2026-05-08 10:34:41
-
索尼 A7R6 定档 5 月 13 日发布:佳能 A1M2 最强杀手来袭深度解读 2026-05-08 10:29:47
-
加密货币的价值从何而来?深度解析其核心来源与投资逻辑区块链快讯 2026-05-08 10:29:45
-
汽车零重力座椅保险引热议:碰撞风险堪比 5 楼坠落、误夹儿童隐患解析金融科技前沿 2026-05-08 10:28:33
-
见者好运!印尼天空惊现绝美彩虹云,持续半小时奇观深度解读 2026-05-08 10:24:42
-
胖东来回应被质疑套取国补:发长文否认,强调产品均明码标价金融科技前沿 2026-05-08 10:23:02
-
AgentLISA (LISA) 币深度解析:项目概述、代币经济模型与路线图全攻略区块链快讯 2026-05-08 10:23:01
-
概率思维是什么?加密交易必备的概率思维实战指南区块链快讯 2026-05-08 10:20:39