首页 > 深度解读 > 国产第一！阿里 Qwen3.7-Max 旗舰模型发布：全自主完成 35 小时复杂任务

国产第一！阿里 Qwen3.7-Max 旗舰模型发布：全自主完成 35 小时复杂任务

2026-05-20 14:53:07

5 月 20 日消息：阿里巴巴在"2026 阿里云峰会”上，正式发布了全新一代千问旗舰模型——Qwen3.7-Max。

在三方机构Arena全球大模型盲测总榜中，Qwen3.7-Max超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，与GPT、Claude、Gemini最强模型接近，位列国产模型第一。

这是千问旗舰模型近三个月内的第三次重大迭代，从3.5到3.6再到3.7，阿里大模型研发节奏明显加速。

Qwen3.7-Max面向智能体（Agent）场景全新设计，在多个核心维度实现突破。

编程方面，在SWE-Pro、SWE-Multilingual等编程智能体测评中均取得领先，Terminal Bench 2.0-Terminus得分69.7，超过DeepSeek-v4-pro-Max和Claude-Opus4.6等。

通用智能体方面，Qwen3.7-Max在MCP-Atlas、MCP-Mark、Skillbench等现实能力测试中表现优异，超越GLM5.1、Kimi-K2.6等模型，创下国产新高。

推理方面，在GPQA Diamond、HLE、HMMT 2026 Feb等推理核心测评中超越Claude-Opus4.6及所有国产模型。

通用能力上，Qwen3.7-Max在指令遵循IFBench评测中得分79.1分创下新高，多语言评测WMT24、MAXIFE中同样领先。

实战任务测试中，在一个模型训练时从未接触过的全新硬件平台平头哥真武M890芯片上，Qwen3.7-Max在没有任何性能分析数据、硬件文档或新架构的示例内核情况下，从空白工作空间出发，自主完成了推理内核优化任务。

整个过程持续35小时，模型独立进行了432次内核评估和1158次工具调用，完全自主地完成了编写、编译、性能分析与迭代改进的全流程。

最终优化后的推理内核较SGLang Triton官方参考实现取得了10倍加速。

测试轨迹显示，模型在独立运行超过30小时后仍能发现有效优化点，甚至主动发起了一次关键的架构重设计。

在Agent能力方面，Qwen3.7-Max展现出跨框架泛化能力，在Claude Code、OpenClaw、Qwen Code等框架下均能稳定发挥。

通过MCP集成和多智能体协作，该模型在办公自动化基准SpreadSheetBench-v1上斩获87分，处于顶尖水平。

阿里云表示，Qwen3.7-Max API即将上线百炼平台，后续还将推出Qwen3.7-Plus等版本，覆盖从编程智能体到视觉智能体的全场景需求。

国产第一

声明：文章不代表量链科技观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！转载请注明出处！侵权必究！