DeepSeek 发布多模态模型技术报告:性能超越 GPT-5.4,引领行业新突破
2026-05-01 10:39:01
5 月 1 日消息,DeepSeek 在 GitHub 上发布了多模态推理模型及技术报告,题为Thinking with Visual Primitives(以视觉原语思考)。
该模型基于DeepSeek V4-Flash(284B总参数、推理时激活13B的MoE架构)构建,提出了一种全新的多模态推理范式。

论文指出现有多模态大模型存在一个被忽视的根本性瓶颈:“指代鸿沟”(Reference Gap),即模型能够“看见”图片内容,但在推理过程中用自然语言构建思维链时,左边那个大的、靠近中央的红色物体这类模糊描述在密集场景中无法精确定位视觉对象,导致注意力漂移并得出错误结论。
此前学界的主流应对方向是提升感知分辨率,但论文认为看见和能说清楚在说哪个是两件不同的事。
该模型的核心创新在于将点坐标和边界框嵌入推理过程本身,使其成为思维链的基本单元。模型在推理时每提到一个视觉对象就同步输出其坐标。
例如“找到一只熊[452,23,804,411],正在爬树,排除,再往左下看,找到另一只[50,447,647,771],站在岩石边缘,符合条件。”坐标不再是事后标注的答案,而是推理过程中消除歧义的空间锚点。

架构层面,模型实现了7056倍的视觉压缩,一张756×756的图片经ViT处理后生成2916个图像块token,经3×3空间压缩合并为324个token,再通过压缩稀疏注意力(CSA)机制将KV缓存进一步压缩4倍,最终仅剩81个视觉KV条目。
作为参照,同等尺寸图片Claude Sonnet 4.6约需870个、Gemini-3-Flash约需1100个。
训练数据方面,团队从近10万个目标检测数据集中筛选出约3.17万个高质量数据源,生成超过4000万条训练样本,覆盖计数、空间推理、迷宫导航和路径追踪四类任务。
后训练采用先专家化、后统一策略,分别训练边界框和点坐标两个专家模型,经强化学习优化后通过在线策略蒸馏合并为统一模型。
实验结果在11个基准测试上与Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6等主流模型进行了对比。

计数任务上,Pixmo-Count精确匹配得分89.2%,超过Gemini-3-Flash的88.2%,大幅领先GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。
最具代表性的差距出现在拓扑推理上:迷宫导航得分66.9%,GPT-5.4为50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6为48.9%,提升约17个百分点;路径追踪得分56.7%,GPT-5.4为46.5%。
不过论文同时指出了当前局限性:模型需要明确触发词才会启用视觉原语机制,极细粒度场景下坐标精度有限,跨场景泛化能力仍有提升空间。

相关阅读
-
microsoft edge自动翻译怎么打开?microsoft edge自动翻译打开方法资讯百科 2026-05-08 10:52:25
-
Win11 优化教程:3 秒释放 CPU 性能,大幅提升应用响应速度告别卡顿金融科技前沿 2026-05-08 10:52:09
-
加密寒冬生存指南:2018 与 2022 熊市五大教训与投资智慧区块链快讯 2026-05-08 10:48:37
-
烂尾楼钢筋长出嫩芽?当事人回应:外部无种子,房屋尚余两层未建金融科技前沿 2026-05-08 10:46:59
-
男子高反晕厥导游掐人中急救反被扇耳光,当事人回应真相深度解读 2026-05-08 10:46:42
-
比特币怎么买?2024 新手入门 BTC 完整指南,手把手教你从 0 到 1 买入比特币区块链快讯 2026-05-08 10:41:32
-
网友玩疯!照片秒变 3 岁儿童画,只需一句 AI 提示词深度解读 2026-05-08 10:40:55
-
6G 技术加速攻关:工信部批复 6GHz 频段实验频率许可金融科技前沿 2026-05-08 10:40:11
-
最后冲刺!白宫力拼 7 月 4 日前通过《CLARITY 法案》:加密监管新里程碑区块链快讯 2026-05-08 10:38:45
-
佳能 EOS R6 V 定档 5 月 13 日发布:支持 7K 视频与自动散热深度解读 2026-05-08 10:35:15