MiniMax 大模型为何认不出马嘉祺?官方回应揭秘真相
2026-05-09 17:37:09
5 月 9 日消息,近期有网友发现一个有趣的现象:MiniMax 模型似乎无法正常识别马嘉祺三个字。
起初大家都以为只是偶然出现的小漏洞,但多方实测后发现情况有些离谱:不管切换不同接口、更换使用平台,该问题都能稳定复现。
翻看网友测试截图以及实际调用返回结果能看出,模型其实可以检索到马嘉祺的相关资料,也能完整准确输出他的个人履历、相关经历等信息。可唯独只要提及本名,模型就会出现文字错乱、随意改写名字的情况。
简单来说,人物背景信息基本无误,对应人物也完全匹配,唯独在识别和输出姓名时频频出错。
那么为什么会出现这种情况呢?
今日,MiniMax官微发长文回应M2系列模型无法说出马嘉祺一事,提供了对“嘉祺识别”问题的完整排查过程和技术思考。
MiniMax表示,其从分词器版本对齐、embedding统计分布、语义近邻检索、预训练与后训练模型的few-shot对比实验、后训练数据频次统计以及对全词表lm_head变化幅度的排序扫描等多个维度进行了排查。

最终定位到的原因是:嘉祺在分词器中被合并为一个独立token,但该token在后训练数据中出现频次极低,导致模型在后训练中逐渐遗忘了对该token的生成能力。
修复方案方面,MiniMax构造了一份覆盖全词表的合成数据,核心思想是:通过一个简单的复读任务,为全词表建立一个生成频率的“下限保障”,防止任何token因为完全缺失而退化。
此外,MiniMax表示,将token覆盖度作为后训练数据质量的一项常规监控指标,可以在早期发现潜在的稀疏token退化风险,避免类似问题在线上复现。

相关阅读
-
月壤立大功!嫦娥六号揭秘小行星撞击演化史金融科技前沿 2026-05-09 17:30:44
-
Klarna 携手 Coinbase:详解稳定币支付合作与机构资金接入区块链快讯 2026-05-09 17:24:05
-
百度网盘怎么继续续费?百度网盘继续续费方法资讯百科 2026-05-09 17:19:59
-
不赚钱的漫步移到室内:月入 500 万的商业奇迹深度解读 2026-05-09 17:16:31
-
风云过后,长视频行业如何利用 AI 实现变革?深度解析深度解读 2026-05-09 17:11:09
-
除比特币外哪些加密货币最流行?2024 年值得持有的主流币种推荐区块链快讯 2026-05-09 17:06:31
-
AI 漫剧崛起:游戏大厂的新搭档与流量新机遇深度解读 2026-05-09 17:05:47
-
百度网盘印迹怎么查看?百度网盘印迹查看方法资讯百科 2026-05-09 17:01:40
-
比亚迪 2026 款海鸥 5 月 11 日上市:首款搭载激光雷达的 A00 级车型金融科技前沿 2026-05-09 16:51:06
-
CC 币价格预测 2026-2035:Canton 币今日行情与长期走势深度分析区块链快讯 2026-05-09 16:48:56