京东开源JoyAI-Echo框架助力突破长视频生成难题,跻身全球AI技术第一梯队
2026-06-04 13:37:45
6月3日消息,今日京东宣布推出JoyAI-Echo长音视频生成框架,声称该框架能够解决行业长期困扰的长视频生成的三大难题:<ul><li>角色易崩</li><li>声音乱变</li><li>生成缓慢</li></ul>
目前,JoyAI-Echo代码与权重已全部开源,项目页和GitHub代码仓库均已上线,开发者和创作者可进行体验和二次开发。
京东表示,JoyAI-Echo的推出,标志着京东在长视频生成领域实现重大突破,进入全球第一梯队。
据了解,JoyAI-Echo内置跨模态音视频记忆库,可在多镜头生成过程中持续保存并调用角色外观特征和说话人音色信息。
实测结果显示,在长达5分钟的视频中,角色身份、视觉形象和声音音色均能保持高度一致,避免出现同一个人演着演着变成另一个人”的问题。
同时,京东提出记忆驱动后训练流程,结合SFT、跨模态RLHF和Distribution Matching Distillation(DMD)技术,在提升生成质量的同时实现推理加速。

其中,仅DMD技术就带来约7.5倍速度提升,让长视频生成效率大幅提高。
此外,JoyAI-Echo还加入智能导演助理”Director Agent,用户只需用自然语言描述需求,它就能自动拆分剧本、角色、场景和镜头。
如果生成结果中有局部镜头不满意,用户也可以直接通过对话提出修改,系统只需重新生成有问题的部分,不必整条视频重来。
为满足专业内容生产需求,JoyAI-Echo还配套实时超分模块,支持736 x 1280提升至11521920,以及7361280提升至14722560两档分辨率。
通过单步超分,JoyAI-Echo可生成高分辨率视频和精细化音频,即便在流式延迟约束下,也能保持稳定高清表现。
评测方面,研究团队基于100个故事、3000个镜头构建了专门的长音视频生成评测集,对JoyAI-Echo进行多维度测试。
结果显示,JoyAI-Echo在跨镜头一致性、视频质量、文本一致性和语音内容准确率等核心指标上均取得领先表现,其中语音内容准确率达到0.8646,领先行业其他同类模型。
相关阅读
-
苹果实测新款OLED背板,Apple Watch续航升级即将到来深度解读 2026-06-04 13:33:03
-
日本首款抑郁症治疗App正式上线:引入认知行为疗法助力心理健康金融科技前沿 2026-06-04 13:32:06
-
苹果安卓设备实现原生隔空投送功能上线,无需使用聊天软件传输图片金融科技前沿 2026-06-04 13:25:51
-
五年前高通骁龙8cx三代迷你主板评测,行业首次发布,售价仅799元金融科技前沿 2026-06-04 13:20:10
-
华为Mate 90外观曝光,重现Mate 70经典圆形镜头,年度最强Mate旗舰手机推荐金融科技前沿 2026-06-04 13:14:28
-
Intel 13代酷睿新品发布:5.7GHz 12核大核,售价超7000元金融科技前沿 2026-06-04 13:08:55
-
DeepSeek完成首轮5亿资金募集,腾讯与宁德时代拟战略投资深度解读 2026-06-04 13:04:59
-
阿什莉体模《漫威争锋》泳装Cosplay美图:军帽礼服尽显魅力金融科技前沿 2026-06-04 13:02:28
-
豆包官方宣布推出专业版,常用功能继续收费,提升用户体验深度解读 2026-06-04 12:59:53
-
3DMark 4K光线追踪测试首曝:超分与帧生成技术新规范解析金融科技前沿 2026-06-04 12:57:01