谷歌推出 Gemini Omni:语音指令即可 AI 自动修图,全能多模态新突破
2026-05-20 17:09:23
5 月 20 日消息:在 Google I/O 2026 上,谷歌正式发布 Gemini Omni 模型。该模型支持文本、图像、音频、视频作为输入,实现跨模态生成与编辑。
其中在音频方面,目前该模型初期仅支持语音输入,但Google表示未来将很快扩展更多类型的音频输入能力。
首发产品Gemini Omni Flash已在Gemini应用上线,后续将向企业客户开放API。
该模型核心卖点在于深度视频编辑能力。用户通过自然语言指令即可对生成内容持续迭代,包括添加或删除对象、切换摄像机角度、修改环境与风格。
得益于模型对物理规律的理解以及对历史、科学、文化知识的整合,生成的视频在角色、场景及视觉逻辑上高度连贯,甚至能推测后续情节。用户亦可创建个人数字分身,并将其植入视频中。
谷歌在安全领域同步布局,所有通过Omni生成的视频均会自动嵌入SynthID数字水印,支持通过Google搜索及Chrome验证。
Gemini Omni Flash 现已面向拥有 Google AI Plus/Pro/Ultra 订阅的用户在 Gemini 应用和 Google Flow 中推出。此外,它还免费向希望混剪 YouTube Shorts 的用户以及 YouTube Create 应用用户推出。
Google DeepMind负责人哈萨比斯表示,该模型正推动AI从单纯的任务执行向通用人工智能(AGI)迈进。

声明:文章不代表量链科技观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!转载请注明出处!侵权必究!
相关阅读
-
华为 MatePad Pro Max 发布:4.7mm/499g 全球最轻薄大平板深度解读 2026-05-20 17:07:08
-
淘宝在线状态怎么关闭?淘宝在线状态关闭方法资讯百科 2026-05-20 17:04:54
-
学习通怎么下载ppt?学习通下载ppt教程资讯百科 2026-05-20 16:47:15
-
IGN 满分神作!《地平线 6》玩家数破 380 万,服务器被挤爆金融科技前沿 2026-05-20 16:40:27
-
DeepSeek 正式对标美国编程巨头:亲自下场打造 Claude 最强竞品金融科技前沿 2026-05-20 16:34:55
-
小米 17 Max 跑分首发:第五代骁龙 8 至尊版 +16GB 内存性能揭秘深度解读 2026-05-20 16:34:16
-
高德地图红绿灯倒计时功能出海:路口读秒体验惊艳海外用户金融科技前沿 2026-05-20 16:29:25
-
夸克浏览器怎么设置为默认浏览器?夸克浏览器设置为默认浏览器方法资讯百科 2026-05-20 16:29:11
-
千匹性能怪兽!小米 YU7 GT 五款配色曝光,哪款最值得买?深度解读 2026-05-20 16:28:29
-
Windows 11 搜索弹窗广告将修复:搜应用不再误播视频金融科技前沿 2026-05-20 16:23:13