先做个广告:需要购买Gemini帐号或代充值Gemini会员,请加微信:gptchongzhi
【摘要】 AI视频生成的赛道再次迎来重磅洗牌。谷歌正式发布多模态模型Gemini Omni,这不仅是一个视频生成工具,更是一个能接受任意输入、生成任意输出的“世界模拟器”。通过整合图像模型Nano Banana、视频模型Veo与世界模型Genie,Gemini Omni在视频对话式编辑与物理规律模拟上实现了质的飞跃,直接叫板Seedance 2.0。动动嘴就能改视频、精确模拟重力动能、一键生成数字分身……AI视频的“Nano Banana时刻”已然降临,创作者的生产门槛将被彻底击穿。
推荐使用Gemini中文版,国内可直接访问:https://ai.gpt86.top
如果说过去一年,我们在AI视频领域还在纠结“谁生成的画质更清晰、动作更丝滑”,那么谷歌今天掏出的Gemini Omni,直接把战场拉到了更高的维度——可控性与物理常识。
就像此前Nano Banana模型让AI图像编辑进入“动嘴修图”时代一样,Gemini Omni正试图在视频领域复刻这种颠覆。它不再只是一个单向的“生成器”,而是一个能听懂人话、理解世界运转规律的“数字导演”。
告别抽卡,视频进入“对话式剪辑”时代
做过AI视频的朋友都知道,最痛苦的环节不是生成,而是修改。哪怕只是想微调一下画面里的某个元素,往往也需要重新跑一遍提示词,祈祷这次抽卡能出一个好结果。但Gemini Omni把这种痛点变成了历史。
在发布会演示中,最让人倒吸一口凉气的一幕,是一段“手摸镜子”的视频。你只需要用自然语言告诉Omni:“当人触摸镜子时,让镜子像液体一样泛起美丽的涟漪,人的手臂变成反光材质。”奇迹就发生了——原视频中人物的原始动作被完美保留,但镜子的物理状态和手臂材质却被精准替换,毫无违和感。
这背后是Omni强大的多轮对话与上下文保持能力。每一次你对视频下达的新指令,它都会基于前一次的结果进行迭代,而不会像以前的模型那样“狗熊掰棒子”,改了后面就忘了前面。这意味着,你完全可以把一段粗糙的手机拍摄素材扔给它,然后像跟剪辑师提需求一样,一步步把它雕琢成大片。
懂像素更懂牛顿,这才是最可怕的
如果说对话式编辑是交互层面的革新,那么物理模拟能力则是Omni在底层技术上的硬核突围。
长久以来,AI生成的视频总带着一股“塑料感”,原因就在于模型只懂像素排列,不懂物理法则。而Gemini Omni整合了世界模型Genie的能力,在模拟动能、重力等现象时实现了质的飞跃。
当你让它生成“一条在连锁反应轨道上快速滚动的弹珠”时,它展现出的不是随机的动画效果,而是对势能转化为动能、碰撞动量守恒的精确理解。更离谱的是那个全网刷屏的“字母表物品视频”:在一个长镜头里,26个英文字母对应26个毫不相干的物体(比如C对应水豚、D对应迪斯科球、L对应熔岩灯),Omni不仅能精准对应,还能处理好复杂的画面节奏、字幕形式甚至背景音乐的风格。
这就意味着,Omni已经开始建立语言、图像与现实物理意义之间的深层映射,而不是仅仅在做表层的视觉缝合。
正面硬刚Seedance 2.0,谁才是视频之王?
既然是“最强对手”,自然少不了与目前行业顶流Seedance 2.0的正面碰撞。从目前社区的实测对比来看,两者各有千秋:
Seedance 2.0:依然保持着极高的生成稳定性,画面质感和运动幅度的把控非常老练,属于“下限极高”的六边形战士。
Gemini Omni:在常规场景下表现与Seedance旗鼓相当,但在需要强物理逻辑支撑的特定场景(如复杂的刚体碰撞、流体动力学模拟、多元素协同变化)中,Omni展现出了更强的常识理解力,画面少了几分“漂浮感”。
可以说,如果你要的是一支质感唯美的广告片,Seedance依然稳妥;但如果你要做一段包含复杂机关的鲁布·戈德堡机械视频,Omni显然更懂你。
工具已就位,但规则仍在重塑
目前,Gemini Omni Flash已全面登陆Google各大产品线,面向AI Plus、Pro和Ultra订阅用户开放。在Gemini应用端,用户可以直接选择“生成视频”,体验18种从复古MV到赛博朋克的预设风格。Pro账户每天有3次生成机会。
除了常规生成,谷歌还推出了极具玩味的**Avatar(数字分身)**功能,你可以克隆自己的外貌和声音,直接在提示词里输入“@我的名字在交响乐团唱歌”,就能生成有自己脸的定制视频。
当然,门槛的降低必然伴随风险的升级。为了应对Deepfake的泛滥,谷歌强硬表态:所有由Omni生成的视频都会嵌入肉眼不可见的SynthID数字水印,且可随时验证来源。这在版权争议与伪造危机四伏的当下,算是给出了一个负责任的技术底线。
大国AI观察:
从“一句话生成视频”到“一句话改写现实”,Gemini Omni带来的绝不仅仅是制作效率的提升。当视频这种最具感染力的媒介被彻底拉低门槛,当物理世界的规律被代码精准复刻,我们迎来的将是一个内容爆炸的时代,也是一个真假边界愈发模糊的时代。对于创作者而言,与其担忧被AI取代,不如尽早掌握这些能把任何奇思妙想瞬间落地的“魔法棒”——毕竟,在AI懂牛顿定律的今天,想象力才是唯一的稀缺资源。
文章来源: 大国Ai导航(daguoai.com)综合整理 | 原始素材参考:APPSO、Google Official Blog

