个月次升级，可灵进化到什么程度了

经验 2024年09月20日 09:29 43 admin

备受期待的「草莓大模型」最终以o1为名正式发布，预示着今年下半年的大模型竞争将再度升温。尽管OpenAI这次没有提及o1在多模态的相关进展，但在同一天，隔壁视频生成赛道的「卷王」可灵AI又要出招了，对于大多数普通用户来说，比起怎么解奥数题，轻松生成高质量图片或者视频的需求可能更加迫切。

在9月13日的快手投资者日上，快手高级副总裁、主站业务与社区科学线负责人盖坤透露，可灵正在内测1.5版本的基础模型。这一新模型预计在图像质量、美学表现、运动合理性以及语义理解方面有显著提升。与此同时，还将引入「运动笔刷」功能，进一步提升可灵AI的视频编辑能力。

自可灵AI今年6月正式发布以来，视频生成领域掀起了一场「军备竞赛」。简单数了数，这已经是可灵AI的第九次迭代和升级，这一切就发生在短短三个月里。

我们第一时间申请加入到内测中，一窥究竟。

01只有1.5能打败1.0离真实世界更近一步

三个月前，可灵AI刚出现的时候，复刻了Sora视频生成的的一些经典作品（比如东京女人逛街以及吃泡面），外界已然惊呼「这已经不像是AI生成的了」。彼时，视频生成赛道正值第一批最卷的玩家交出作业，可灵AI异军突起，率先能把复杂场景理解清楚并且生成出来，引发了全球范围的极大关注。

如果说，三个月前，刚出场的可灵AI还在和市场上其他产品比拼，那三个月后，「它的参考对象好像只有自己」。

上面这句话是我看到可灵1.5模型如何击败1.0时的第一印象。

仍然是这个最初让可灵惊艳众人的「东京女人逛街」场景。这里我们把完整的Prompt放在这里：

一个时髦的女人走在东京的街道上，到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子，拿着一个黑色钱包。她戴着太阳镜，涂着红色的口红。她走起路来自信而随意。街道是潮湿和反光的，创造了一个彩色灯光的镜子效果。许多行人走来走去。

最明显的区别是可灵1.5版本在清晰度上比可灵1.0版本又提升了一档。在高表现模式下，前者生成视频的分辨率已经可以达到1080p，相比之下可灵1.0版本只有720p。

因此这组视频中可灵1.5版本生成的那个版本里，可以清晰的看到女人衣服上经过光反射出来的细腻质地，手包上的纹路刻画也比之前精细很多。

并且与可灵1.0版本相比，可灵1.5版本生成的女性服装上加入了拉链的设计，这表明视频的分辨率达到了较高的要求。

但画面体感上的区别只是第一层。两个视频中更大的差异其实还藏在画质背后，在她周遭的环境中所展现出来的变化——同样的Prompt，可灵1.0版本时的行人都是往远处走的背影，可灵1.5版本中则更真实的出现了大量同方向的人群。

同方向走来的人多了，这意味着更多的人脸画面生成，更复杂的人物细节（一个人物的正面不管从表情到服装，刻画复杂度大概率要比背影更高），以及让这一切动态的流动在画面中，对整个物理世界的理解难度。

或许可以换个理解，绘画时画群像偷懒的方法之一就是把不重要的人物设置成背影，AI生成亦如是。而视频生成分辨率的增加有助于远景的推理。也就是说，画质的提升不只是某种「雕花」，而是真实拉高了可灵的视频生成能力。

当你的眼睛随便去捕捉画面中的一个陌生人，看到TA行走时真实的脸部轮廓，挎包随着向前行走的身体姿态有规律的和身体发生碰撞，眼睛则照顾着自己和女主角的物理位置并朝她看——真的很难不感到惊讶。

上面是群像，下面我们来看看怼脸的人物特写。

这是一张可灵1.0版本生成的个人特写，Prompt是这样的：

女主角缓慢看向镜头，背景是模糊的城市夜景，主角被正前方的人工光源照亮，强调出面部轮廓，镜头缓慢的移动到主角的面部上

下面则是同样的Prompt以可灵1.5版本生成的：

可灵1.0版本的视频效果已经足够优秀，但不得不说，从脸部轮廓的塑造、对光影的理解上来看，对比之下可灵1.5版本在生成能力上的提升是非常具象的。

并且这里还有一个关于Prompt的理解提升。在可灵1.0版本中，特写的女性眼神从头到尾都盯着镜头，而在新生成的画面中，它开始真正理解Prompt中「女主角缓慢看向镜头」的意思，更符合描述。可灵基础模型在语义理解能力上的进步，显然也映射到了视频生成效果上。

除了分辨率和理解能力，这次可灵1.5版本在运动表现的合理性上也有了不小的进化。

再比如我尝试了一个更复杂的「杯中帆船」场景，这其中有船的运动，水面的运动以及对两者相对状态的考察。Prompt是这样的：

生成一个特写镜头动画，展现一艘微型帆船在一杯水中航行。杯子里的水清澈透明，可以清晰地看到帆船的倒影和水波的涟漪。帆船的帆布是鲜红色的，上面印着白色的条纹，随着微风轻轻摇摆。水面上漂浮着几片微小的绿色叶子，仿佛是帆船航行途中的小岛。画面整体充满童话色彩，光线柔和温暖。

可灵1.0版本尚无法很好的理解「杯子」这个限制条件，给出了一个几乎无限的湖面。「叶片像岛屿」的比喻在呈现细节上也显得太过用力还是有些怪异：

但在可灵1.5版本的能力下，这个Prompt被充分实现了：

这艘帆船简直就像漂浮在一杯马天尼中那么优雅。

这三组对比视频已经大概能看出，可灵1.5目前在文生视频能力上的水准。但这只是可灵能力的一部分。在图生视频能力上的进化，可灵1.5有点超出我的想象力了。

看到下面这段视频的时候我并没有在意，但当我知道这段孩子凑到碗边，从碗中舀勺的画面是单纯从一张食物特写照片里「无中生有」的，还是有不小的震撼。

可灵1.5版本生成的视频：

这个视频所有的素材来源——一张没有人物的食物照片和一段仅仅21个字的Prompt：

镜头拉远，一个小男孩走到桌前拿起勺子开始吃饭。

镜头的微微晃动，一个黑色勺子「入场」，然后画面聚焦到握着勺子的小男孩，眼看着他将一勺饭菜送到嘴里。甚至勺子在碗里拨开饭粒的细节都被刻画出来了。

运动合理性以及图生视频理解能力的同步提升，对于一些实用场景已经有点降维打击的意思了。

比如做一份手机的360度环拍视频素材。

在之前你可能需要一个环绕旋转拍摄台（至少需要一个能自转的托盘），一台相机以及一套灯光设备。现在，你有一张光线良好的产品照片可能真的足够了。

02运动笔刷加持让视频生成更易掌控

做最靠近用户的那款AI产品，这是可灵AI从问世一开始就给外界的印象。这次升级，快手还带来了全新功能「运动笔刷」功能，大幅提升了对视频生成的控制能力。

运动笔刷使用起来很简单，你只需要将图片中需要控制运动方向的部分勾勒出来，然后给他画一个示意运动方向的箭头。可灵1.0模型在图生视频时，现在支持上传图片后最多为图中的6个元素（人或物体等）指定运动轨迹，并且还可以为某些元素额外指定静止区域，个月次升级，可灵进化到什么程度了来让视频内容有更好的运动控制及运动表现。

我们拿一张帆船航行的照片来做例子。

选定帆船主体向左移动，湖面向右移动：

然后一个非常写实的帆船航行视频就生成了：

简单来说，有了运动笔刷之后，可灵AI图生视频的能力比之前变得更加可掌控，创作者可以更完整的把真实世界的规则尽可能的兑现到想要生成的视频里——比如两只小狗同框，他们大概率不会以同一个频率和方向摇头晃脑。

现在可以通过在生成阶段「微调」，让两只小狗向两个不同方向摆头，与此同时，给几株植物一个随风摆动的动作命令：

这次运动笔刷也覆盖了横屏（16:9、4:3）、竖屏（9:16、3:4）以及方屏（1:1）等多种尺寸的图片，充分满足了不同场景下的创作需求。

感觉的出，可灵此次的产品迭代完全围绕着用户的创作来进行，因为除了模型生成能力本身的提升外，另外一些变化完全打在创作者此前的使用痛点上。

比如生成视频的效率，以及视频长度。

此次迭代后，可灵开始支持一次性生成最多4条视频，这为创作者提供了更多选择空间。此外，新版本还扩展了视频时长支持，从原本的5s扩充到了10秒。高性能模式下可灵也第一次支持增加尾帧，进一步丰富了创作可能性。

这是一个上限更高，同时比之前更加好用的可灵AI。先享受上的创作者们已经给出了积极反馈。

有创作者用可灵尝试生成了一台跑车的展示视频：

「试用了最新的可灵1.5版本模型，宽容度高了很多。」