在炎炎夏日,一场突如其来的高温天气给我们的学校带来了严峻的挑战,某学校在高温下进行军训时,不幸发生了多名学生中暑住院的严重事件,这一事件引起了社会各界...
2024-09-20 2
备受期待的「草莓大模型」最终以o1为名正式发布,预示着今年下半年的大模型竞争将再度升温。尽管OpenAI这次没有提及o1在多模态的相关进展,但在同一天,隔壁视频生成赛道的「卷王」可灵AI又要出招了,对于大多数普通用户来说,比起怎么解奥数题,轻松生成高质量图片或者视频的需求可能更加迫切。
在9月13日的快手投资者日上,快手高级副总裁、主站业务与社区科学线负责人盖坤透露,可灵正在内测1.5版本的基础模型。这一新模型预计在图像质量、美学表现、运动合理性以及语义理解方面有显著提升。与此同时,还将引入「运动笔刷」功能,进一步提升可灵AI的视频编辑能力。
自可灵AI今年6月正式发布以来,视频生成领域掀起了一场「军备竞赛」。简单数了数,这已经是可灵AI的第九次迭代和升级,这一切就发生在短短三个月里。
我们第一时间申请加入到内测中,一窥究竟。
01只有1.5能打败1.0离真实世界更近一步
三个月前,可灵AI刚出现的时候,复刻了Sora视频生成的的一些经典作品(比如东京女人逛街以及吃泡面),外界已然惊呼「这已经不像是AI生成的了」。彼时,视频生成赛道正值第一批最卷的玩家交出作业,可灵AI异军突起,率先能把复杂场景理解清楚并且生成出来,引发了全球范围的极大关注。
如果说,三个月前,刚出场的可灵AI还在和市场上其他产品比拼,那三个月后,「它的参考对象好像只有自己」。
上面这句话是我看到可灵1.5模型如何击败1.0时的第一印象。
仍然是这个最初让可灵惊艳众人的「东京女人逛街」场景。这里我们把完整的Prompt放在这里:
一个时髦的女人走在东京的街道上,到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色的口红。她走起路来自信而随意。街道是潮湿和反光的,创造了一个彩色灯光的镜子效果。许多行人走来走去。
最明显的区别是可灵1.5版本在清晰度上比可灵1.0版本又提升了一档。在高表现模式下,前者生成视频的分辨率已经可以达到1080p,相比之下可灵1.0版本只有720p。
因此这组视频中可灵1.5版本生成的那个版本里,可以清晰的看到女人衣服上经过光反射出来的细腻质地,手包上的纹路刻画也比之前精细很多。
并且与可灵1.0版本相比,可灵1.5版本生成的女性服装上加入了拉链的设计,这表明视频的分辨率达到了较高的要求。
但画面体感上的区别只是第一层。两个视频中更大的差异其实还藏在画质背后,在她周遭的环境中所展现出来的变化——同样的Prompt,可灵1.0版本时的行人都是往远处走的背影,可灵1.5版本中则更真实的出现了大量同方向的人群。
同方向走来的人多了,这意味着更多的人脸画面生成,更复杂的人物细节(一个人物的正面不管从表情到服装,刻画复杂度大概率要比背影更高),以及让这一切动态的流动在画面中,对整个物理世界的理解难度。
或许可以换个理解,绘画时画群像偷懒的方法之一就是把不重要的人物设置成背影,AI生成亦如是。而视频生成分辨率的增加有助于远景的推理。也就是说,画质的提升不只是某种「雕花」,而是真实拉高了可灵的视频生成能力。
当你的眼睛随便去捕捉画面中的一个陌生人,看到TA行走时真实的脸部轮廓,挎包随着向前行走的身体姿态有规律的和身体发生碰撞,眼睛则照顾着自己和女主角的物理位置并朝她看——真的很难不感到惊讶。
上面是群像,下面我们来看看怼脸的人物特写。
这是一张可灵1.0版本生成的个人特写,Prompt是这样的:
女主角缓慢看向镜头,背景是模糊的城市夜景,主角被正前方的人工光源照亮,强调出面部轮廓,镜头缓慢的移动到主角的面部上
下面则是同样的Prompt以可灵1.5版本生成的:
可灵1.0版本的视频效果已经足够优秀,但不得不说,从脸部轮廓的塑造、对光影的理解上来看,对比之下可灵1.5版本在生成能力上的提升是非常具象的。
并且这里还有一个关于Prompt的理解提升。在可灵1.0版本中,特写的女性眼神从头到尾都盯着镜头,而在新生成的画面中,它开始真正理解Prompt中「女主角缓慢看向镜头」的意思,更符合描述。可灵基础模型在语义理解能力上的进步,显然也映射到了视频生成效果上。
除了分辨率和理解能力,这次可灵1.5版本在运动表现的合理性上也有了不小的进化。
再比如我尝试了一个更复杂的「杯中帆船」场景,这其中有船的运动,水面的运动以及对两者相对状态的考察。Prompt是这样的:
生成一个特写镜头动画,展现一艘微型帆船在一杯水中航行。杯子里的水清澈透明,可以清晰地看到帆船的倒影和水波的涟漪。帆船的帆布是鲜红色的,上面印着白色的条纹,随着微风轻轻摇摆。水面上漂浮着几片微小的绿色叶子,仿佛是帆船航行途中的小岛。画面整体充满童话色彩,光线柔和温暖。
可灵1.0版本尚无法很好的理解「杯子」这个限制条件,给出了一个几乎无限的湖面。「叶片像岛屿」的比喻在呈现细节上也显得太过用力还是有些怪异:
但在可灵1.5版本的能力下,这个Prompt被充分实现了:
这艘帆船简直就像漂浮在一杯马天尼中那么优雅。
这三组对比视频已经大概能看出,可灵1.5目前在文生视频能力上的水准。但这只是可灵能力的一部分。在图生视频能力上的进化,可灵1.5有点超出我的想象力了。
看到下面这段视频的时候我并没有在意,但当我知道这段孩子凑到碗边,从碗中舀勺的画面是单纯从一张食物特写照片里「无中生有」的,还是有不小的震撼。
可灵1.5版本生成的视频:
这个视频所有的素材来源——一张没有人物的食物照片和一段仅仅21个字的Prompt:
镜头拉远,一个小男孩走到桌前拿起勺子开始吃饭。
镜头的微微晃动,一个黑色勺子「入场」,然后画面聚焦到握着勺子的小男孩,眼看着他将一勺饭菜送到嘴里。甚至勺子在碗里拨开饭粒的细节都被刻画出来了。
运动合理性以及图生视频理解能力的同步提升,对于一些实用场景已经有点降维打击的意思了。
比如做一份手机的360度环拍视频素材。
在之前你可能需要一个环绕旋转拍摄台(至少需要一个能自转的托盘),一台相机以及一套灯光设备。现在,你有一张光线良好的产品照片可能真的足够了。
02运动笔刷加持让视频生成更易掌控
做最靠近用户的那款AI产品,这是可灵AI从问世一开始就给外界的印象。这次升级,快手还带来了全新功能「运动笔刷」功能,大幅提升了对视频生成的控制能力。
运动笔刷使用起来很简单,你只需要将图片中需要控制运动方向的部分勾勒出来,然后给他画一个示意运动方向的箭头。可灵1.0模型在图生视频时,现在支持上传图片后最多为图中的6个元素(人或物体等)指定运动轨迹,并且还可以为某些元素额外指定静止区域,个月次升级,可灵进化到什么程度了来让视频内容有更好的运动控制及运动表现。
我们拿一张帆船航行的照片来做例子。
选定帆船主体向左移动,湖面向右移动:
然后一个非常写实的帆船航行视频就生成了:
简单来说,有了运动笔刷之后,可灵AI图生视频的能力比之前变得更加可掌控,创作者可以更完整的把真实世界的规则尽可能的兑现到想要生成的视频里——比如两只小狗同框,他们大概率不会以同一个频率和方向摇头晃脑。
现在可以通过在生成阶段「微调」,让两只小狗向两个不同方向摆头,与此同时,给几株植物一个随风摆动的动作命令:
这次运动笔刷也覆盖了横屏(16:9、4:3)、竖屏(9:16、3:4)以及方屏(1:1)等多种尺寸的图片,充分满足了不同场景下的创作需求。
感觉的出,可灵此次的产品迭代完全围绕着用户的创作来进行,因为除了模型生成能力本身的提升外,另外一些变化完全打在创作者此前的使用痛点上。
比如生成视频的效率,以及视频长度。
此次迭代后,可灵开始支持一次性生成最多4条视频,这为创作者提供了更多选择空间。此外,新版本还扩展了视频时长支持,从原本的5s扩充到了10秒。高性能模式下可灵也第一次支持增加尾帧,进一步丰富了创作可能性。
这是一个上限更高,同时比之前更加好用的可灵AI。先享受上的创作者们已经给出了积极反馈。
有创作者用可灵尝试生成了一台跑车的展示视频:
「试用了最新的可灵1.5版本模型,宽容度高了很多。」
社交平台X上,有创作者在试用可灵1.5版本来创作一个故宫红为主题的赛博中国短片后有这样的体感。
03260万可灵AI用户,一切刚刚开始
现阶段所有文生视频产品里,可灵AI是最重视「可用」的那个。
可灵1.0模型刚发布时,收到的最集中反馈是「即使遇到各种各样的问题,可灵AI仍然是目前普通人能用到的,最好的AI视频产品」。此时的可灵AI团队可能自己都没有想过未来三个月会拿到这样一张夸张的成绩单。
9月13日,盖坤在投资者日上披露,截至目前已有超过260万人使用过快手的视频生成大模型可灵AI,并累计生成超2700万个视频。
快手高级副总裁、主站业务与社区科学线负责人盖坤|图片来源:快手
回过头看,「可用」是可灵AI能够边打仗边学习的基础。某种程度上,在目前这个文生视频产品形态未定的时期,尽可能的靠近用户比自我臆测性能的迭代方向重要的多。
对用户来说,可灵1.5模型是一个更好的可灵AI;对快手来说,可灵1.5模型是对所选择的这条以「可用」卷起数据飞轮的迭代路线的一次初步验证。
三个月,对于大模型的发展来说,是多长的一段路?
如果我们回到ChatGPT,暂且把2022年11月ChatGPT上线作为一个起点的话,三个月后,ChatGPT的用户完成了从零到1亿的积累,同月中月订20美元的ChatGPTPlus推出,OpenAI在一片几乎是概念上的无人区里迅速完成了产品的迭代。
可灵AI正在经历一个有些相似的过程。
发布半个月后,可灵AI推出图生视频功能,支持用任意静态图像生成5秒钟视频。并且为了延长5秒的视频长度,推出了最高可到3分钟长度的视频续写功能。
这些使用经验在7月转换成了可灵AI在基础模型能力上的提升,以及新增的首尾帧控制和镜头控制。可灵AI网页端也在7月同时上线。
直到最近向可灵1.5模型跨的这一大步。
回头来看,可灵AI从最初的移动端文生视频工具演化到如今相对全面的产品形态,用户的使用需求决定了可灵AI的产品塑造,这进一步反推基础模型的性能迭代方向。一切的基础都建立在可灵AI的「可用」上。
而在可灵AI的实际体验能够达到某一个阈值后,背后快手巨大的内容和创作者生态会进一步推动这个数据飞轮的转动。2023年首次在快手发布短视频的创作者就有接近1.4亿,整个2023年快手平台上发布的视频在平台内获得超过1万亿次点赞。
另一组数据或许可以说明快手生态内对于一个好用的AIGC工具的热情。在可灵AI推出之前,快手自研的文生图大模型能力已接入平台,内测阶段用户在评论区月均生成超过5亿张AI图片。
现在,一个全新的可灵AI即将摆在所有人面前了。
*头图来源:可灵AI
标签: 个月次升级可灵进化到什么程度了
相关文章
在炎炎夏日,一场突如其来的高温天气给我们的学校带来了严峻的挑战,某学校在高温下进行军训时,不幸发生了多名学生中暑住院的严重事件,这一事件引起了社会各界...
2024-09-20 2
备受期待的「草莓大模型」最终以o1为名正式发布,预示着今年下半年的大模型竞争将再度升温。尽管OpenAI这次没有提及o1在多模态的相关进展,但在同一天...
2024-09-20 43 个月次升级可灵进化到什么程度了
作为我司为数不多的摩托车狂热爱好者,我在摩托车周边装备上花了不少钱。其中花费最高的就是各种各样的运动相机,美名曰「记录骑行生活」,实际上就是装在头盔上...
2024-09-20 761 大疆体验加量不加价运动相机首选?
9月19日云栖大会上,阿里发布通义万相视频生成大模型。和诸多同行的限次试用和催你付费相比,阿里颇有诚意——只需登录通义万相官网及通义APP,即可免费体...
2024-09-20 291 千呼万唤始出来国风爱好者等到了通义万相的视频生成大模型
在当今这个科技日新月异的时代,每一个技术创新者都值得我们去关注与学习,罗永浩作为一个具有鲜明个性和创新精神的企业家,在科技界有着自己独特的地位,从创办...
2024-09-20 5
随着科技的发展和环保理念的深入人心,电动车逐渐成为人们出行的首选,为了保障电动车的行驶安全、环保性能以及用户体验,电动车行业也在不断进行着标准的更新和...
2024-09-20 4
在炎炎夏日的厦门,一位名叫欧文的游客以一种独特的方式体验这座美丽的海滨城市——光膀子游,本文将围绕这一主题展开,从欧文的独特体验、厦门的夏日风情、光膀...
2024-09-19 6
在当今的数字化时代,无论是企业还是个人用户,对于高效、安全的数据处理能力的需求日益增长,ECL(Enterprise Computing Librar...
2024-09-19 7