快手大模型团队认为,一个优秀的视频生成模型需要考虑模型设计、数据保障、计算效率和模型能力扩展四大核心要素。 文|赵建琳 ID | BMR2004 最近你有没有在网上刷到过把视频中的物体一秒变成毛绒玩具的特效?它就是快手可灵AI平台推出的“快来惹毛我”特效。古老庄重的建筑、可口的食物、秀美的山水,都能在特效下变成软萌可爱的毛绒玩具。如今,这一特效已吸引全国各地文旅推广中心、知名企业参与共创。与“快来惹毛我”一起推出的还有“捏捏乐”“万物膨胀”两种充满童趣的特效。 可灵AI是快手推出的新一代AI创意生产力平台,如今,在大模型文生视频领域打造了自身的绝对优势。基于快手自研的视频生成大模型可灵和图像生成大模型可图,可灵AI可以生成能模拟物理世界特性、运动幅度大的视频以及画质精美、风格多样的图片。2024年9月,可灵AI实现月活突破了150万人,同月迭代的可灵1.5模型在测评表现上也超过了Sora。到2025年1月为止,可灵AI迭代已20余次。快手方面提供的最新数据显示,今年1月可灵AI全球月访问用户数环比增长113%。3月25日,快手公布2024年第四季度及全年业绩,过去一年,快手继续深化AI战略的推进,并取得阶段性成果,公告显示,自商业化以来截至2025年2月,可灵AI累计营业收入超1亿元。 从大模型测评角度看,北京智源人工智能研究院(简称“智源研究院”)推出的大模型评测体系及开放平台FlagEval(天秤)在2024年12月发布的评测数据显示,在多模态模型评测榜单中的“文生视频”项下,可灵1.5高品质版的总分位列第一。在总分下的各分项中,可灵1.5高品质版的“真实性”得分位居该分项榜单第一;“视频长度”分项上,可灵1.5高品质版与Runway的第3代阿尔法和字节跳动的即梦P2.0pro得分并列第一;在“图文一致性”“视频质量”“美学质量”分项上,可灵1.5高品质版的得分均位居相应分项榜单中的前三。 01 可灵AI的快速迭代 2024年7月,快手星芒短剧推出的5集短剧《山海奇镜之劈波斩浪》(以下简称《山海奇镜》)获得了站内超5300万的播放量,这部剧是星贤文化创始人陈坤与快手合作,完全利用可灵AI制作而成。整部剧场面宏大,角色刻画精细,神兽毛发根根分明。这是可灵AI提供技术支持的首部AIGC原创奇幻微短剧。 陈坤原先在传统影视行业工作,曾在优酷参与制作过《这!就是街舞》等综艺节目。2023年当AI的“星星之火”渐起“燎原之势”,陈坤偶然间尝试用AI生成图片和视频,并深度研究了Runway、Midjourney、PixVerse等图像和视频生成类AI产品。2024年6月,快手正式推出自研的视频大模型可灵。陈坤回忆说,当时选择与快手合作《山海奇镜》,其中一个因素就是快手对合作的推进速度比较快,“快手那时也想要推一些AIGC(AI生成内容)的短剧。” 2024年7月初举行的世界人工智能大会上,快手举办了一场大模型论坛,不仅发布了视频大模型可灵和文生图大模型可图的最新动态,还播放了AIGC星芒短剧《山海奇镜》的预告片,并现场宣布了“星芒短剧×可灵大模型”创作者孵化计划,该计划将通过流量分账、重点项目参投、平台运营资源扶持、现金奖励等扶持权益,使更多精品AIGC微短剧被充分挖掘。由此可见,快手对AIGC内容的积极拥抱态度。 这种积极的态度本质上是需求驱动的。2024年7月下旬,快手曾公布了几个数据:快手平台短剧日活用户从2023年的2.7亿人次增长到2024年的3亿人次,同比增长11%;重度用户从9400万人次增长到1.46亿人次,同比增长超55%。面对快速增长的市场需求,AI工具的引入可以帮助提升短剧的制作效率。 作为可灵AI诞生后首批“吃螃蟹”的人之一,陈坤见证了可灵AI的每一次迭代。从2024年6月初可灵AI正式上线开始,其最初只支持文生视频,但生成内容已具备基本的物理世界特性,可实现大幅度的合理运动,比如老虎奔跑时四肢表现协调,躯干也能随着步态自然抖动;再如弹钢琴时,琴体立面能反射出弹奏动作和琴键的变化。 半个多月后,可灵AI新增图生视频(支持任意静态图像生成5秒视频)和视频续写功能(可将已生成的视频继续延长)。2024年7月,可灵AI集成文生图、文生视频和图生视频功能,文生视频单次生成时长也从原先的5秒提高到了10秒,并正式面向全球上线会员体系。 2024年9月,可灵AI新增可灵1.5模型,画质清晰度提升到1080P,新增运动笔刷功能,以提升视频生成的精准控制度,该月月底可灵AI又相继上线对口型功能(用户生成人物视频后上传音频,音频内容可与人物嘴型同步)、AI创作社区“创意圈”,正式开放API调用服务;11月,可灵AI推出独立App,上线AI定制模型(人脸模型)功能(让人物形象在视频中保持一致性),推出AI试衣功能;12月,可灵AI迭代出可灵1.6模型,文本响应度、动态质量、画面质量继续提升;2025年1月,可灵AI推出多图参考模式,解决不同主体在视频生成中的一致性难题。 可灵AI产品运营专家王若暄介绍,目前可灵AI能够生成长达2分钟、30fps的1080p高分辨率视频,支持多种宽高比,满足不同创作需求。 在陈坤看来,可灵AI有自身的产品优势。他告诉《商学院》杂志:“可灵AI在动作幅度和动作合理性上表现比较优秀,其单次生成视频时长较早就达到了10秒范围,分辨率也较早达到主流水平。在人物、场景一致性和人物表演细节等AI生成视频中普遍存在的难点上,可灵AI的多图参考模式通过上传多张图片和多段视频,把角色固定下来,使角色在视频的不同帧始终能保持比较好的遵循能力和可控性。此外,可灵AI的模型迭代频率很快,不断推出新功能。从这些特点来看,可灵AI目前在视频生成方面仍处第一梯队。” 据快手方面提供的资料,可灵大模型用原生的文生视频技术路线替代“图像生成+时序模块”组合的方式,是可灵AI生成时间长、帧率高,能准确处理复杂运动的重要原因。快手大模型团队认为,一个优秀的视频生成模型需要考虑模型设计、数据保障、计算效率和模型能力扩展四大核心要素。 模型设计方面,快手针对可灵AI设计了一款3D时空联合注意力机制来进行时空建模,此举目的就在于更准确地建模复杂时空运动,以生成符合物理规律且动作幅度较大的视频内容。 数据保障方面,快手构建了较为完备的标签体系,可以精细地筛选训练数据或对训练数据的分布进行调整,还专门研发了能生成精确、详尽、结构化的视频描述模型。 计算效率方面,快手没有采用当下行业主流的DDPM方案,而是采用了传输路径更短的flow模型作为扩散模型基座。 模型能力扩展方面,快手让模型实现了直接处理不同长宽比的数据,同时支持相机运镜、帧率、边缘/关键点/深度等多种控制信息的输入。此外,还研发了基于自回归的视频时序拓展方案,保证视频生成时间增加后,效果不出现明显退化。 02 可灵AI的商业化怎么做 当一个可能改变世界的技术趋势到来时,没有哪家公司甘愿掉队。2023年,快手启动AI战略,彼时作为技术副总裁的张迪开始担任大模型研发团队的负责人,主导研发多模态大模型。除了视频大模型可灵,快手还发布过1750亿参数规模的通用大语言模型“快意”和文生图大模型“可图”。《商学院》杂志从快手员工处获悉:“公司对AI非常重视,不仅会在内部推动大模型的应用,还会及时将市面上新出现的开源模型集成到研发工具里,定期查看研发人员对大模型的使用率。目前,大模型对提升日常研发效率的帮助很大。过去一年,公司HR也在推进大模型团队的招聘工作,希望能招募更多AI人才。” 对快手来说,布局AI,不仅是对下一轮技术趋势和竞争焦点的把握,更是因为自身业务与AI有高度的场景契合。瑞银近期发布的研究报告提到:在线娱乐和教育是AI落地的核心场景。 作为短视频平台,快手本身就集纳了大量内容创作者和客户买单方,AI可以与快手长期形成的内容生态、商业生态(包括电商、广告等业务,比如可灵AI已经在帮客户制作广告片)有机融合。据悉,可灵AI目前由快手高级副总裁、主站业务与社区科学负责人盖坤主管。因此,可灵AI的诞生,对快手来说是顺其自然的选择。 罗兰贝格全球合伙人李冰博士接受采访时谈到,目前多家大厂的战略中都把AI定位提高到了优先级的位置,如百度多年以来一直将AI作为其核心战略;再如阿里在年初财报会上宣布,未来三年在云和AI的基础设施投入预计将超越过去十年的总和。传统互联网大厂具备先天流量优势,以及成建制的优秀技术人才梯队、积累的数据和成熟的用户场景,都能够助力AI业务快速运转落地。 凭借现有的内容生态和商业生态,可灵AI顺理成章地走向商业化变现。目前可灵AI采取的是闭源模式,面向C端,其通过灵感值充值和会员体系(会员分为黄金、铂金和钻石三个级别,套餐有效期包括单月、单季度、全年、连续包月和连续包季)获得收入;面向B端,可灵AI通过开放API服务、项目合作等方式获得收入。以陈坤为例,决定All in AI之后,他成立了星贤文化,做了一个名为“爱拍”的工具集合类平台,平时会调用可灵的API服务辅助工作。除此之外,他也会与快手就某个项目谈整体合作,可灵AI只是合作中的一个组成部分。陈坤介绍,接下来他与快手方面将展开《山海奇镜》第二部的合作商谈。 2024年10月18日,可灵AI上线“未来合伙人计划”,旨在为创作者提供商业变现的新渠道。根据该计划的网页信息,创作者(如导演、设计师、影视工作室等)可以在线提交信息加入创作者库;客户(如品牌方、文旅宣传部门、媒体、短剧制作方等)可以在线填写合作需求,合作方式包括定制AI内容、共建创作大赛、共创营销活动、联合课程开发、官方联名IP等。也就是说,可灵AI在该计划里起着一站式需求对接的功能,通过链接创作者和客户,构建商业合作对接的平台。一方面助力创作者增加收入,另一方面为客户方提供项目履约交付的保障。此外,可灵AI还会为合作伙伴提供宣发资源、流量扶持等官方权益。 从视频大模型领域来看,目前多以闭源为主,面向C端也多采取会员制收费的形式。不过近期也开始出现开源的视频大模型,今年2月,阿里云旗下视觉生成基座模型万相2.1开源,同时支持文生视频和图生视频任务。陈坤认为,AI目前还处在早期发展阶段,各家公司会进行很多的探索和尝试,从当下来看,开源的视频大模型在模型能力和生成效果上暂时还没有超过闭源模型;但长远来看,随着需求的扩大和国内视频大模型厂商竞争的日渐激烈,使用费用可能会持续降低,最终逐步形成较为统一的定价标准。 李冰指出,开闭源之争背后是不同的商业路径选择。开源模式通过开放代码和参数降低技术门槛,吸引开发者共建生态,形成多节点协作的创新网络,如Hugging Face社区贡献的模型优化方法;闭源模式则通过技术封闭性建立“护城河”,确保商业利润独占性?,如OpenAI收取订阅服务费。开源还是闭源,正是AI技术高速发展背景下的不确定性体现。闭源模型的优势是绝对的技术壁垒,但在开源模型性能加速赶上的时候,将给面临盈利压力与市场拓展矛盾的闭源厂商带来巨大挑战;而开源厂商则受困于生态价值与变现之间的失衡,在找到适合自身的可持续、可观商业化路径之前,都将持续面临挑战。 李冰认为,开源模型通过社区协作和技术共享,在通用任务(如文本生成、基础推理)上的表现已逼近闭源模型。然而,闭源模型在复杂场景(如多模态处理、高精度推理、超长上下文处理)仍具优势。闭源模型想要守住“护城河”,需要一方面持续探索创新的前沿,构建技术能力壁垒,另一方面也需要思考加强2B(面向企业)/2D(面向开发者)的服务能力。 (本文图片由受访者陈坤提供) 来源 | 2025年4月刊
全部评论