首页>产业 > 信息技术 > > 正文

快手可灵大模型发布图生视频及视频续写功能

2024-06-24 14:44:04
来源:科技日报 作者:崔爽 评论:0

  快手视频生成大模型“可灵”自面世以来引发国内外广泛关注。6月21日,可灵再度进化,正式推出图生视频功能,支持用任意静态图像生成5s视频,并且可搭配不同的文本内容,实现丰富的视觉叙事。同时,可灵还发布了视频续写功能,可为已生成的视频(含文生视频及图生视频)提供便捷的一键续写和连续多次续写,将视频最长延伸至约3分钟,极大拓展了视频大模型的创作边界。

  按需定制视觉叙事

  此前,可灵在文生视频方面已经展现出了创造逼真运动场景、精确模拟物理特性以及将复杂概念巧妙融合的能力,输出画质高,并允许用户自由调节视频的纵横比。这些特性如今都被融入到图生视频模型。用户只需上传一张图片,可灵即能基于对图像的深度解析,变静为动。

  比如用户如上传经典的蒙娜丽莎照片,可灵能够让蒙娜丽莎戴上墨镜,并赋予她灵动的眼神交流。

  得益于其基础模型架构中的3D时空联合注意力机制,可灵在转换静态图像为动态视频时,能够细腻准确地实现大幅度运动场景。例如,只需上传一张牧羊犬追球的静止照片,模型就能生成一段牧羊犬奔跑追逐网球的视频,牧羊犬耳朵晃动、毛发飘扬,而网球则在空中弹跳,视频整体自然而流畅。

  可灵图生视频模型还融入了提示词融合技术,深化对图像语义与用户指令的理解整合。这意味着,模型能够根据用户提供的不同文本指令变换视频中的动态表现,实现“按需定制”。

  再比如用巨龙图片生成视频,输入“正在捕食的巨龙,飞扬的沙子,奇幻风格的电影”,视频便呈现巨龙掀起漫天黄沙,嘴部仿佛在咆哮的效果。此外,可灵图生视频模型支持不同风格的图像输入,同时兼容各种长宽比的图像输入。

  视频续写可生成最长约3分钟视频

  可灵大模型推出视频续写功能,用户只需一键操作,即可在已生成视频的基础上延续生成约5秒内容,该功能同时适用于文生视频和图生视频。同时,通过连续多次续写,能够最长生产约3分钟的连贯视频。基于对物理运动的深入理解,视频续写不仅确保新生成部分与原视频间的运动连贯性及物理合理性,还能融入大幅度的动作变化。

  此次升级的一大亮点是集成文本控制机制于视频续写中,这意味着用户能够通过自定义提示词,为每段视频续写注入个性化创意。比如一个关于古堡的视频片段,用户既可以选择让它先“太阳落下去,天空变暗”,继而“太阳升起来,天空变亮”,也可以探索另一路径:“太阳落下去,天空变暗,灯光渐亮”,随后“灯光亮起,雾气氤氲”,以此创造出各具特色的连续视觉叙事。

  6月6日,可灵文生视频大模型正式亮相,并即时在快影App上启动邀测体验,截至目前,已有累计超过14万人排队申请。此次进化,可灵文生视频基础大模型的能力被整合到图生视频和视频续写功能中,将为用户带来更丰富、灵活的视频创作体验。

  据悉,快手还将在下月召开的2024世界人工智能大会(WAIC)上举办以“新AI·新应用·新生态”为主题的大模型技术生态论坛,届时将发布最新的大模型技术与应用战略,包括大模型技术矩阵全景、基座模型技术创新、应用和落地情况等。

  (受访者供图)

(责任编辑:韩梦晨)

相关阅读:

版权与免责声明:
①凡本站注明稿件来源为:中国高新技术产业导报、中国高新网、中高新传媒的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网授权使用作品的,被授权人应在授权范围内使用,并注明“来源:中国高新网、中高新传媒或者中国高新技术产业导报”。违反上述声明者 ,本网将追究其相关法律责任。
② 任何单位或个人认为本网站或本网站链接内容可能涉嫌侵犯其合法权益,应该及时向本网站书面反馈,并提供身份证明,权属证明及详细侵权情况证明,本网站在收到上述文件后,将会尽快移除被控侵权的内容或链接。
③如因作品内容、版权和其他问题需要与本网联系的,请在该事由发生之日起30日内进行。电话:010-68667266 电子邮件:dbrmt#chih.org (请将“#”换为“@”)
排行
  • 全部/
  • 本月

编辑推荐


扫描添加 中国高新技术产业导报

(数字报)

扫描添加 中国高新APP客户端
扫描添加 导报微信公众号