可灵AI进入2.0时代，可用“文字+图片+视频”生成视频

0次浏览发布时间：2025-04-15 20:33:00

4月15日，可灵AI举行2.0版本模型发布会，发布可灵2.0视频生成模型及可图2.0图像生成模型。据悉，可灵2.0上线了一种可以将文字、图片、视频等不同格式的文件结合起来一起编辑生成视频的新交互模式，此举改变了以往只能用文字生成视频的单一模态编辑方式。

记者了解到，当前视频生成主要分“文生视频”和“图生视频”两种。快手副总裁、可灵AI负责人张迪就披露，85%的视频创作通过“图生视频”完成。一般情况下，AI视频制作者往往通过文字生成图片，再用图片生成视频。而可灵AI此次上线多模态视频编辑功能，使得文字或图片不再成为唯一的AI编辑语言，也可让AI生成的视频更加符合制作者的描述。

根据发布会上的演示，用户能够结合图像、视频片段等多模态信息，将脑海中的多维度复杂想法传达给AI。这也意味着，用户在使用AI生成视频时，提示词中可以夹带图片或视频。业内也将这种全新的交互模式称为MVL（Multi-modal Visual Language，即多模态视觉语言）。

“仅仅用文字描述自己的想象是不够的，人和AI的交互需要新的语言。”快手高级副总裁、社区科学线负责人盖坤说道，例如，用户可以将视频中主人公的面容、服装、背景的参考图片及人物动作的参考视频全部添加到描述中，视频中的人物便可更贴近用户的想象来呈现。此外，这一功能不仅可以灵活理解用户意图，还能支持对视频内容进行局部的增、删、改。

此外，主打“文生图”功能的可图2.0的能力也将迎来升级，其指令遵循能力、电影美学表现力均大幅提升，在多元化的艺术风格方面，可图2.0目前可支持60多种风格化的效果转绘。

据悉，可灵2.0版本发布即上线。即日起，全球用户即可使用可灵AI 2.0模型。“AI在辅助创意表达上拥有巨大潜力，但当前的行业发展现状还远远无法满足用户需求，在AI生成内容的稳定性、用户复杂创意的精确传达上仍有很多挑战。”盖坤表示。

来源：北京日报客户端

记者：鹿杨

本文分类：实时讯息
本文标签：视频用户图片文字模型快手制作者也将
浏览次数：0 次浏览
发布日期：2025-04-15 20:33:00
本文链接：https://m.swbk.net/news/qBZbzpEZzK.html

上一篇 > 创新为魂！“科达硬质材料抛磨实验中心”正式成立
下一篇 > 投资乐山·香港经贸合作推介会举行

栏目导航

可灵AI进入2.0时代，可用“文字+图片+视频”生成视频

微信平台：用户发布内容为AI生成合成的，发布时需主动声明

“前车昂贵，请注意避让”，开车遇千万豪车被导航发出“穷人提醒”？高德地图回应

11岁加沙女孩控诉食物短缺

被指以人脸识别超范围收集信息应公开道歉，闲鱼回应

为什么我觉得Gemini才是最适合普通人的Ai大模型