首页 > 其他 > 腾讯混元再突破：图生视频模型发布并开源，一键生成动态视频

腾讯混元再突破：图生视频模型发布并开源，一键生成动态视频

2025-03-07 215

腾讯混元近期在其官方微信公众号上宣布了一项重大进展：图生视频模型正式发布并面向公众开源。这一创新技术不仅推出了对口型与动作驱动等新颖玩法，还支持生成背景音效及2K高质量视频，为用户带来了前所未有的创作体验。

借助图生视频的能力，用户只需简单上传一张图片，并简要描述希望画面如何动态呈现、镜头如何切换等创意，混元便能将这些想法转化为生动的5秒短视频，并且还能自动匹配适合的背景音效。这一功能极大地降低了视频创作的门槛，使得即便是没有专业视频编辑经验的用户也能轻松制作出富有创意的短视频。

更为神奇的是，用户还可以上传人物图片，并输入希望“对口型”的文字或音频内容。混元将利用先进的人工智能技术，让图片中的人物仿佛真的在“说话”或“唱歌”，为用户带来极大的乐趣和惊喜。通过“动作驱动”功能，用户只需一键操作，就能生成与指定舞蹈视频同款的跳舞视频，让每个人都能成为自己MV中的主角。

目前，用户已经可以通过混元AI视频官网亲身体验这一前沿技术。同时，企业和开发者也可以在腾讯云平台上申请使用API接口，将这一技术融入到自己的产品和服务中。此次开源的图生视频模型是混元在文生视频模型开源工作上的又一次重要突破，模型总参数量高达130亿，适用于多种类型的角色和场景，包括写实视频制作、动漫角色甚至CGI角色的生成。

自混元视频生成模型开源以来，就受到了广泛的关注和热议。去年12月，该模型成功登顶huggingface全站趋势榜榜首，展现了其强大的影响力和市场潜力。目前，在Github平台上，该模型的Star数已经超过8.9K，多位开发者自发制作了基于社区Hunyuanvideo的插件与衍生模型，累计衍生版本超过900个。更早之前开源的混元DiT文生图模型也同样备受瞩目，在国内外衍生模型数量多达1600多个。

如今，混元开源系列模型已经全面覆盖了文本、图像、视频和3D生成等多个模态，在Github上累计获得了超过2.3万开发者的关注和Star。这一系列的开源举措不仅推动了人工智能技术的普及和发展，也为广大开发者提供了更加丰富的创作工具和平台。

上一篇　中国科技力量崛起，全球科技版图迎来重塑时刻！下一篇　AI新纪元：Manus智能体引领全球通用AI潮流