goenhance logo

HappyHorse 1.1 AI 视频生成器

HappyHorse 1.1 是阿里巴巴升级后的多模态 AI 视频模型,支持 3–15 秒视频片段,具备更流畅的动态效果、更强的主体一致性、更精准的提示词遵循能力、更自然的视觉质感以及原生音视频生成功能。

HappyHorse 1.1 的核心功能

更强的动态效果与时间一致性

HappyHorse 1.1 改进了动态建模和帧间一致性,特别是在打斗、舞蹈、奔跑、转向、车辆移动和跟随镜头方面。与 1.0 版本相比,它减少了慢动作感、重影和动作断层。
提示词示例生成的视频片段
一条凶猛的红色巨龙(元素)从海中破浪而出,冲向天空并在船只上方快速盘旋,掀起滔天巨浪。动态镜头跟随巨龙穿过风暴,翻滚过高耸的浪潮,最终消失在远方。

更稳定的多参考图 R2V

升级后的多参考图视频工作流支持最多 9 张参考图。这有助于在短视频片段中保持人物面部、服装、产品细节、品牌元素和环境的一致性,非常适用于电商广告、直播风格视频、产品演示和角色类内容。

更出色的长提示词与场景规划

HappyHorse 1.1 提升了长文本理解、角色关系处理、场景规划和镜头语言解析能力。它能更好地遵循关于谁在说话、角色站位、情绪变化以及镜头如何切换的复杂提示词。
提示词示例生成的视频片段
一个外星球上繁忙的未来市场,外星商贩在兜售发光的果实,机器人随处可见,漂浮的全息广告充斥着空气,周围闪烁着五彩斑斓的灯光,采用电影级手持摄像风格拍摄。

更自然的视觉质感

该模型针对更真实的皮肤纹理、面部细节、毛发渲染、光影效果和局部稳定性进行了调优。它减少了 1.0 版本中出现的部分油腻或过度处理感,同时使人像和短剧视觉效果更加自然。

原生音视频生成

HappyHorse 将音频和视频同步生成,而非后期添加。1.1 版本改进了语音节奏、停顿、情感基调、背景音乐、环境音和音画同步效果,尽管乐器演奏场景可能仍需人工审核。

HappyHorse 1.1 参数

参数数值备注
发布日期2026年6月22日作为阿里巴巴升级版 HappyHorse 视频生成模型正式发布。
模型规模150亿参数一款拥有150亿参数的多模态视频生成模型。
架构统一多模态 Transfusion / 单流 Transformer文本、图像、视频和音频标记在单一模型中处理,而非通过独立的拼接模块。
Transformer 深度40层据报道采用统一的40层 Transformer 架构。
生成模式文生视频、图生视频、参考图生视频、视频编辑涵盖书面提示词、静态图像动画、多参考图视频创作及视频编辑场景。
时长3–15秒单次生成的片段支持短视频时长。
分辨率720p / 1080p支持高清及全高清生成。
帧率24fps适用于电影感短视频片段。
宽高比自定义 / 灵活支持横屏、竖屏、方形及其他创意格式的灵活输出比例。
参考图像最多9张有助于锁定角色、产品、服装、场景和品牌元素。
音频支持输出带音频的视频,包括对话、环境音、音乐和音效。
去噪DMD-2 蒸馏,8步去噪减少生成步骤并提高效率。
CFG已移除移除了无分类器引导(Classifier-free guidance)以提升效率。
推理速度在单张 NVIDIA H100 上生成 5 秒 1080p 视频片段约需 38 秒短视频 1080p 生成的基准测试报告。
720p 价格标价 0.9 元/秒;促销价低至 0.54 元/秒促销价格取决于平台和活动。
1080p 价格标价 1.2 元/秒;促销价低至 0.72 元/秒1080p 标价较 HappyHorse 1.0 的 1.6 元/秒下调了 25%。

HappyHorse 1.1 应用场景

电商产品与直播带货视频

使用多张参考图,将代言人、产品、服装和直播间风格融合成一个短广告片段。当产品颜色、包装、口红色号、服装或品牌细节必须保持一致,而不能仅是大致相似时,此功能非常有用。

短剧、品牌故事和游戏 CG 概念

HappyHorse 1.1 更适合情感对话、多镜头室内场景、动作序列、电影级品牌预告片和风格化游戏 CG 概念,因为它提升了运动连贯性、长提示词规划、镜头语言理解和自然的脸部纹理。

X 平台上的 HappyHorse 1.1

HappyHorse 1.1 常见问题解答

什么是 HappyHorse 1.1?

HappyHorse 1.1 是阿里巴巴升级后的 AI 短视频生成模型。它专注于更流畅的运动效果、更强的主体一致性、更好的提示词遵循能力、更自然的图像质量以及改进的音视频同步。

HappyHorse 1.1 支持哪些生成模式?

它支持文生视频、图生视频、多参考图生成视频以及视频编辑工作流,助力 AI 短视频创作。

HappyHorse 1.1 生成的视频时长是多少?

单次生成的片段支持 3 到 15 秒,适用于短广告、社交视频、角色片段、产品演示和短剧镜头。

支持哪些分辨率?

HappyHorse 1.1 支持 720p 和 1080p 生成,并提供灵活的宽高比以适配不同内容格式。

HappyHorse 1.1 可以使用多少张参考图?

多参考图工作流最多支持 9 张参考图,帮助模型保留角色脸部、服装、产品、场景和品牌元素。

HappyHorse 1.1 与 HappyHorse 1.0 有何不同?

1.1 版本保持了相同的总体技术方向,但在运动连贯性、多参考图主体锁定、复杂提示词理解、视觉纹理和音频表现方面进行了改进。相比 1.0 版本,它还降低了 1080p 的标价。

HappyHorse 1.1 可以生成音频吗?

可以。HappyHorse 1.1 能够与视频同步生成语音、环境音、音乐和音效。

主要局限性有哪些?

它在处理复杂的物理效果、拥挤的背景人脸、极端的多主体场景以及乐器演奏的音频同步方面仍存在挑战。用于商业用途时,发布前建议对输出内容进行审核。

准备好测试 HappyHorse 1.1 了吗?

使用 HappyHorse 1.1 探索 AI 短视频,体验更流畅的动作、更稳定的参考主体、更强的提示词遵循能力以及原生音频。它特别适用于短剧、电商广告、品牌概念和游戏风格的视频创意。

尝试使用 HappyHorse 1.1