HappyHorse 1.1 评测:我测试了阿里巴巴的 AI 视频模型

- 2. 什么是 HappyHorse 1.1?
- 3. HappyHorse 1.1 关键规格
- 4. 我的测试内容
- 5. 运动质量:最显著的可见提升
- 6. 提示词遵循:长且具象的描述表现更好
- 7. 多参考图视频:商业工作中最实用的升级
- 8. 视觉质量:更少油腻感,更自然
- 9. 音频:有用,但仍需审核
- 10. HappyHorse 1.1 的最佳使用场景
- 11. HappyHorse 1.1 的不足之处
- 12. 定价:更低的成本使测试更容易
- 13. HappyHorse 1.1 与 HappyHorse 1.0 对比
- 14. 谁应该尝试 HappyHorse 1.1?
- 15. 最终结论
- 常见问题解答
HappyHorse 1.1 给人的感觉是一次务实的升级,而非浮夸的营销噱头。在通过快节奏动作场景、奇幻提示词、多参考图视频构思以及短剧风格描述进行测试后,我的印象很简单:它并没有解决所有 AI 视频生成的问题,但确实让短视频生成比 HappyHorse 1.0 更加好用。
在测试之前,我主要关注三点:动作是否不再显得缓慢且飘忽,是否能遵循更长的提示词,以及在提示词包含多个视觉构思时能否保持主体稳定。这些都是许多 AI 视频模型依然容易出错的地方。静态图像可以很美,但一旦角色开始移动,弱点就会暴露无遗。
HappyHorse 1.1 在关键点上进行了改进。动作更强劲,视觉纹理更干净,复杂的提示词也更容易控制。同时,我不会称其为完美。它在处理一些拥挤场景、复杂物理效果和极高精度的音频同步时仍有困难。不过,对于短视频概念、产品创意、奇幻镜头和社交媒体短片来说,它比我预期的要实用得多。
作为参考,我在准备这篇评测时查看了 HappyHorse 官方网站,同时也浏览了阿里巴巴相关的模型生态页面,例如 阿里云百炼 和 通义模型页面,以了解该模型的定位。
2. 什么是 HappyHorse 1.1?
HappyHorse 1.1 是阿里巴巴升级后的 AI 视频生成模型,用于根据文本、图像和参考资料创作短片。它支持 3–15 秒的视频、720p 和 1080p 输出、灵活的宽高比以及音频生成。
用创作者的语言来说,这意味着你可以描述一个场景,提供参考图像,并要求它生成带有动作、运镜和声音的短视频。它不仅仅是为了生成一张漂亮的画面,而是试图理解动作、角色、镜头节奏和场景氛围。
该模型特别引人注目,因为 HappyHorse 一直致力于音视频同步生成。HappyHorse 1.1 没有将声音视为完全独立的后续补充,而是旨在同时生成视频和音频。这对于短剧、对话片段、音乐驱动的社交视频以及需要语音、环境音和镜头运动紧密结合的广告来说至关重要。
在本次评测中,我减少了研究人员的视角,更多地以创作者的身份进行测试。我想看看是否真的能将输出结果用于实际的内容规划:奇幻动作镜头、未来感市场场景、产品类视频创意以及短剧提示词。

3. HappyHorse 1.1 关键规格
| 项目 | HappyHorse 1.1 |
|---|---|
| 模型规模 | 15B 参数 |
| 视频时长 | 3–15 秒 |
| 分辨率 | 720p / 1080p |
| 帧率 | 24fps |
| 宽高比 | 灵活支持 |
| 参考图像 | 最多 9 张 |
| 音频 | 支持 |
| 主要模式 | 文生视频、图生视频、参考图生视频、视频编辑 |
| 720p 价格 | 标价约 0.9 元/秒,促销价低至 0.54 元/秒 |
| 1080p 价格 | 标价约 1.2 元/秒,促销价低至 0.72 元/秒 |
数据固然有用,但对我而言,最重要的不是分辨率。许多模型都能声称达到 1080p。更重要的是生成的视频在运动时是否依然稳健,主体是否保持一致,以及模型是否理解提示词,而不是仅仅抓取几个关键词。
在这方面,HappyHorse 1.1 显然更注重实用性。
4. 我的测试内容
我用多种类型的提示词测试了 HappyHorse 1.1,而不仅仅是简单的场景。
第一个是奇幻动作提示词:一条凶猛的红色元素龙从海中喷涌而出,在船只上方盘旋,激起巨浪,并在风暴中飞行,同时镜头跟随其移动。我选择这个场景是因为它同时考验了动作、规模、水体、运镜和能量特效。
第二个是外星球的未来市场。提示词包括外星商人、发光的水果、漫步的机器人、漂浮的全息广告、绚丽的灯光以及手持电影感的运镜风格。这主要是一个提示词遵循能力的测试。我想看看模型是否能在不产生杂乱拼凑感的情况下,将多个视觉元素保持在一个场景中。
我还测试了一个简单的 文生视频 工作流,因为我想看看仅凭提示词模型能达到什么程度。对于快速创意测试,这通常是我评判 AI 视频模型的首要标准。如果仅凭文本的结果就感到困惑,那么后续的工作流通常需要更多的修正。
我还研究了多参考图风格的使用场景,特别是电商和直播风格的产品视频。一个典型的例子是女性在居家直播间卖口红,模型需要保持人物、产品、服装和房间的一致性。这是那种“差不多正确”远远不够的任务。如果口红颜色变了、产品包装消失了,或者主播的脸部变化太大,片段就很难使用。
最后一类是短剧和品牌故事场景。我想知道 HappyHorse 1.1 是否能处理情感对话、镜头切换、特写、温暖的室内光线和角色定位。这些场景在视觉上可能并不震撼,但它们很难,因为模型必须理解人物关系和节奏。
5. 运动质量:最显著的可见提升
当场景需要真实运动时,HappyHorse 1.1 的表现明显更好。这是我在龙与风暴测试中注意到的第一件事。
在早期的 AI 视频输出中,快速运动往往感觉像是虚假的慢动作。角色看起来在移动,但身体没有重量感。生物在飞行,但翅膀和镜头感觉并不连贯。水在流动,但波浪对主体的反应不自然。HappyHorse 1.1 虽然仍有一些 AI 伪影,但整体运动感觉更强劲、更连续。
在龙的场景中,模型很好地将动作表现为一个连贯的事件:龙升起,海面反应,镜头跟随,风暴为镜头增加了能量。它感觉不像是一帧帧拼凑起来的。这一点很重要,因为如果动作缺乏力度,奇幻和动作视频很快就会崩坏。
我不会说物理效果是完美的。在复杂的水体和风暴场景中,你仍然能发现波浪行为或物体关系显得夸张的时刻。但与我经常在 AI 视频中看到的缓慢、飘忽的运动相比,HappyHorse 1.1 感觉更自信。
对于制作动作片段、奇幻预告片、游戏风格场景或动态社交视频的创作者来说,这是尝试它的最强理由之一。
6. 提示词遵循:长且具象的描述表现更好
HappyHorse 1.1 在遵循长提示词方面的表现超出了我的预期。未来市场的测试清楚地证明了这一点。
我的提示词内容很丰富:外星商人、发光水果、机器人、漂浮全息广告、绚丽灯光和手持电影感运镜。较弱的模型通常会挑选两三个细节而忽略其余部分。有时它会包含机器人但忘记外星人。有时它会创造霓虹灯但失去了市场的感觉。有时场景看起来很未来,但没有生机。
HappyHorse 1.1 在保持场景概念完整性方面做得更好。结果感觉像是一个繁忙的市场,而不仅仅是一个科幻背景。模型理解了氛围:色彩丰富、拥挤、外星感、商业化且具有电影感。
这一点很重要,因为真实的提示词很少仅仅是“一个人在走路”或“车在路上”。当人们创作内容时,他们会在一个提示词中描述情绪、环境、镜头、动作和主体关系。HappyHorse 1.1 虽然不完美,但似乎更有能力处理这种分层指令。
我的建议是按清晰的顺序编写提示词。先放主体,然后是场景、动作、镜头风格,最后是光影或氛围。HappyHorse 1.1 可以处理长提示词,但在结构清晰时表现更好。
7. 多参考图视频:商业工作中最实用的升级
多参考图工作流是 HappyHorse 1.1 开始在实际项目中显得实用的地方。
对于电商视频、产品广告和品牌内容,一致性比人们想象的更重要。如果你给模型一个产品、一个人、一个房间和一套服装,输出必须尊重所有这些元素。仅仅做出看起来大致相似的东西是不够的。
口红直播的例子是一个很好的测试用例。你可能需要一张主播的参考图、一张口红的参考图、一张服装的参考图和一张直播间的参考图。模型需要知道每个参考图的含义。人应该保持可辨识,口红颜色应保持接近,服装不应随意改变,房间应感觉是同一个空间。
我也从 图生视频 的角度进行了思考,因为许多创作者已经从一张强有力的静态图像开始,之后只需要受控的运动。当起始图像具有清晰的主体、光影和构图时,HappyHorse 1.1 感觉更有用,而不是要求模型从零开始发明一切。
HappyHorse 1.1 最多支持 9 张参考图像,这对于需要锁定多个视觉元素的使用场景来说是一个真正的优势。在我看来,这比单纯从文本生成一个华丽的场景更具商业价值。
它适用于:
| 使用场景 | 帮助原因 |
|---|---|
| 产品广告 | 使产品外观更稳定 |
| 直播风格视频 | 结合了主播、产品、服装和房间参考 |
| 品牌视频 | 保留风格、色彩和产品氛围 |
| 角色视频 | 帮助同一个人或角色保持一致 |
| 短剧 | 支持在不同镜头间保持视觉身份 |
当然仍有限制。如果你用太多详细的参考图使模型过载,小细节之间可能会产生冲突。但与基础的图生视频工作流相比,HappyHorse 1.1 为创作者提供了更多控制权。
8. 视觉质量:更少油腻感,更自然
我对某些 AI 视频模型的一个不满是“AI 光泽”问题。脸部看起来太精致,皮肤看起来像塑料,头发会闪烁,细节在一帧中过度锐化,在下一帧中又变得模糊。
HappyHorse 1.1 似乎减少了这个问题。在肖像风格和短剧场景中,皮肤纹理看起来更自然,光影在脸部表现更好。模型不仅让图像更锐利,还在努力让图像感觉不那么人工。
这对于短剧、对话和产品视频尤为重要。在这些场景中,观众会仔细观察脸部和细微动作。奇幻怪物可以容忍一些奇怪的细节,但人脸不行。如果眼睛、嘴巴、皮肤或头发看起来不对劲,整个片段就会感觉很假。
我还注意到电影感光影提示词效果很好。温暖的室内光、浅景深、霓虹市场光、风暴光和产品聚光灯场景似乎都符合该模型的优势。
话虽如此,背景人物和拥挤场景仍然较弱。如果场景中包含远处的多个人,一些脸部可能看起来模糊或不完整。这并非 HappyHorse 1.1 所独有,但仍需注意。
9. 音频:有用,但仍需审核
HappyHorse 1.1 支持音频生成,这使其比仅关注视觉的模型更有趣。
对于短场景,内置声音可以使输出感觉更完整。对话、环境音、背景音乐和环境声有助于使片段看起来不像是一个无声的动画测试。在市场场景中,声音可以烘托人群和氛围。在短剧场景中,语音节奏和停顿很重要。在动作场景中,音效增加了能量。
HappyHorse 1.1 改善了音频与场景的匹配感,但我仍建议在公开使用前审核输出。语音节奏可能不错,但并不总是能匹配你想象中的确切情绪。乐器演奏场景仍然很困难,因为视觉动作和声音变化需要非常精确地同步。
对于概念测试、社交片段和快速草稿,音频功能很有用。对于精美的商业交付,我仍然期望进行一些手动编辑或替换。
10. HappyHorse 1.1 的最佳使用场景
HappyHorse 1.1 在视频短、视觉化且以概念为驱动时表现最强。
| 使用场景 | 我的看法 |
|---|---|
| 电商产品视频 | 最契合的场景之一,因为参考一致性很重要 |
| 直播风格广告 | 适用于结合人物、产品、服装和房间 |
| 短剧片段 | 在情感、特写和镜头切换方面比以前更好 |
| 品牌故事视频 | 适合电影感产品氛围和精致的视觉效果 |
| 游戏 CG 概念 | 在奇幻、动作和风格化环境方面表现强劲 |
| 社交媒体预告片 | 非常适合 3–15 秒的视觉钩子 |
| AI 视频草稿 | 适合在制作前测试创意 |
我特别推荐给需要快速测试视觉方向的创作者。如果你正在规划产品广告、短剧场景或奇幻概念,HappyHorse 1.1 可以帮助你在投入更多制作时间之前看到动态效果。
11. HappyHorse 1.1 的不足之处
HappyHorse 1.1 有所改进,但并非魔法。
最大的限制仍然是控制力。你可以引导模型,但无法控制每一个物体、每一帧或每一个小细节。复杂的物理场景仍可能崩坏。拥挤的背景仍可能产生模糊的脸部。详细的产品镜头可能仍需要多次生成才能得到足够干净的结果。
我注意到的主要弱点如下:
- 复杂的物理效果看起来仍可能很奇怪。
- 背景角色并不总是很清晰。
- 过多的参考细节可能会干扰结果。
- 乐器同步仍然很难。
- 长故事的连贯性问题尚未解决。
- 商业输出仍需人工审核。
实际上,我认为这对于 AI 视频的当前阶段来说是正常的。HappyHorse 1.1 更适合生成短小可用的片段,但还不是一个完全可控的生产流水线。
12. 定价:更低的成本使测试更容易
定价是更实用的改进之一。据报道,HappyHorse 1.1 的 720p 标价保持在每秒 0.9 元左右,促销价低至每秒 0.54 元。对于 1080p,标价约为每秒 1.2 元,促销价低至每秒 0.72 元。
重要的是 1080p 的价格下降。HappyHorse 1.0 的 1080p 价格约为每秒 1.6 元,因此 1.1 将标价降低了约 25%。
这一点很重要,因为 AI 视频生成通常需要反复试验。你很少能一次就得到完美的结果。如果每秒价格太高,人们就会停止尝试。更低的定价使得测试提示词、比较风格和优化场景变得更容易。
13. HappyHorse 1.1 与 HappyHorse 1.0 对比
HappyHorse 1.1 并不是一个与 1.0 完全不同的产品。它感觉更像是对 1.0 不可靠问题的针对性修复。
| 领域 | HappyHorse 1.0 | HappyHorse 1.1 |
|---|---|---|
| 运动 | 可能感觉缓慢或不连贯 | 更连续且充满活力 |
| 主体一致性 | 容易丢失细节 | 使用参考图时更稳定 |
| 提示词遵循 | 可能遗漏长提示词的部分内容 | 对场景和关系的理解更好 |
| 视觉纹理 | 有时油腻或过度处理 | 皮肤和光影更自然 |
| 音频 | 有用但不够精细 | 节奏和氛围更好 |
| 1080p 定价 | 约 1.6 元/秒 | 标价约 1.2 元/秒 |
这次升级不仅仅是为了制作更好的演示视频,它让模型在实际内容创作中变得更加实用。
14. 谁应该尝试 HappyHorse 1.1?
如果你创作短视频内容并需要快速的视频概念,HappyHorse 1.1 值得一试。
它非常适合:
- AI 视频创作者
- 电商营销人员
- 产品广告商
- 短剧团队
- 社交媒体编辑
- 品牌内容团队
- 游戏概念创作者
- 测试创意的创意代理商
如果你需要长片、精确的物理模拟、完美的产品准确性或逐帧控制,它可能不是最佳选择。对于这些用例,你仍然需要编辑、合成和人工审核。
15. 最终结论
在测试了 HappyHorse 1.1 后,我认为它比 HappyHorse 1.0 有了实用且显著的提升。最大的改进在于运动、主体一致性、提示词遵循和视觉纹理。输出感觉不再那么缓慢、油腻和随机。
我的个人评分如下:
| 类别 | 评分 |
|---|---|
| 运动质量 | 8/10 |
| 主体一致性 | 8/10 |
| 提示词遵循 | 7.5/10 |
| 视觉质量 | 8/10 |
| 音频 | 7/10 |
| 价值 | 8/10 |
该模型仍有弱点,特别是在复杂物理、背景脸部、拥挤场景和精确音频同步方面。但对于短 AI 视频创作,HappyHorse 1.1 感觉更接近我真正会用于创意测试的工具。
我的最终看法:HappyHorse 1.1 没有让 AI 视频生成变得完美,但确实让它变得更实用。如果你关注短剧、产品广告、品牌视觉、奇幻片段或社交视频创意,它绝对值得一试。
常见问题解答
HappyHorse 1.1 是免费的吗?
HappyHorse 1.1 根据使用平台的不同,可能会有促销定价或试用权限,但据报道,其定价通常按 720p 和 1080p 视频的秒数计算。
HappyHorse 1.1 的视频时长是多少?
HappyHorse 1.1 支持 3–15 秒的视频片段。
HappyHorse 1.1 支持音频吗?
是的。它支持音频生成,包括语音、环境音、音乐和音效。
HappyHorse 1.1 可以使用参考图像吗?
是的。HappyHorse 1.1 最多支持 9 张参考图像,这对于保持角色、产品、服装和场景的一致性非常有用。
HappyHorse 1.1 最适合做什么?
它最适合短剧片段、电商产品视频、直播风格广告、品牌故事视频、游戏 CG 概念和社交媒体短片。
HappyHorse 1.1 的主要弱点是什么?
它在处理复杂物理、拥挤的背景脸部、详细的多主体场景和精确的音频同步时仍可能遇到困难。



