HappyHorse 1.1 评测：我测试了阿里巴巴的 AI 视频模型

Irwin

June 23, 2026

Cover Image for HappyHorse 1.1 评测：我测试了阿里巴巴的 AI 视频模型

Irwin

HappyHorse 1.1 给人的感觉是一次务实的升级，而非浮夸的营销噱头。在通过快节奏动作场景、奇幻提示词、多参考图视频构思以及短剧风格描述进行测试后，我的印象很简单：它并没有解决所有 AI 视频生成的问题，但确实让短视频生成比 HappyHorse 1.0 更加好用。

在测试之前，我主要关注三点：动作是否不再显得缓慢且飘忽，是否能遵循更长的提示词，以及在提示词包含多个视觉构思时能否保持主体稳定。这些都是许多 AI 视频模型依然容易出错的地方。静态图像可以很美，但一旦角色开始移动，弱点就会暴露无遗。

HappyHorse 1.1 在关键点上进行了改进。动作更强劲，视觉纹理更干净，复杂的提示词也更容易控制。同时，我不会称其为完美。它在处理一些拥挤场景、复杂物理效果和极高精度的音频同步时仍有困难。不过，对于短视频概念、产品创意、奇幻镜头和社交媒体短片来说，它比我预期的要实用得多。

作为参考，我在准备这篇评测时查看了 HappyHorse 官方网站，同时也浏览了阿里巴巴相关的模型生态页面，例如阿里云百炼和通义模型页面，以了解该模型的定位。

2. 什么是 HappyHorse 1.1？

HappyHorse 1.1 是阿里巴巴升级后的 AI 视频生成模型，用于根据文本、图像和参考资料创作短片。它支持 3–15 秒的视频、720p 和 1080p 输出、灵活的宽高比以及音频生成。

用创作者的语言来说，这意味着你可以描述一个场景，提供参考图像，并要求它生成带有动作、运镜和声音的短视频。它不仅仅是为了生成一张漂亮的画面，而是试图理解动作、角色、镜头节奏和场景氛围。

该模型特别引人注目，因为 HappyHorse 一直致力于音视频同步生成。HappyHorse 1.1 没有将声音视为完全独立的后续补充，而是旨在同时生成视频和音频。这对于短剧、对话片段、音乐驱动的社交视频以及需要语音、环境音和镜头运动紧密结合的广告来说至关重要。

在本次评测中，我减少了研究人员的视角，更多地以创作者的身份进行测试。我想看看是否真的能将输出结果用于实际的内容规划：奇幻动作镜头、未来感市场场景、产品类视频创意以及短剧提示词。

use happy horse 1.1.jpg

3. HappyHorse 1.1 关键规格

项目	HappyHorse 1.1
模型规模	15B 参数
视频时长	3–15 秒
分辨率	720p / 1080p
帧率	24fps
宽高比	灵活支持
参考图像	最多 9 张
音频	支持
主要模式	文生视频、图生视频、参考图生视频、视频编辑
720p 价格	标价约 0.9 元/秒，促销价低至 0.54 元/秒
1080p 价格	标价约 1.2 元/秒，促销价低至 0.72 元/秒

数据固然有用，但对我而言，最重要的不是分辨率。许多模型都能声称达到 1080p。更重要的是生成的视频在运动时是否依然稳健，主体是否保持一致，以及模型是否理解提示词，而不是仅仅抓取几个关键词。

在这方面，HappyHorse 1.1 显然更注重实用性。

4. 我的测试内容

我用多种类型的提示词测试了 HappyHorse 1.1，而不仅仅是简单的场景。

第一个是奇幻动作提示词：一条凶猛的红色元素龙从海中喷涌而出，在船只上方盘旋，激起巨浪，并在风暴中飞行，同时镜头跟随其移动。我选择这个场景是因为它同时考验了动作、规模、水体、运镜和能量特效。

第二个是外星球的未来市场。提示词包括外星商人、发光的水果、漫步的机器人、漂浮的全息广告、绚丽的灯光以及手持电影感的运镜风格。这主要是一个提示词遵循能力的测试。我想看看模型是否能在不产生杂乱拼凑感的情况下，将多个视觉元素保持在一个场景中。

我还测试了一个简单的文生视频工作流，因为我想看看仅凭提示词模型能达到什么程度。对于快速创意测试，这通常是我评判 AI 视频模型的首要标准。如果仅凭文本的结果就感到困惑，那么后续的工作流通常需要更多的修正。

我还研究了多参考图风格的使用场景，特别是电商和直播风格的产品视频。一个典型的例子是女性在居家直播间卖口红，模型需要保持人物、产品、服装和房间的一致性。这是那种“差不多正确”远远不够的任务。如果口红颜色变了、产品包装消失了，或者主播的脸部变化太大，片段就很难使用。

最后一类是短剧和品牌故事场景。我想知道 HappyHorse 1.1 是否能处理情感对话、镜头切换、特写、温暖的室内光线和角色定位。这些场景在视觉上可能并不震撼，但它们很难，因为模型必须理解人物关系和节奏。

在此尝试 Happy Horse 1.1

5. 运动质量：最显著的可见提升

当场景需要真实运动时，HappyHorse 1.1 的表现明显更好。这是我在龙与风暴测试中注意到的第一件事。

在早期的 AI 视频输出中，快速运动往往感觉像是虚假的慢动作。角色看起来在移动，但身体没有重量感。生物在飞行，但翅膀和镜头感觉并不连贯。水在流动，但波浪对主体的反应不自然。HappyHorse 1.1 虽然仍有一些 AI 伪影，但整体运动感觉更强劲、更连续。

在龙的场景中，模型很好地将动作表现为一个连贯的事件：龙升起，海面反应，镜头跟随，风暴为镜头增加了能量。它感觉不像是一帧帧拼凑起来的。这一点很重要，因为如果动作缺乏力度，奇幻和动作视频很快就会崩坏。

我不会说物理效果是完美的。在复杂的水体和风暴场景中，你仍然能发现波浪行为或物体关系显得夸张的时刻。但与我经常在 AI 视频中看到的缓慢、飘忽的运动相比，HappyHorse 1.1 感觉更自信。

对于制作动作片段、奇幻预告片、游戏风格场景或动态社交视频的创作者来说，这是尝试它的最强理由之一。

6. 提示词遵循：长且具象的描述表现更好

HappyHorse 1.1 在遵循长提示词方面的表现超出了我的预期。未来市场的测试清楚地证明了这一点。

我的提示词内容很丰富：外星商人、发光水果、机器人、漂浮全息广告、绚丽灯光和手持电影感运镜。较弱的模型通常会挑选两三个细节而忽略其余部分。有时它会包含机器人但忘记外星人。有时它会创造霓虹灯但失去了市场的感觉。有时场景看起来很未来，但没有生机。

HappyHorse 1.1 在保持场景概念完整性方面做得更好。结果感觉像是一个繁忙的市场，而不仅仅是一个科幻背景。模型理解了氛围：色彩丰富、拥挤、外星感、商业化且具有电影感。

这一点很重要，因为真实的提示词很少仅仅是“一个人在走路”或“车在路上”。当人们创作内容时，他们会在一个提示词中描述情绪、环境、镜头、动作和主体关系。HappyHorse 1.1 虽然不完美，但似乎更有能力处理这种分层指令。

我的建议是按清晰的顺序编写提示词。先放主体，然后是场景、动作、镜头风格，最后是光影或氛围。HappyHorse 1.1 可以处理长提示词，但在结构清晰时表现更好。

7. 多参考图视频：商业工作中最实用的升级

多参考图工作流是 HappyHorse 1.1 开始在实际项目中显得实用的地方。

对于电商视频、产品广告和品牌内容，一致性比人们想象的更重要。如果你给模型一个产品、一个人、一个房间和一套服装，输出必须尊重所有这些元素。仅仅做出看起来大致相似的东西是不够的。

口红直播的例子是一个很好的测试用例。你可能需要一张主播的参考图、一张口红的参考图、一张服装的参考图和一张直播间的参考图。模型需要知道每个参考图的含义。人应该保持可辨识，口红颜色应保持接近，服装不应随意改变，房间应感觉是同一个空间。

我也从图生视频的角度进行了思考，因为许多创作者已经从一张强有力的静态图像开始，之后只需要受控的运动。当起始图像具有清晰的主体、光影和构图时，HappyHorse 1.1 感觉更有用，而不是要求模型从零开始发明一切。

HappyHorse 1.1 最多支持 9 张参考图像，这对于需要锁定多个视觉元素的使用场景来说是一个真正的优势。在我看来，这比单纯从文本生成一个华丽的场景更具商业价值。

它适用于：

使用场景	帮助原因
产品广告	使产品外观更稳定
直播风格视频	结合了主播、产品、服装和房间参考
品牌视频	保留风格、色彩和产品氛围
角色视频	帮助同一个人或角色保持一致
短剧	支持在不同镜头间保持视觉身份

当然仍有限制。如果你用太多详细的参考图使模型过载，小细节之间可能会产生冲突。但与基础的图生视频工作流相比，HappyHorse 1.1 为创作者提供了更多控制权。

8. 视觉质量：更少油腻感，更自然

我对某些 AI 视频模型的一个不满是“AI 光泽”问题。脸部看起来太精致，皮肤看起来像塑料，头发会闪烁，细节在一帧中过度锐化，在下一帧中又变得模糊。

HappyHorse 1.1 似乎减少了这个问题。在肖像风格和短剧场景中，皮肤纹理看起来更自然，光影在脸部表现更好。模型不仅让图像更锐利，还在努力让图像感觉不那么人工。

这对于短剧、对话和产品视频尤为重要。在这些场景中，观众会仔细观察脸部和细微动作。奇幻怪物可以容忍一些奇怪的细节，但人脸不行。如果眼睛、嘴巴、皮肤或头发看起来不对劲，整个片段就会感觉很假。

我还注意到电影感光影提示词效果很好。温暖的室内光、浅景深、霓虹市场光、风暴光和产品聚光灯场景似乎都符合该模型的优势。

话虽如此，背景人物和拥挤场景仍然较弱。如果场景中包含远处的多个人，一些脸部可能看起来模糊或不完整。这并非 HappyHorse 1.1 所独有，但仍需注意。

9. 音频：有用，但仍需审核

HappyHorse 1.1 支持音频生成，这使其比仅关注视觉的模型更有趣。

对于短场景，内置声音可以使输出感觉更完整。对话、环境音、背景音乐和环境声有助于使片段看起来不像是一个无声的动画测试。在市场场景中，声音可以烘托人群和氛围。在短剧场景中，语音节奏和停顿很重要。在动作场景中，音效增加了能量。

HappyHorse 1.1 改善了音频与场景的匹配感，但我仍建议在公开使用前审核输出。语音节奏可能不错，但并不总是能匹配你想象中的确切情绪。乐器演奏场景仍然很困难，因为视觉动作和声音变化需要非常精确地同步。

对于概念测试、社交片段和快速草稿，音频功能很有用。对于精美的商业交付，我仍然期望进行一些手动编辑或替换。

10. HappyHorse 1.1 的最佳使用场景

HappyHorse 1.1 在视频短、视觉化且以概念为驱动时表现最强。

使用场景	我的看法
电商产品视频	最契合的场景之一，因为参考一致性很重要
直播风格广告	适用于结合人物、产品、服装和房间
短剧片段	在情感、特写和镜头切换方面比以前更好
品牌故事视频	适合电影感产品氛围和精致的视觉效果
游戏 CG 概念	在奇幻、动作和风格化环境方面表现强劲
社交媒体预告片	非常适合 3–15 秒的视觉钩子
AI 视频草稿	适合在制作前测试创意

我特别推荐给需要快速测试视觉方向的创作者。如果你正在规划产品广告、短剧场景或奇幻概念，HappyHorse 1.1 可以帮助你在投入更多制作时间之前看到动态效果。

11. HappyHorse 1.1 的不足之处

HappyHorse 1.1 有所改进，但并非魔法。

最大的限制仍然是控制力。你可以引导模型，但无法控制每一个物体、每一帧或每一个小细节。复杂的物理场景仍可能崩坏。拥挤的背景仍可能产生模糊的脸部。详细的产品镜头可能仍需要多次生成才能得到足够干净的结果。

我注意到的主要弱点如下：

复杂的物理效果看起来仍可能很奇怪。
背景角色并不总是很清晰。
过多的参考细节可能会干扰结果。
乐器同步仍然很难。
长故事的连贯性问题尚未解决。
商业输出仍需人工审核。

实际上，我认为这对于 AI 视频的当前阶段来说是正常的。HappyHorse 1.1 更适合生成短小可用的片段，但还不是一个完全可控的生产流水线。

12. 定价：更低的成本使测试更容易

定价是更实用的改进之一。据报道，HappyHorse 1.1 的 720p 标价保持在每秒 0.9 元左右，促销价低至每秒 0.54 元。对于 1080p，标价约为每秒 1.2 元，促销价低至每秒 0.72 元。

重要的是 1080p 的价格下降。HappyHorse 1.0 的 1080p 价格约为每秒 1.6 元，因此 1.1 将标价降低了约 25%。

这一点很重要，因为 AI 视频生成通常需要反复试验。你很少能一次就得到完美的结果。如果每秒价格太高，人们就会停止尝试。更低的定价使得测试提示词、比较风格和优化场景变得更容易。

13. HappyHorse 1.1 与 HappyHorse 1.0 对比

HappyHorse 1.1 并不是一个与 1.0 完全不同的产品。它感觉更像是对 1.0 不可靠问题的针对性修复。

领域	HappyHorse 1.0	HappyHorse 1.1
运动	可能感觉缓慢或不连贯	更连续且充满活力
主体一致性	容易丢失细节	使用参考图时更稳定
提示词遵循	可能遗漏长提示词的部分内容	对场景和关系的理解更好
视觉纹理	有时油腻或过度处理	皮肤和光影更自然
音频	有用但不够精细	节奏和氛围更好
1080p 定价	约 1.6 元/秒	标价约 1.2 元/秒

这次升级不仅仅是为了制作更好的演示视频，它让模型在实际内容创作中变得更加实用。

14. 谁应该尝试 HappyHorse 1.1？

如果你创作短视频内容并需要快速的视频概念，HappyHorse 1.1 值得一试。

它非常适合：

AI 视频创作者
电商营销人员
产品广告商
短剧团队
社交媒体编辑
品牌内容团队
游戏概念创作者
测试创意的创意代理商

如果你需要长片、精确的物理模拟、完美的产品准确性或逐帧控制，它可能不是最佳选择。对于这些用例，你仍然需要编辑、合成和人工审核。

15. 最终结论

在测试了 HappyHorse 1.1 后，我认为它比 HappyHorse 1.0 有了实用且显著的提升。最大的改进在于运动、主体一致性、提示词遵循和视觉纹理。输出感觉不再那么缓慢、油腻和随机。

我的个人评分如下：

类别	评分
运动质量	8/10
主体一致性	8/10
提示词遵循	7.5/10
视觉质量	8/10
音频	7/10
价值	8/10

该模型仍有弱点，特别是在复杂物理、背景脸部、拥挤场景和精确音频同步方面。但对于短 AI 视频创作，HappyHorse 1.1 感觉更接近我真正会用于创意测试的工具。

我的最终看法：HappyHorse 1.1 没有让 AI 视频生成变得完美，但确实让它变得更实用。如果你关注短剧、产品广告、品牌视觉、奇幻片段或社交视频创意，它绝对值得一试。

常见问题解答

HappyHorse 1.1 是免费的吗？

HappyHorse 1.1 根据使用平台的不同，可能会有促销定价或试用权限，但据报道，其定价通常按 720p 和 1080p 视频的秒数计算。

HappyHorse 1.1 的视频时长是多少？

HappyHorse 1.1 支持 3–15 秒的视频片段。

HappyHorse 1.1 支持音频吗？

是的。它支持音频生成，包括语音、环境音、音乐和音效。

HappyHorse 1.1 可以使用参考图像吗？

是的。HappyHorse 1.1 最多支持 9 张参考图像，这对于保持角色、产品、服装和场景的一致性非常有用。

HappyHorse 1.1 最适合做什么？

它最适合短剧片段、电商产品视频、直播风格广告、品牌故事视频、游戏 CG 概念和社交媒体短片。

HappyHorse 1.1 的主要弱点是什么？

它在处理复杂物理、拥挤的背景脸部、详细的多主体场景和精确的音频同步时仍可能遇到困难。

开始使用 Happy Horse 1.1 创作