HappyHorse 1.1 評測：我測試了阿里巴巴的 AI 影片模型

Irwin

June 23, 2026

Cover Image for HappyHorse 1.1 評測：我測試了阿里巴巴的 AI 影片模型

Irwin

HappyHorse 1.1 給人的感覺是一次實用的升級，而非誇張的行銷噱頭。在測試了快速動作場景、奇幻提示詞、多參考圖影片構思以及短劇風格描述後，我的印象很簡單：它並沒有解決所有的 AI 影片問題，但確實讓短影音的 AI 生成過程比 HappyHorse 1.0 更加實用。

在測試之前，我主要關注三件事：動作看起來是否不再那麼緩慢且飄忽、是否能遵循較長的提示詞，以及當提示詞包含多個視覺概念時，能否保持主體穩定。這些都是許多 AI 影片模型目前仍會遇到瓶頸的地方。靜態圖像可以很美，但一旦角色開始移動，弱點就會顯露無遺。

HappyHorse 1.1 在正確的地方進行了改進。動作更強勁，視覺紋理更乾淨，複雜的提示詞也更容易控制。同時，我不會稱它為完美。它在處理擁擠場景、複雜物理效果和極其精確的音訊同步時仍有些吃力。不過，對於短影音概念、產品創意、奇幻鏡頭和社群短片來說，它比我預期的要實用得多。

作為參考，我在準備這篇評測時查閱了 HappyHorse 官方網站，也瀏覽了阿里巴巴相關的模型生態頁面，例如阿里雲百煉和通義模型頁面，以了解該模型的定位。

2. 什麼是 HappyHorse 1.1？

HappyHorse 1.1 是阿里巴巴升級後的 AI 影片生成模型，用於從文字、圖像和參考素材中創作短片。它支援 3–15 秒的影片、720p 和 1080p 輸出、靈活的長寬比以及音訊生成。

用創作者的語言來說，這意味著你可以描述一個場景，提供參考圖像，並要求它生成一段帶有動作、運鏡和聲音的短片。它不僅僅是為了製作一張漂亮的畫面，而是試圖理解動作、角色、運鏡節奏和場景氛圍。

該模型特別有趣的地方在於 HappyHorse 一直致力於影音同步生成。HappyHorse 1.1 並非將聲音視為完全獨立的後續補充，而是旨在同時生成影片和音訊。這對於短劇、對話短片、音樂驅動的社群影片以及需要人聲、環境音和運鏡感相互連結的廣告來說至關重要。

在本次評測中，我並非以研究人員的角度，而是以創作者的角度進行測試。我想看看是否真的能將其輸出應用於實際的內容規劃中：奇幻動作鏡頭、未來感市場場景、產品風格影片創意以及短劇提示詞。

use happy horse 1.1.jpg

3. HappyHorse 1.1 關鍵規格

項目	HappyHorse 1.1
模型大小	15B 參數
影片長度	3–15 秒
解析度	720p / 1080p
影格率	24fps
長寬比	靈活
參考圖像	最多 9 張
音訊	支援
主要模式	文生影片、圖生影片、參考圖生影片、影片編輯
720p 價格	定價約 0.9 元人民幣/秒，促銷價低至 0.54 元人民幣/秒
1080p 價格	定價約 1.2 元人民幣/秒，促銷價低至 0.72 元人民幣/秒

數據固然有用，但對我來說最重要的並非解析度。許多模型都能宣稱達到 1080p。更重要的是生成的影片在動作中是否依然穩定、主體是否保持一致，以及模型是否理解提示詞，而不僅僅是抓取幾個關鍵字。

在這方面，HappyHorse 1.1 明顯更注重實用性。

4. 我的測試內容

我用幾種不同類型的提示詞測試了 HappyHorse 1.1，而不僅僅是簡單的場景。

第一個是奇幻動作提示詞：一條兇猛的紅色元素龍從海中噴湧而出，在船隻上方盤旋，激起巨浪，並在風暴中飛行，同時鏡頭跟隨其移動。我選擇這個是因為它同時考驗了動作、比例、水體、運鏡和能量特效。

第二個是另一個星球上的未來市場。提示詞包括外星商人、發光的果實、漫遊的機器人、漂浮的全息廣告、五彩斑斕的燈光以及電影感的手持運鏡風格。這主要是一個提示詞遵循能力的測試。我想看看模型是否能在一個場景中容納多個視覺元素，而不至於讓它看起來像隨機拼貼。

我還測試了一個簡單的文生影片 (text-to-video) 工作流程，因為我想看看模型僅憑提示詞能達到什麼程度。對於快速創意測試來說，這通常是我評判 AI 影片模型的第一步。如果僅憑文字的結果就感到困惑，那麼後續的工作流程通常需要更多的修正。

我還研究了多參考圖風格的應用場景，特別是電子商務和直播風格的產品影片。一個典型的例子是一位女性在居家直播間賣口紅，模型需要保持人物、產品、服裝和房間的一致性。這類任務中，「大致正確」是不夠的。如果口紅顏色變了、產品包裝消失了，或者主持人的臉部變化太大，這個片段就難以使用。

最後一類是短劇和品牌故事場景。我想知道 HappyHorse 1.1 是否能處理情感對話、鏡頭切換、特寫、溫暖的室內燈光和角色定位。這些場景在視覺上並不總是爆炸性的，但它們很難，因為模型必須理解人際關係和時間節奏。

在此試用 Happy Horse 1.1

5. 動作品質：最顯著的視覺提升

當場景需要真實動作時，HappyHorse 1.1 的表現明顯更好。這是我在龍與風暴測試中注意到的第一件事。

在舊的 AI 影片輸出中，快速移動通常感覺像是虛假的慢動作。角色看起來在移動，但身體沒有重量感。生物在飛行，但翅膀和鏡頭感覺沒有連結。水在流動，但波浪對主體的反應不自然。HappyHorse 1.1 雖然偶爾仍有 AI 偽影，但整體動作感覺更強勁、更連貫。

在龍的場景中，模型很好地將動作呈現為一個連貫的事件：龍升起、海水反應、鏡頭跟隨、風暴為鏡頭增添能量。它感覺不像是一幀幀拼湊起來的孤立畫面。這很重要，因為如果動作缺乏力度，奇幻和動作影片很快就會崩壞。

我不會說物理效果是完美的。在複雜的水體和風暴場景中，你仍然可以發現波浪行為或物體關係顯得誇張的時刻。但與我經常在 AI 影片中看到的緩慢、飄忽的動作相比，HappyHorse 1.1 感覺更有自信。

對於製作動作短片、奇幻預告片、遊戲風格場景或動態社群影片的創作者來說，這是嘗試它的最強理由之一。

6. 提示詞遵循：長且具體的視覺描述表現更好

HappyHorse 1.1 在遵循較長提示詞方面的表現超出了我的預期。未來市場的測試清楚地證明了這一點。

我的提示詞內容豐富：外星商人、發光的果實、機器人、漂浮的全息廣告、五彩燈光和手持電影運鏡風格。較弱的模型通常會挑選兩三個細節而忽略其餘部分。有時它會包含機器人但忘記外星人。有時它會創造霓虹燈但失去了市場的感覺。有時場景看起來很未來，但缺乏生氣。

HappyHorse 1.1 在保持場景概念完整性方面做得更好。結果感覺像是一個繁忙的市場，而不僅僅是一個科幻背景。模型理解了氛圍：色彩豐富、擁擠、異域風情、商業化且具有電影感。

這很重要，因為真實的提示詞很少僅僅是「一個女人在走路」或「一輛車在路上」。當人們創作內容時，他們會在一個提示詞中描述情緒、環境、鏡頭、動作和主體關係。HappyHorse 1.1 並非完美，但它似乎更有能力處理這種層次化的指令。

我的建議是按清晰的順序編寫提示詞。先放主體，然後是場景、動作、鏡頭風格，最後是燈光或情緒。HappyHorse 1.1 可以處理長提示詞，但當提示詞結構清晰時，它的表現會更好。

7. 多參考圖影片：商業工作中最實用的升級

多參考圖工作流程是 HappyHorse 1.1 開始對實際專案變得實用的地方。

對於電子商務影片、產品廣告和品牌內容，一致性比人們想像的更重要。如果你給模型一個產品、一個人、一個房間和一套服裝，輸出結果必須尊重所有這些元素。僅僅製作出看起來大致相似的東西是不夠的。

口紅直播的例子是一個很好的測試案例。你可能需要一張主持人參考圖、一張口紅參考圖、一張服裝參考圖和一張直播間參考圖。模型需要知道每個參考圖的含義。人物應該保持可辨識，口紅顏色應該保持接近，服裝不應該隨意改變，房間應該感覺是同一個空間。

我也嘗試從圖生影片 (image-to-video) 的角度進行思考，因為許多創作者已經從一張強大的靜態圖像開始，之後只需要受控的動作。當起始圖像具有清晰的主體、燈光和構圖時，HappyHorse 1.1 感覺更有用，而不是要求模型從零開始發明一切。

HappyHorse 1.1 支援最多 9 張參考圖像，這對於需要鎖定多個視覺元素的場景來說是一個真正的優勢。在我看來，這比單純從文字生成華麗場景更具商業價值。

它適用於：

應用場景	幫助原因
產品廣告	使產品外觀更穩定
直播風格影片	結合主持人、產品、服裝和房間參考
品牌影片	保留風格、顏色和產品氛圍
角色影片	幫助同一個人或角色保持一致
短劇	支援跨鏡頭的重複視覺識別

當然仍有限制。如果你用太多詳細的參考圖讓模型負載過重，小細節可能會相互衝突。但與基本的圖生影片工作流程相比，HappyHorse 1.1 為創作者提供了更多控制權。

8. 視覺品質：減少油膩感，更自然

我對某些 AI 影片模型的一個問題是「AI 光澤」問題。臉部看起來太過拋光，皮膚看起來像塑膠，頭髮會閃爍，細節在一幀中過度銳化，在下一幀中又變得模糊。

HappyHorse 1.1 似乎減少了這個問題。在肖像風格和短劇場景中，皮膚紋理看起來更自然，燈光在臉上的呈現也更好。模型不僅僅是讓圖像更銳利，它還試圖讓圖像感覺不那麼人工。

這對於短劇、對話和產品影片尤為重要。在這些場景中，觀眾會仔細觀察臉部和細微動作。奇幻怪物可以容忍一些奇怪的細節，但人臉不行。如果眼睛、嘴巴、皮膚或頭髮看起來不對勁，整個片段就會感覺很假。

我還注意到電影感燈光提示詞效果很好。溫暖的室內光、淺景深、霓虹市場光、風暴燈光和產品聚光燈場景似乎都符合該模型的優勢。

話雖如此，背景中的人臉和擁擠場景仍然較弱。如果場景包含遠處的許多人，一些臉部可能看起來模糊或不完整。這並非 HappyHorse 1.1 所獨有，但仍需注意。

9. 音訊：實用，但仍需審核

HappyHorse 1.1 支援音訊生成，這使得它比僅關注視覺的模型更有趣。

對於短場景，內建聲音可以讓輸出感覺更完整。對話、環境音、背景音樂和環境聲音有助於讓片段感覺不像是一個無聲的動畫測試。在市場場景中，聲音可以營造人群和氛圍。在短劇場景中，語音節奏和停頓很重要。在動作場景中，音效增加了能量。

HappyHorse 1.1 改進了音訊與場景的匹配感，但我仍建議在公開使用前審核輸出。語音節奏可能不錯，但並不總是與你想像中的確切情緒相符。樂器演奏場景仍然很困難，因為視覺動作和聲音變化需要非常精確地同步。

對於概念測試、社群短片和快速草稿，音訊功能很有用。對於精緻的商業交付，我仍然預期需要一些手動編輯或替換。

10. HappyHorse 1.1 的最佳應用場景

HappyHorse 1.1 在影片簡短、視覺化且以概念為導向時表現最強。

應用場景	我的看法
電商產品影片	最適合的場景之一，因為參考一致性很重要
直播風格廣告	適合結合人物、產品、服裝和房間參考
短劇片段	在情感、特寫和鏡頭切換方面比以前更好
品牌故事影片	適合電影感的產品氛圍和精緻視覺
遊戲 CG 概念	在奇幻、動作和風格化環境方面表現強勁
社群媒體預告	非常適合 3–15 秒的視覺鉤子
AI 影片草稿	用於在製作前測試創意非常有用

我特別推薦給需要快速測試視覺方向的創作者。如果你正在規劃產品廣告、短劇場景或奇幻概念，HappyHorse 1.1 可以幫助你在投入更多製作時間之前，先看到動態的創意效果。

11. HappyHorse 1.1 的不足之處

HappyHorse 1.1 有所改進，但它不是魔法。

最大的限制仍然是控制力。你可以引導模型，但無法控制每一個物體、每一幀或每一個小細節。複雜的物理場景仍可能崩壞。擁擠的背景仍可能產生模糊的臉部。詳細的產品鏡頭可能仍需要多次生成才能得到足夠乾淨的結果。

我注意到的主要弱點如下：

複雜的物理效果看起來仍可能很奇怪。
背景角色並不總是乾淨。
過多的參考細節可能會混淆結果。
樂器同步仍然很難。
長篇故事的連貫性問題尚未解決。
商業輸出仍需人工審核。

我認為這對於 AI 影片目前的發展階段來說是正常的。HappyHorse 1.1 更適合生成短小實用的片段，但它還不是一個完全受控的生產管線。

12. 定價：更低的成本使測試更容易

定價是更實用的改進之一。據報導，HappyHorse 1.1 的 720p 定價保持在每秒約 0.9 元人民幣，促銷價低至每秒 0.54 元人民幣。對於 1080p，定價約為每秒 1.2 元人民幣，促銷價低至每秒 0.72 元人民幣。

重要的是 1080p 的價格下降。HappyHorse 1.0 的 1080p 價格約為每秒 1.6 元人民幣，因此 1.1 將定價降低了約 25%。

這很重要，因為 AI 影片生成通常需要反覆試驗。你很少能一次就得到完美的結果。如果每秒價格太高，人們就會停止嘗試。較低的價格使測試提示詞、比較風格和優化場景變得更容易。

13. HappyHorse 1.1 與 HappyHorse 1.0 對比

HappyHorse 1.1 並非與 1.0 完全不同的產品。它感覺更像是對 1.0 不穩定問題的針對性修復。

領域	HappyHorse 1.0	HappyHorse 1.1
動作	可能感覺緩慢或不連貫	更連貫且充滿活力
主體一致性	容易丟失細節	參考圖下更穩定
提示詞遵循	可能遺漏長提示詞的部分內容	對場景和關係的理解更好
視覺紋理	有時油膩或過度處理	皮膚和燈光更自然
音訊	有用但精緻度不足	更好的節奏和氛圍
1080p 定價	約 1.6 元人民幣/秒	定價約 1.2 元人民幣/秒

這次升級不僅僅是為了製作更好的演示影片，它讓模型感覺對實際的內容創作更有用。

14. 誰應該嘗試 HappyHorse 1.1？

如果你創作短影音內容並需要快速的影片概念，HappyHorse 1.1 值得一試。

它適合：

AI 影片創作者
電商行銷人員
產品廣告商
短劇團隊
社群媒體編輯
品牌內容團隊
遊戲概念創作者
測試創意的創意代理商

如果你需要長片、精確的物理模擬、完美的產品準確度或逐幀控制，它可能不是最佳選擇。對於這些場景，你仍然需要編輯、合成和人工審核。

15. 最終結論

在測試了 HappyHorse 1.1 後，我會將其描述為對 HappyHorse 1.0 的實用且顯著的升級。最大的改進在於動作、主體一致性、提示詞遵循和視覺紋理。輸出感覺不再那麼緩慢、油膩和隨機。

我的個人評分如下：

類別	評分
動作品質	8/10
主體一致性	8/10
提示詞遵循	7.5/10
視覺品質	8/10
音訊	7/10
價值	8/10

該模型仍有弱點，特別是在複雜物理、背景人臉、擁擠場景和精確音訊同步方面。但對於短 AI 影片創作，HappyHorse 1.1 感覺更接近我實際會用於創意測試的工具。

我的最終觀點：HappyHorse 1.1 並沒有讓 AI 影片生成變得完美，但它確實讓它變得更實用。如果你關注短劇、產品廣告、品牌視覺、奇幻片段或社群影片創意，它絕對值得一試。

常見問題

HappyHorse 1.1 是免費的嗎？

HappyHorse 1.1 根據使用平台的不同，可能會有促銷價格或試用權限，但報告的定價通常是按 720p 和 1080p 影片的秒數計算。

HappyHorse 1.1 的影片可以有多長？

HappyHorse 1.1 支援 3–15 秒的影片片段。

HappyHorse 1.1 支援音訊嗎？

是的。它支援音訊生成，包括語音、環境音、音樂和音效。

HappyHorse 1.1 可以使用參考圖像嗎？

是的。HappyHorse 1.1 支援最多 9 張參考圖像，這對於保持角色、產品、服裝和場景的一致性非常有用。

HappyHorse 1.1 最適合做什麼？

它最適合短劇片段、電商產品影片、直播風格廣告、品牌故事影片、遊戲 CG 概念和短社群媒體預告。

HappyHorse 1.1 的主要弱點是什麼？

它在處理複雜物理、擁擠的背景人臉、詳細的多主體場景和精確的音訊同步時仍可能感到吃力。

開始使用 Happy Horse 1.1 創作