HappyHorse 1.1 評測:我測試了阿里巴巴的 AI 影片模型

- 2. 什麼是 HappyHorse 1.1?
- 3. HappyHorse 1.1 關鍵規格
- 4. 我的測試內容
- 5. 動作品質:最顯著的視覺提升
- 6. 提示詞遵循:長且具體的視覺描述表現更好
- 7. 多參考圖影片:商業工作中最實用的升級
- 8. 視覺品質:減少油膩感,更自然
- 9. 音訊:實用,但仍需審核
- 10. HappyHorse 1.1 的最佳應用場景
- 11. HappyHorse 1.1 的不足之處
- 12. 定價:更低的成本使測試更容易
- 13. HappyHorse 1.1 與 HappyHorse 1.0 對比
- 14. 誰應該嘗試 HappyHorse 1.1?
- 15. 最終結論
- 常見問題
HappyHorse 1.1 給人的感覺是一次實用的升級,而非誇張的行銷噱頭。在測試了快速動作場景、奇幻提示詞、多參考圖影片構思以及短劇風格描述後,我的印象很簡單:它並沒有解決所有的 AI 影片問題,但確實讓短影音的 AI 生成過程比 HappyHorse 1.0 更加實用。
在測試之前,我主要關注三件事:動作看起來是否不再那麼緩慢且飄忽、是否能遵循較長的提示詞,以及當提示詞包含多個視覺概念時,能否保持主體穩定。這些都是許多 AI 影片模型目前仍會遇到瓶頸的地方。靜態圖像可以很美,但一旦角色開始移動,弱點就會顯露無遺。
HappyHorse 1.1 在正確的地方進行了改進。動作更強勁,視覺紋理更乾淨,複雜的提示詞也更容易控制。同時,我不會稱它為完美。它在處理擁擠場景、複雜物理效果和極其精確的音訊同步時仍有些吃力。不過,對於短影音概念、產品創意、奇幻鏡頭和社群短片來說,它比我預期的要實用得多。
作為參考,我在準備這篇評測時查閱了 HappyHorse 官方網站,也瀏覽了阿里巴巴相關的模型生態頁面,例如 阿里雲百煉 和 通義模型頁面,以了解該模型的定位。
2. 什麼是 HappyHorse 1.1?
HappyHorse 1.1 是阿里巴巴升級後的 AI 影片生成模型,用於從文字、圖像和參考素材中創作短片。它支援 3–15 秒的影片、720p 和 1080p 輸出、靈活的長寬比以及音訊生成。
用創作者的語言來說,這意味著你可以描述一個場景,提供參考圖像,並要求它生成一段帶有動作、運鏡和聲音的短片。它不僅僅是為了製作一張漂亮的畫面,而是試圖理解動作、角色、運鏡節奏和場景氛圍。
該模型特別有趣的地方在於 HappyHorse 一直致力於影音同步生成。HappyHorse 1.1 並非將聲音視為完全獨立的後續補充,而是旨在同時生成影片和音訊。這對於短劇、對話短片、音樂驅動的社群影片以及需要人聲、環境音和運鏡感相互連結的廣告來說至關重要。
在本次評測中,我並非以研究人員的角度,而是以創作者的角度進行測試。我想看看是否真的能將其輸出應用於實際的內容規劃中:奇幻動作鏡頭、未來感市場場景、產品風格影片創意以及短劇提示詞。

3. HappyHorse 1.1 關鍵規格
| 項目 | HappyHorse 1.1 |
|---|---|
| 模型大小 | 15B 參數 |
| 影片長度 | 3–15 秒 |
| 解析度 | 720p / 1080p |
| 影格率 | 24fps |
| 長寬比 | 靈活 |
| 參考圖像 | 最多 9 張 |
| 音訊 | 支援 |
| 主要模式 | 文生影片、圖生影片、參考圖生影片、影片編輯 |
| 720p 價格 | 定價約 0.9 元人民幣/秒,促銷價低至 0.54 元人民幣/秒 |
| 1080p 價格 | 定價約 1.2 元人民幣/秒,促銷價低至 0.72 元人民幣/秒 |
數據固然有用,但對我來說最重要的並非解析度。許多模型都能宣稱達到 1080p。更重要的是生成的影片在動作中是否依然穩定、主體是否保持一致,以及模型是否理解提示詞,而不僅僅是抓取幾個關鍵字。
在這方面,HappyHorse 1.1 明顯更注重實用性。
4. 我的測試內容
我用幾種不同類型的提示詞測試了 HappyHorse 1.1,而不僅僅是簡單的場景。
第一個是奇幻動作提示詞:一條兇猛的紅色元素龍從海中噴湧而出,在船隻上方盤旋,激起巨浪,並在風暴中飛行,同時鏡頭跟隨其移動。我選擇這個是因為它同時考驗了動作、比例、水體、運鏡和能量特效。
第二個是另一個星球上的未來市場。提示詞包括外星商人、發光的果實、漫遊的機器人、漂浮的全息廣告、五彩斑斕的燈光以及電影感的手持運鏡風格。這主要是一個提示詞遵循能力的測試。我想看看模型是否能在一個場景中容納多個視覺元素,而不至於讓它看起來像隨機拼貼。
我還測試了一個簡單的 文生影片 (text-to-video) 工作流程,因為我想看看模型僅憑提示詞能達到什麼程度。對於快速創意測試來說,這通常是我評判 AI 影片模型的第一步。如果僅憑文字的結果就感到困惑,那麼後續的工作流程通常需要更多的修正。
我還研究了多參考圖風格的應用場景,特別是電子商務和直播風格的產品影片。一個典型的例子是一位女性在居家直播間賣口紅,模型需要保持人物、產品、服裝和房間的一致性。這類任務中,「大致正確」是不夠的。如果口紅顏色變了、產品包裝消失了,或者主持人的臉部變化太大,這個片段就難以使用。
最後一類是短劇和品牌故事場景。我想知道 HappyHorse 1.1 是否能處理情感對話、鏡頭切換、特寫、溫暖的室內燈光和角色定位。這些場景在視覺上並不總是爆炸性的,但它們很難,因為模型必須理解人際關係和時間節奏。
5. 動作品質:最顯著的視覺提升
當場景需要真實動作時,HappyHorse 1.1 的表現明顯更好。這是我在龍與風暴測試中注意到的第一件事。
在舊的 AI 影片輸出中,快速移動通常感覺像是虛假的慢動作。角色看起來在移動,但身體沒有重量感。生物在飛行,但翅膀和鏡頭感覺沒有連結。水在流動,但波浪對主體的反應不自然。HappyHorse 1.1 雖然偶爾仍有 AI 偽影,但整體動作感覺更強勁、更連貫。
在龍的場景中,模型很好地將動作呈現為一個連貫的事件:龍升起、海水反應、鏡頭跟隨、風暴為鏡頭增添能量。它感覺不像是一幀幀拼湊起來的孤立畫面。這很重要,因為如果動作缺乏力度,奇幻和動作影片很快就會崩壞。
我不會說物理效果是完美的。在複雜的水體和風暴場景中,你仍然可以發現波浪行為或物體關係顯得誇張的時刻。但與我經常在 AI 影片中看到的緩慢、飄忽的動作相比,HappyHorse 1.1 感覺更有自信。
對於製作動作短片、奇幻預告片、遊戲風格場景或動態社群影片的創作者來說,這是嘗試它的最強理由之一。
6. 提示詞遵循:長且具體的視覺描述表現更好
HappyHorse 1.1 在遵循較長提示詞方面的表現超出了我的預期。未來市場的測試清楚地證明了這一點。
我的提示詞內容豐富:外星商人、發光的果實、機器人、漂浮的全息廣告、五彩燈光和手持電影運鏡風格。較弱的模型通常會挑選兩三個細節而忽略其餘部分。有時它會包含機器人但忘記外星人。有時它會創造霓虹燈但失去了市場的感覺。有時場景看起來很未來,但缺乏生氣。
HappyHorse 1.1 在保持場景概念完整性方面做得更好。結果感覺像是一個繁忙的市場,而不僅僅是一個科幻背景。模型理解了氛圍:色彩豐富、擁擠、異域風情、商業化且具有電影感。
這很重要,因為真實的提示詞很少僅僅是「一個女人在走路」或「一輛車在路上」。當人們創作內容時,他們會在一個提示詞中描述情緒、環境、鏡頭、動作和主體關係。HappyHorse 1.1 並非完美,但它似乎更有能力處理這種層次化的指令。
我的建議是按清晰的順序編寫提示詞。先放主體,然後是場景、動作、鏡頭風格,最後是燈光或情緒。HappyHorse 1.1 可以處理長提示詞,但當提示詞結構清晰時,它的表現會更好。
7. 多參考圖影片:商業工作中最實用的升級
多參考圖工作流程是 HappyHorse 1.1 開始對實際專案變得實用的地方。
對於電子商務影片、產品廣告和品牌內容,一致性比人們想像的更重要。如果你給模型一個產品、一個人、一個房間和一套服裝,輸出結果必須尊重所有這些元素。僅僅製作出看起來大致相似的東西是不夠的。
口紅直播的例子是一個很好的測試案例。你可能需要一張主持人參考圖、一張口紅參考圖、一張服裝參考圖和一張直播間參考圖。模型需要知道每個參考圖的含義。人物應該保持可辨識,口紅顏色應該保持接近,服裝不應該隨意改變,房間應該感覺是同一個空間。
我也嘗試從 圖生影片 (image-to-video) 的角度進行思考,因為許多創作者已經從一張強大的靜態圖像開始,之後只需要受控的動作。當起始圖像具有清晰的主體、燈光和構圖時,HappyHorse 1.1 感覺更有用,而不是要求模型從零開始發明一切。
HappyHorse 1.1 支援最多 9 張參考圖像,這對於需要鎖定多個視覺元素的場景來說是一個真正的優勢。在我看來,這比單純從文字生成華麗場景更具商業價值。
它適用於:
| 應用場景 | 幫助原因 |
|---|---|
| 產品廣告 | 使產品外觀更穩定 |
| 直播風格影片 | 結合主持人、產品、服裝和房間參考 |
| 品牌影片 | 保留風格、顏色和產品氛圍 |
| 角色影片 | 幫助同一個人或角色保持一致 |
| 短劇 | 支援跨鏡頭的重複視覺識別 |
當然仍有限制。如果你用太多詳細的參考圖讓模型負載過重,小細節可能會相互衝突。但與基本的圖生影片工作流程相比,HappyHorse 1.1 為創作者提供了更多控制權。
8. 視覺品質:減少油膩感,更自然
我對某些 AI 影片模型的一個問題是「AI 光澤」問題。臉部看起來太過拋光,皮膚看起來像塑膠,頭髮會閃爍,細節在一幀中過度銳化,在下一幀中又變得模糊。
HappyHorse 1.1 似乎減少了這個問題。在肖像風格和短劇場景中,皮膚紋理看起來更自然,燈光在臉上的呈現也更好。模型不僅僅是讓圖像更銳利,它還試圖讓圖像感覺不那麼人工。
這對於短劇、對話和產品影片尤為重要。在這些場景中,觀眾會仔細觀察臉部和細微動作。奇幻怪物可以容忍一些奇怪的細節,但人臉不行。如果眼睛、嘴巴、皮膚或頭髮看起來不對勁,整個片段就會感覺很假。
我還注意到電影感燈光提示詞效果很好。溫暖的室內光、淺景深、霓虹市場光、風暴燈光和產品聚光燈場景似乎都符合該模型的優勢。
話雖如此,背景中的人臉和擁擠場景仍然較弱。如果場景包含遠處的許多人,一些臉部可能看起來模糊或不完整。這並非 HappyHorse 1.1 所獨有,但仍需注意。
9. 音訊:實用,但仍需審核
HappyHorse 1.1 支援音訊生成,這使得它比僅關注視覺的模型更有趣。
對於短場景,內建聲音可以讓輸出感覺更完整。對話、環境音、背景音樂和環境聲音有助於讓片段感覺不像是一個無聲的動畫測試。在市場場景中,聲音可以營造人群和氛圍。在短劇場景中,語音節奏和停頓很重要。在動作場景中,音效增加了能量。
HappyHorse 1.1 改進了音訊與場景的匹配感,但我仍建議在公開使用前審核輸出。語音節奏可能不錯,但並不總是與你想像中的確切情緒相符。樂器演奏場景仍然很困難,因為視覺動作和聲音變化需要非常精確地同步。
對於概念測試、社群短片和快速草稿,音訊功能很有用。對於精緻的商業交付,我仍然預期需要一些手動編輯或替換。
10. HappyHorse 1.1 的最佳應用場景
HappyHorse 1.1 在影片簡短、視覺化且以概念為導向時表現最強。
| 應用場景 | 我的看法 |
|---|---|
| 電商產品影片 | 最適合的場景之一,因為參考一致性很重要 |
| 直播風格廣告 | 適合結合人物、產品、服裝和房間參考 |
| 短劇片段 | 在情感、特寫和鏡頭切換方面比以前更好 |
| 品牌故事影片 | 適合電影感的產品氛圍和精緻視覺 |
| 遊戲 CG 概念 | 在奇幻、動作和風格化環境方面表現強勁 |
| 社群媒體預告 | 非常適合 3–15 秒的視覺鉤子 |
| AI 影片草稿 | 用於在製作前測試創意非常有用 |
我特別推薦給需要快速測試視覺方向的創作者。如果你正在規劃產品廣告、短劇場景或奇幻概念,HappyHorse 1.1 可以幫助你在投入更多製作時間之前,先看到動態的創意效果。
11. HappyHorse 1.1 的不足之處
HappyHorse 1.1 有所改進,但它不是魔法。
最大的限制仍然是控制力。你可以引導模型,但無法控制每一個物體、每一幀或每一個小細節。複雜的物理場景仍可能崩壞。擁擠的背景仍可能產生模糊的臉部。詳細的產品鏡頭可能仍需要多次生成才能得到足夠乾淨的結果。
我注意到的主要弱點如下:
- 複雜的物理效果看起來仍可能很奇怪。
- 背景角色並不總是乾淨。
- 過多的參考細節可能會混淆結果。
- 樂器同步仍然很難。
- 長篇故事的連貫性問題尚未解決。
- 商業輸出仍需人工審核。
我認為這對於 AI 影片目前的發展階段來說是正常的。HappyHorse 1.1 更適合生成短小實用的片段,但它還不是一個完全受控的生產管線。
12. 定價:更低的成本使測試更容易
定價是更實用的改進之一。據報導,HappyHorse 1.1 的 720p 定價保持在每秒約 0.9 元人民幣,促銷價低至每秒 0.54 元人民幣。對於 1080p,定價約為每秒 1.2 元人民幣,促銷價低至每秒 0.72 元人民幣。
重要的是 1080p 的價格下降。HappyHorse 1.0 的 1080p 價格約為每秒 1.6 元人民幣,因此 1.1 將定價降低了約 25%。
這很重要,因為 AI 影片生成通常需要反覆試驗。你很少能一次就得到完美的結果。如果每秒價格太高,人們就會停止嘗試。較低的價格使測試提示詞、比較風格和優化場景變得更容易。
13. HappyHorse 1.1 與 HappyHorse 1.0 對比
HappyHorse 1.1 並非與 1.0 完全不同的產品。它感覺更像是對 1.0 不穩定問題的針對性修復。
| 領域 | HappyHorse 1.0 | HappyHorse 1.1 |
|---|---|---|
| 動作 | 可能感覺緩慢或不連貫 | 更連貫且充滿活力 |
| 主體一致性 | 容易丟失細節 | 參考圖下更穩定 |
| 提示詞遵循 | 可能遺漏長提示詞的部分內容 | 對場景和關係的理解更好 |
| 視覺紋理 | 有時油膩或過度處理 | 皮膚和燈光更自然 |
| 音訊 | 有用但精緻度不足 | 更好的節奏和氛圍 |
| 1080p 定價 | 約 1.6 元人民幣/秒 | 定價約 1.2 元人民幣/秒 |
這次升級不僅僅是為了製作更好的演示影片,它讓模型感覺對實際的內容創作更有用。
14. 誰應該嘗試 HappyHorse 1.1?
如果你創作短影音內容並需要快速的影片概念,HappyHorse 1.1 值得一試。
它適合:
- AI 影片創作者
- 電商行銷人員
- 產品廣告商
- 短劇團隊
- 社群媒體編輯
- 品牌內容團隊
- 遊戲概念創作者
- 測試創意的創意代理商
如果你需要長片、精確的物理模擬、完美的產品準確度或逐幀控制,它可能不是最佳選擇。對於這些場景,你仍然需要編輯、合成和人工審核。
15. 最終結論
在測試了 HappyHorse 1.1 後,我會將其描述為對 HappyHorse 1.0 的實用且顯著的升級。最大的改進在於動作、主體一致性、提示詞遵循和視覺紋理。輸出感覺不再那麼緩慢、油膩和隨機。
我的個人評分如下:
| 類別 | 評分 |
|---|---|
| 動作品質 | 8/10 |
| 主體一致性 | 8/10 |
| 提示詞遵循 | 7.5/10 |
| 視覺品質 | 8/10 |
| 音訊 | 7/10 |
| 價值 | 8/10 |
該模型仍有弱點,特別是在複雜物理、背景人臉、擁擠場景和精確音訊同步方面。但對於短 AI 影片創作,HappyHorse 1.1 感覺更接近我實際會用於創意測試的工具。
我的最終觀點:HappyHorse 1.1 並沒有讓 AI 影片生成變得完美,但它確實讓它變得更實用。如果你關注短劇、產品廣告、品牌視覺、奇幻片段或社群影片創意,它絕對值得一試。
常見問題
HappyHorse 1.1 是免費的嗎?
HappyHorse 1.1 根據使用平台的不同,可能會有促銷價格或試用權限,但報告的定價通常是按 720p 和 1080p 影片的秒數計算。
HappyHorse 1.1 的影片可以有多長?
HappyHorse 1.1 支援 3–15 秒的影片片段。
HappyHorse 1.1 支援音訊嗎?
是的。它支援音訊生成,包括語音、環境音、音樂和音效。
HappyHorse 1.1 可以使用參考圖像嗎?
是的。HappyHorse 1.1 支援最多 9 張參考圖像,這對於保持角色、產品、服裝和場景的一致性非常有用。
HappyHorse 1.1 最適合做什麼?
它最適合短劇片段、電商產品影片、直播風格廣告、品牌故事影片、遊戲 CG 概念和短社群媒體預告。
HappyHorse 1.1 的主要弱點是什麼?
它在處理複雜物理、擁擠的背景人臉、詳細的多主體場景和精確的音訊同步時仍可能感到吃力。



