goenhance logo

HappyHorse 1.1 AI動画生成

HappyHorse 1.1は、3〜15秒のクリップ生成に対応したAlibabaのアップグレード版マルチモーダルAI動画モデルです。より滑らかな動き、高い被写体の一貫性、優れたプロンプト追従性、自然な視覚テクスチャ、そしてネイティブな音声・動画生成を実現します。

HappyHorse 1.1の主な特徴

より強力なモーションと時間的一貫性

HappyHorse 1.1は、格闘、ダンス、走行、旋回、車両の移動、カメラ追従ショットにおいて、モーションモデリングとフレーム間の整合性を向上させました。1.0と比較して、スローモーションのような違和感、ゴースト現象、不自然な動作の途切れを軽減しています。
プロンプト例生成されたクリップ
獰猛な赤いドラゴン(エレメンタル)が海から現れ、空へ舞い上がり、船の上を急旋回しながら巨大な波を巻き起こす。ダイナミックなカメラワークが、嵐の中を切り裂き、そびえ立つうねりを越えて遠くへ消えていくドラゴンを追う。

より安定したマルチリファレンスR2V

アップグレードされたマルチリファレンス動画ワークフローは、最大9枚のリファレンス画像をサポートします。これにより、人物の顔、服装、製品の詳細、ブランド要素、環境を短いクリップ全体で維持できるため、Eコマース広告、ライブ配信風動画、製品デモ、キャラクターベースのコンテンツに最適です。

より優れた長文プロンプトとシーン設計

HappyHorse 1.1は、長文のコンテキスト理解、役割関係、シーン設計、カメラワークの解釈を向上させました。誰が話しているか、キャラクターがどこに立っているか、感情がどう変化するか、ショット間でカメラがどう切り替わるかといったプロンプトへの追従性が高まっています。
プロンプト例生成されたクリップ
異星にある賑やかな未来の市場。エイリアンの商人が光る果物を売り歩き、ロボットが至る所を徘徊し、空にはホログラム広告が浮かび、周囲には色とりどりの光が溢れている様子を、シネマティックなハンディカメラ風のスタイルで。

より自然な視覚テクスチャ

モデルは、よりリアルな肌の質感、顔のディテール、髪のレンダリング、照明、影、局所的な安定性を実現するように調整されました。1.0で見られた油っぽさや過度な加工感を抑えつつ、ポートレートやショートドラマの映像をより自然に保ちます。

ネイティブな音声・動画生成

HappyHorseは、後から音を追加するのではなく、音声と動画を同時に生成します。バージョン1.1では、話し方のリズム、間、感情的なトーン、BGM、環境音、そして視聴覚の同期が向上しました。ただし、楽器演奏シーンについては手動での確認が必要な場合があります。

HappyHorse 1.1のパラメータ

パラメータ備考
リリース日2026年6月22日Alibabaのアップグレード版動画生成モデル「HappyHorse」として正式リリース。
モデルサイズ150億パラメータ150億パラメータのマルチモーダル動画生成モデル。
アーキテクチャ統合型マルチモーダルTransfusion / シングルストリームTransformerテキスト、画像、動画、音声の各トークンを、個別のモジュールを継ぎ合わせることなく、単一のモデルで処理します。
Transformerの深さ40層統合された40層のTransformerアーキテクチャとして報告されています。
生成モードテキストから動画、画像から動画、参照画像から動画、動画編集テキストプロンプト、静止画のアニメーション化、複数参照による動画作成、動画編集シナリオに対応しています。
動画の長さ3〜15秒1回の生成でショート動画の長さをサポートします。
解像度720p / 1080pHDおよびフルHDの両方の生成をサポートしています。
フレームレート24fps映画のようなショートクリップに適しています。
アスペクト比カスタム / フレキシブル横長、縦長、正方形など、クリエイティブな形式に合わせて柔軟な出力比率をサポートします。
参照画像最大9枚キャラクター、製品、衣装、シーン、ブランド要素を固定するのに役立ちます。
音声サポート対象セリフ、環境音、音楽、効果音を含む音声を伴う動画を出力します。
ノイズ除去DMD-2蒸留、8ステップのノイズ除去生成ステップを削減し、効率を向上させます。
CFG削除済み効率向上のため、Classifier-free guidance(CFG)は削除されています。
推論速度NVIDIA H100 1基で5秒間の1080pクリップを生成するのに約38秒短い1080p動画生成のベンチマーク報告。
720pの価格定価0.9人民元/秒、キャンペーン時は最低0.54人民元/秒キャンペーン価格はプラットフォームやプロモーション内容によって異なります。
1080pの価格定価1.2人民元/秒、キャンペーン時は最低0.72人民元/秒1080pの定価は、HappyHorse 1.0の1.6人民元/秒から25%値下げされました。

HappyHorse 1.1のユースケース

Eコマース製品およびライブコマース動画

複数の参照画像を使用して、スポークスパーソン、製品、衣装、ライブ配信風の部屋を1つの短い広告クリップに統合します。これは、製品の色、パッケージ、口紅の色味、衣類、ブランドの詳細などが、単なる近似値ではなく、一貫性を保つ必要がある場合に役立ちます。

ショートドラマ、ブランドストーリー、ゲームCGコンセプト

HappyHorse 1.1は、感情豊かな対話、マルチショットの屋内シーン、アクションシーケンス、映画のようなブランドティーザー、様式化されたゲームCGコンセプトに適しています。これは、動きの連続性、長いプロンプトの計画、カメラワークの理解、自然な肌の質感が向上しているためです。

XでのHappyHorse 1.1

HappyHorse 1.1 よくある質問

HappyHorse 1.1とは?

HappyHorse 1.1は、短いクリップ向けのAlibabaのアップグレードされたAI動画生成モデルです。より滑らかな動き、強力な被写体の一貫性、優れたプロンプト追従性、より自然な画質、および改善されたオーディオとビデオの同期に重点を置いています。

HappyHorse 1.1はどのような生成モードをサポートしていますか?

短いAI動画作成のためのテキストから動画への変換、画像から動画への変換、複数参照画像から動画への変換、および動画編集ワークフローをサポートしています。

HappyHorse 1.1の動画の長さはどれくらいですか?

単一の生成クリップは3秒から15秒をサポートしており、短い広告、ソーシャル動画、キャラクタークリップ、製品デモ、ショートドラマのショットに適しています。

どの解像度がサポートされていますか?

HappyHorse 1.1は720pおよび1080pの生成をサポートしており、さまざまなコンテンツ形式に合わせて柔軟なアスペクト比に対応しています。

HappyHorse 1.1は何枚の参照画像を使用できますか?

マルチリファレンスワークフローは最大9枚の参照画像をサポートしており、モデルがキャラクターの顔、衣類、製品、シーン、ブランド要素を保持するのに役立ちます。

HappyHorse 1.1はHappyHorse 1.0とどう違いますか?

バージョン1.1は全体的な技術的方向性は維持しつつ、動きの連続性、マルチリファレンスによる被写体の固定、複雑なプロンプトの理解、視覚的な質感、および音声表現を改善しています。また、1.0と比較して1080pの定価を引き下げています。

HappyHorse 1.1は音声を生成しますか?

はい。HappyHorse 1.1は、動画とともに音声、環境音、音楽、効果音を生成できます。

主な制限事項は何ですか?

複雑な物理演算、背景の混雑した顔、特殊な複数被写体シーン、楽器演奏の音声同期などにはまだ課題があります。商用利用の際は、公開前に出力を確認することをお勧めします。

HappyHorse 1.1を試す準備はできましたか?

HappyHorse 1.1を使って、より滑らかな動き、安定した参照被写体、高いプロンプト追従性、ネイティブ音声を備えたAIショート動画を作成しましょう。ショートドラマ、EC広告、ブランドコンセプト、ゲーム風の動画制作に最適です。

HappyHorse 1.1を試す