goenhance logo

Wan 2.6をテストした結果:クリップを賭けるのではなく、シーンを計画していると初めて感じた

Cover Image for Wan 2.6をテストした結果:クリップを賭けるのではなく、シーンを計画していると初めて感じた
ハンナ

Wan 2.6が登場したとき、私はまた「スクリーンショットでは素晴らしく見えるが、少しでも野心的なことを試すとすぐに崩れる」モデルだと思っていました。

それから、いくつかの実際のプロンプトを試しました—短編ストーリーの一部、製品のティーザー、またはミニスキットで実際に欲しいと思うもの。そして私は、AI動画生成器ではめったにしないことをしている自分に気づきました:

ショットで考え始めたのです。

「3つの別々のクリップを生成して、それらが一致することを祈る」のではありません。「派手な瞬間を1つ作って終わり」でもありません。
むしろ、設定 → 移動 → 感情を着地させる → ビートをまとめるといった感じです。

ここで焦点を当てたいのはこれです:Wan 2.6を実際に使ってみた感触、信頼できる部分、まだつまずく部分、そして毎週コンテンツを出荷しなければならない場合にどう使うかです。

私がテストした内容(選り好みしていないことを知ってもらうために)

私はWan 2.6を以下の3つのストレステストで使用しました:

  1. マルチショットのミニシーン(広角 → 中間 → クローズアップ)で一貫した照明と被写体
  2. 参照駆動型生成 短い「雰囲気」クリップ(カメラの揺れ + ペース)を使用
  3. ダイアログ + サウンド(声 + 雰囲気)で音声とパフォーマンスが一致するかを確認

また、「クリーンなシネマティック」プロンプトと意図的に乱雑なプロンプト(速い動き、変化するムード、混合照明)を試しました。なぜなら、それがほとんどのモデルが真実を明らかにする場所だからです。

Wan 2.6で新しく感じたこと(わかりやすい言葉で)

1) コラージュのように感じないマルチショットストーリーテリング

大きな違いは、Wan 2.6がプロンプトをシーケンスとして扱うことにより積極的になったことです。

1つのアングルがすべての作業をするのではなく、短いショットの連鎖を説明すると、次のことがしばしば維持されます:

  • 同じ環境のムード
  • 同じ被写体のアイデンティティマーカー
  • 「これは1つの瞬間が展開している」という一貫した感覚

テストで良い反応を示した構造は次のようなものでした:

  • ショットA(設定): どこにいる?雰囲気は?
  • ショットB(アクション): 何が変わる?誰が動く?
  • ショットC(成果): 反応 / 詳細 / 明らかになるもの

完璧なシネマティック文法ではありませんが、「計画された」ものに近く、「つぎはぎ」ではありません。

2) 実際に重要な参照入力

テキストプロンプトは、非常に特定のリズムが必要になるまで問題ありません:手持ちの揺れ、ゆっくりとしたプッシュイン、「怠惰な週末のVlog」テンポ、またはそのタイトな商業的ペース。

Wan 2.6では、短い参照クリップを使用することは単なるギミックではありません。実際には次のことに役立ちました:

  • 動きのリズム(シーンがどれくらい速く呼吸するか)
  • フレーミングの傾向(被写体にどれくらい近く座るか)
  • 全体的な感覚(開始から終了までのより一貫した「トーン」)

私はシンプルな参照を使用しました:スマートフォンで撮影された短いウォークスルークリップ(特別なものではありません)。Wan 2.6に正確なビデオを再現するようには求めませんでした—ただペースとカメラの態度を求めました。

結果:すべての微細なステップを一致させることはありませんでしたが、エネルギーはテキストのみの試みよりも明らかに近かったです。

3) ナラティブビートを可能にする長い出力

その余分な秒数は見せびらかしではなく、実用的です。

もし設定 → 変化 → 反応を4秒のクリップで示そうとしたことがあるなら、どれほど窮屈になるかを知っています。Wan 2.6では、実際のマイクロアークを収めることができました:

  • 設定を確立する
  • 被写体のアクションを導入する
  • 小さな感情の変化を着地させる

「クールなモーションサンプル」と「投稿可能で完成感のあるもの」の違いです。

4) サウンドがシーンの一部になり、後回しではない

Wan 2.6のオーディオ側(声、雰囲気、音楽キュー)は「スタジオグレード」ではありませんが、役立ちます—特に次のような場合に:

  • 短いスキットで話すキャラクター
  • ムードをサポートする環境音
  • ランダムではなく意図的に感じるタイミング

驚いた部分:パフォーマンスが時々予想以上にラインの配信に一致すること(間、強調、小さな顔の動き)。これが生成されたクリップをデモのように感じさせない詳細です。

クイックテーブル:強い部分 vs. まだ手助けが必要な部分

項目 実際に見たもの 最適な使用ケース
マルチショットプロンプト ショット順をしばしば追従し、シーンを「まとめる」 ミニトレーラー、ストーリービート、ソーシャルシーン
参照ベースのコントロール ペース + カメラの態度を保持するのが得意 ブランドの一貫性、スタイライズされたリメイク
キャラクターの一貫性 多くのモデルより優れており、特に明確なマーカーがある場合 繰り返し登場するキャラクター、マスコット、エピソード短編
オーディオ + ダイアログ 多くのソーシャルフォーマットで「出荷可能」 スキット、解説、ナラティブクリップ
高速アクション 高速動作で手足/小道具がずれる可能性あり 避けるか、動作を読みやすくする
画面上のテキスト 正確なスペル/タイポグラフィにはまだリスクあり 重要なテキストには後編集を使用

私にとって最も効果的だったプロンプト

A) 「監督のシンプルな公式」

プロンプトを構造化しておくと、Wan 2.6はより予測可能に動作しました。

フォーマット

  • 被写体
  • アクション
  • 設定
  • レンズ / カメラ
  • ムード / 照明
  • (オプション)サウンド

プロンプト例

暖かいキッチンで麺を盛り付ける若いシェフ。蒸気が強く立ち上り、眼鏡を一瞬曇らせる。カメラは中間から始まり、ゆっくりと近づく。柔らかいタングステン照明、居心地の良い雰囲気、背景に浅い霞。自然なキッチンの雰囲気音と控えめな音楽ベッド。

このタイプのプロンプトはモデルに「背骨」を与えます。詳細が変わっても、クリップは読みやすくなります。

B) マルチショットプロンプト(実際に書く方法)

過度に技術的な映画撮影用語は避けました。その代わりに、簡単なショットリストのように書きました。

  • [0–4秒] 広角ショット: 小さなコンビニの外の雨の通り、濡れた地面にネオンの反射
  • [4–9秒] 中間ショット: 主人公が外に出て、フードを調整し、通りを見下ろす
  • [9–15秒] クローズアップ: まつげに落ちる雨滴、タクシーがオフスクリーンに到着するときの短い笑顔

モデルはすべての言葉に「従う」わけではありませんが、感情的な論理とシーンのアイデンティティを驚くほどよく維持しました。

C) 参照駆動型プロンプト(学んだこと)

参照クリップを使用する際、何を保持するかについて明確にすることで最良の結果を得ました。

カメラの動きとペースを参照に使用してください。シーンを暖かいランタンの光と柔らかい霞のある未来的な夜市として再現してください。同じ前進する動きの感覚を維持してください。孤独な旅行者がフレームを通り抜け、穏やかで観察的です。

何を保持するかを指定しないと、「インスパイアされた」ではなく「ガイドされた」結果を得ることがよくあります。

私の実践的なワークフロー(Wan 2.6を使ってストレスを感じずに作業する方法)

最も効果的だった実用的なループは次の通りです:

  1. シーンを1文で書く
    • 「人間の言葉で何が起こるのか?」
  2. 2〜3ショットに分割する
    • 広角 → 中間 → クローズアップで十分
  3. アイデンティティマーカーを固定する
    • 髪の色、衣装のアンカー、1つのユニークな小道具
  4. 2つのバリエーションを生成する
    • 1つは「クリーン」、もう1つは少し強いムード言語
  5. 最良のベースを選ぶ
    • 過度に反復しないでください、それは罠です
  6. その後にダイアログ/オーディオを追加する
    • 音を第2パスとして扱い、ステップ1ではない

気に入らなかったこと(魔法ではないから)

いくつかの正直な摩擦:

  • 速い動きはまだ奇妙になることがある。
    シーンが複雑な物理的相互作用(手 + 小道具 + スピード)に依存している場合は、動きを遅くするか、アクションを簡素化してください。

  • 詰め込みすぎたプロンプトは逆効果。
    ストーリーが明確でビジュアルが制御されている場合、モデルはより良く動作します。5つのスタイルと3つの感情的ビートを積み重ねると、それらを「平均化」してしまう可能性があります。

  • 画面上のテキストは信頼できない。
    完璧なスペルが必要なポスタースタイルのフレームでは?それは他の場所で行うか、後で修正するでしょう。

これらは致命的な欠点ではありません。ただし、計画方法を変更する必要があります。

Wan 2.6が実際に向いている人

Wan 2.6は次のような場合に最も適していると思います:

  • 短いナラティブクリップ(スキット、マイクロドラマ、ストーリーモーメント)を作成している
  • 繰り返し登場するキャラクターを投稿間で一貫して保とうとしている
  • ブランドコンテンツを作成しており、「一貫性のある雰囲気」が一度限りのスペクタクルより重要である
  • プリビズ/ストーリーボードを行い、迅速に視聴可能なものを作成したい

印象的な3秒のバーストだけが必要な場合、その違いに気付かないかもしれません。
Wan 2.6は、出力が完全なビートのように感じる必要があるときに輝きます。

最終的な感想

Wan 2.6はパーティートリックのようには感じませんでした。それは人々が実際に動画を計画する方法をようやく尊重するツールのように感じました:

  • シーン、孤立したクリップではない
  • 継続性、幸運なフレームではない
  • ペース、ただの美しいテクスチャではない

それは実際のクルーの代わりにはなりませんし、弱いアイデアを救うことはありません。
しかし、簡単なシーンを書くことができれば、Wan 2.6はそれを意図的なストーリーテリングのように読めるものに翻訳することに驚くほど近づきます。

そして、ウェブベースの動画モデルについて笑わずにそれを言ったのは初めてです。