goenhance logo

Seedance 2.0をテストしました:マルチモーダルビデオ、参照制御と編集

Cover Image for Seedance 2.0をテストしました:マルチモーダルビデオ、参照制御と編集
Irwin

「AIビデオを作る」ということが一つの意味を持っていた時代をまだ覚えています。プロンプトを入力し、最初のフレームと最後のフレームを追加して、モデルが何とかしてあなたが考えていたストーリーを語ることを願う

そのワークフローはいつも壁を通して指示をささやくように感じられました。

だから、Seedance 2.0が異なるアイデアに基づいて構築されたと聞いたとき — ただビデオを生成するだけでなく、参照を理解する — 試してみる必要がありました。テストした後の結論は簡単です:

Seedance 2.0は単なるマルチモーダルアップグレードではありません。それは制御のアップグレードです。

モデルに結果を乞うているのではなく、実際に指示しているように感じたのは初めてです。

何が変わったのか:Seedance 2.0は四つのモダリティで考えるようになった

Seedance 2.0は四種類の入力をサポートしています:

  • 画像(最大9枚)
  • ビデオ(最大3本、合計**≤ 15秒**)
  • オーディオ(MP3、最大3本、合計**≤ 15秒**)
  • テキスト(自然言語)

そしてここが重要です:一つの「正しい」入力スタイルに強制されることはありません。

一枚の画像を使ってスタイルを固定しビデオを使って動きとカメラ言語を定義し、そして数秒のオーディオを使ってリズムとムードを設定する — すべてを簡単な英語(または任意の自然言語)で説明することができます。

その「自由な組み合わせ」感は本物です:もうプロンプトを書いているのではなく、創造的なスタックを組み立てているのです。

最大のハイライト:参照能力(これが本当の2.0です)

Seedance 2.0を一言でまとめるなら:

それは「世界を参照し」、あなたが与えたものに忠実であることができるモデルです。

参照のアップグレードは四つの方法で現れます:

1) 実際に構成と詳細を尊重する参照画像

スタイルとキャラクターに重みを置いた画像でテストしましたが、最大の改善はこれでした: 構成が保持されキャラクターの詳細が持続し、一般的な顔や曖昧な小道具にすぐに「漂う」ことがありません。

2) カメラ言語と複雑な動きを理解する参照ビデオ

ここで異なる製品のように感じられます。

「プッシュイン、ウィップパン、フォローショット、速いリズム、トランジション効果…」をテキストの壁で説明する代わりに、ただこう言うことができます:

  • 「@video1からカメラの動きとカットリズムを参照してください」
  • 「@video2からアクションのテンポと創造的な効果をコピーしてください」

そして実際にそれを行います — 複雑なアクションタイミング創造的なトランジションスタイライズされた効果を含めて。

3) スムーズなビデオ拡張:生成するだけでなく、「撮影を続ける」

Seedance 2.0は既存のビデオを拡張し、クリップをよりスムーズに接続することをサポートしています。

それは重要です。なぜなら、実際の創造は常に「ゼロから始める」わけではないからです。時にはただこうしたいのです: 「このショットを5秒間続けて、動きとムードを一貫させてください。」

Seedance 2.0はついにそれを一流のワークフローとして扱います。

4) 編集が強化された:既存のビデオ内で置換/削除/追加

これは微妙ですが大きな変化です:ビデオの作成はもう生成だけではありません

Seedance 2.0は既存のビデオを取り込み、次のことを指定できます:

  • キャラクターを置換する
  • 部分を削除または減少する
  • 要素を追加する
  • ストーリービートを再指示する

それは「出力」と「制御」の違いです。

実際の感触:「@参照」ワークフロー

インタラクションデザインは驚くほど実用的です。

主なエントリーポイントは二つあります:

  • 最初/最後のフレームモード(最初のフレーム画像とプロンプトだけの場合に良い)
  • 万能参照モード(混合マルチモーダル入力が必要な場合)

万能参照の中では、すべてがシンプルなアイデアによって駆動されます:

@filenameを入力して役割を割り当てる

思考パターンの例:

  • @image1を最初のフレームとして(スタイルロック)
  • @video1をカメラ言語と動きのリズムを参照するために
  • @audio1を背景音楽/タイミング用に
  • そしてプロンプトを書いて、編集者と撮影監督に指示するように

それは複雑ではありません — しかしプロンプトの方法を変えます。すべてを抽象的に説明するのをやめて、具体的な参照を指し示し始めます

静かなアップグレードが重要:基本品質が向上した

マルチモーダルが見出しですが、Seedance 2.0は基本的な部分でも改善されたように感じられます:

  • 動きがより自然に見える
  • 物理的な動作がより合理的に感じられる
  • 指示のフォローがより正確になった
  • スタイルの一貫性がより安定している
  • 結果がよりスムーズで「リアル」に見える

1.0が「時には魔法、時には混乱」と感じられた場合、2.0は「まだ創造的だが、はるかに信頼できる」と感じられます。

知っておくべき現実の制限(混乱する前に)

適応しなければならなかったいくつかの実用的な制約:

  • 総混合入力制限:12ファイル(画像+ビデオ+オーディオの合計)
  • 出力長**≤ 15秒**(4–15秒を選択可能)
  • ビデオ参照は他の入力よりも高価になる可能性があります(計画する価値があります)
  • リアルな人間の顔は現在アップロードが制限されています(明確なリアルな人間の顔を含む画像/ビデオはコンプライアンスのためにブロックされる可能性があります)

最後のものは重要です:リアルな人の顔をアップロードしようとして失敗した場合、それはあなたのワークフローではなく、プラットフォームの制約です。

なぜこれが重要なのか:Seedance 2.0は「制御可能な創造性」です

多くのビデオモデルは一つの質問で評価されます:

「クールなクリップを生成できるか?」

しかし、実際のクリエイターは異なる質問を気にします:

「私が表現しようとしているクリップを生成できるか?」

Seedance 2.0はその第二の質問に向かっています。

アップグレードは「より多くのモダリティ」だけではありません。 それはモデルが参照をコアプリミティブとして扱うようになったことです — そして参照は監督、編集者、デザイナーが実際に働く方法です。

私の締めくくりの考え

Seedance 2.0をテストしたとき、プロンプトに賭けているようには感じませんでした。

シーンを構築しているように感じました:

  • 画像でスタイルを固定する
  • ビデオで動きとカメラを定義する
  • オーディオでムードとタイミングを設定する
  • そしてテキストを使って重要なことを伝える

そのワークフローはこのカテゴリーで試した中で最も映画制作に近いものです。

Seedance 2.0はマルチモーダルビデオ作成が「ただの生成」から「指示可能」になる場所です。

Seedance 2.0 — 大胆なアイデアが先行。モデルに残りを任せましょう。