J'ai testé Seedance 2.0 : Vidéo multimodale, contrôle de référence et montage

Irwin

March 21, 2026

Cover Image for J'ai testé Seedance 2.0 : Vidéo multimodale, contrôle de référence et montage

Irwin

Ce qui a changé : Seedance 2.0 pense maintenant en quatre modalités
Le plus grand point fort : capacité de référence (c'est le vrai 2.0)
Ce que ça fait en pratique : le flux de travail « @ Référence »
1. Vous attribuez des rôles en tapant @filename
La mise à niveau discrète qui compte : la qualité de base s'est améliorée
Limites réelles que vous devriez connaître (avant de vous confondre)
Pourquoi cela compte : Seedance 2.0 est « créativité contrôlable »
Ma pensée finale

Je me souviens encore de l'époque où « créer une vidéo IA » signifiait une seule chose : taper une invite, peut-être ajouter une première image et une dernière image, et espérer que le modèle raconte l'histoire que vous aviez en tête.

Ce flux de travail a toujours ressemblé à des instructions chuchotées à travers un mur.

Alors, quand j'ai entendu que Seedance 2.0 était construit autour d'une idée différente — non seulement générer des vidéos, mais comprendre les références — je devais l'essayer. Après l'avoir testé, ma conclusion est simple :

Seedance 2.0 n'est pas seulement une mise à niveau multimodale. C'est une mise à niveau de contrôle.

C'est la première fois que je me sens comme si je ne suppliais pas le modèle pour un résultat… Je suis en train de diriger.

Ce qui a changé : Seedance 2.0 pense maintenant en quatre modalités

Seedance 2.0 prend en charge quatre types d'entrée :

Images (jusqu'à 9)
Vidéos (jusqu'à 3, total ≤ 15s)
Audio (MP3, jusqu'à 3, total ≤ 15s)
Texte (langage naturel)

Et voici la clé : vous n'êtes pas obligé d'utiliser un style d'entrée « correct ».

Je peux utiliser une image pour verrouiller le style, utiliser une vidéo pour définir le mouvement + le langage de la caméra, et ensuite utiliser quelques secondes d'audio pour définir le rythme et l'ambiance — tout en utilisant l'anglais simple (ou n'importe quel langage naturel) pour expliquer ce que je veux.

Ce sentiment de « combinaison libre » est réel : je n'écris plus d'invites ; je constitue une pile créative.

Le plus grand point fort : capacité de référence (c'est le vrai 2.0)

Si je devais résumer Seedance 2.0 en une phrase :

C'est un modèle qui peut « référencer le monde » et rester fidèle à ce que vous lui donnez.

Les améliorations de référence se manifestent de quatre manières :

1) Images de référence qui respectent réellement la composition et les détails

J'ai testé avec des images riches en style et en caractère, et la meilleure amélioration était celle-ci : la composition tient, les détails des personnages persistent, et il ne « dérive » pas aussi rapidement vers des visages génériques ou des accessoires vagues.

2) Vidéos de référence qui comprennent le langage de la caméra + le mouvement complexe

C'est là que cela ressemble à un produit différent.

Au lieu de décrire « zoom avant, panoramique rapide, plan de suivi, rythme rapide, effet de transition… » dans un mur de texte, je peux simplement dire :

« Référencer le mouvement de la caméra et le rythme de coupe de @video1 »
« Copier le tempo d'action et les effets créatifs de @video2 »

Et il le fait réellement — y compris le timing d'action complexe, les transitions créatives, et les effets stylisés.

3) Extension vidéo fluide : ne pas seulement générer — « continuer à filmer »

Seedance 2.0 prend en charge l'extension d'une vidéo existante et la connexion des clips plus fluidement.

Cela est important car la création réelle n'est pas toujours « commencer à partir de zéro ». Parfois, je veux juste : « Continuer ce plan pendant 5 secondes, garder le mouvement et l'ambiance cohérents. »

Seedance 2.0 traite enfin cela comme un flux de travail de première classe.

4) Le montage est plus fort : remplacer / supprimer / ajouter à l'intérieur d'une vidéo existante

C'est un changement subtil mais énorme : la création vidéo n'est plus seulement de la génération.

Seedance 2.0 peut prendre une vidéo existante et me permettre de spécifier :

remplacer un personnage
supprimer ou réduire une partie
ajouter un élément
rediriger le rythme de l'histoire

C'est la différence entre « sortie » et « contrôle ».

Ce que ça fait en pratique : le flux de travail « @ Référence »

La conception de l'interaction est étonnamment pratique.

Il y a deux points d'entrée principaux :

Mode Première/Dernière Image (bon si c'est juste une image de première image + invite)
Mode Référence Tout Usage (nécessaire pour les entrées multimodales mixtes)

Dans le mode Référence Tout Usage, tout est dirigé par une idée simple :

Vous attribuez des rôles en tapant `@filename`

Exemple de schéma de pensée :

@image1 comme première image (verrouillage de style)
@video1 pour référencer le langage de la caméra + le rythme du mouvement
@audio1 pour la musique de fond / le timing
puis écrire l'invite comme si vous briefez un éditeur + un cinéaste

Ce n'est pas compliqué — mais cela change la façon dont vous invitez. Vous arrêtez de tout décrire abstraitement, et vous commencez à pointer vers des références concrètes.

La mise à niveau discrète qui compte : la qualité de base s'est améliorée

Le multimodal est le titre, mais Seedance 2.0 semble également amélioré dans les fondamentaux :

le mouvement semble plus naturel
le comportement physique semble plus raisonnable
le suivi des instructions est plus précis
la cohérence du style est plus stable
le résultat semble plus fluide et plus « réel »

Si 1.0 ressemblait à « parfois magique, parfois chaotique », 2.0 ressemble à « toujours créatif, mais beaucoup plus fiable ».

Limites réelles que vous devriez connaître (avant de vous confondre)

Quelques contraintes pratiques auxquelles j'ai dû m'adapter :

Limite totale d'entrée mixte : 12 fichiers (images + vidéos + audio combinés)
Durée de sortie ≤ 15s (vous pouvez choisir 4–15s)
Les références vidéo peuvent être plus coûteuses que d'autres entrées (vaut la peine de planifier)
Les visages humains réalistes sont actuellement restreints pour le téléchargement (les images/vidéos contenant des visages humains clairs peuvent être bloquées en raison de la conformité)

Ce dernier point est important : si vous essayez de télécharger le visage d'une personne réelle et que cela échoue, ce n'est pas votre flux de travail — c'est une contrainte de la plateforme.

Pourquoi cela compte : Seedance 2.0 est « créativité contrôlable »

Beaucoup de modèles vidéo sont jugés par une seule question :

« Peut-il générer un clip cool ? »

Mais les créateurs réels se soucient d'une question différente :

« Peut-il générer le clip que j'essaie d'exprimer ? »

Seedance 2.0 se rapproche de cette deuxième question.

Parce que la mise à niveau n'est pas seulement « plus de modalités ». C'est que le modèle traite maintenant la référence comme un élément de base — et la référence est la façon dont les réalisateurs, éditeurs et designers travaillent réellement.

Ma pensée finale

Quand j'ai testé Seedance 2.0, je n'avais pas l'impression de jouer à la roulette avec une invite.

J'avais l'impression de construire une scène :

verrouiller le style avec une image
définir le mouvement et la caméra avec une vidéo
définir l'ambiance et le timing avec l'audio
puis utiliser le texte pour dire ce qui est important

Ce flux de travail est plus proche de la réalisation de films réels que tout ce que j'ai essayé dans cette catégorie.

Seedance 2.0 est là où la création vidéo multimodale cesse d'être « juste de la génération » et commence à devenir « dirigeable ».

Seedance 2.0 — des idées audacieuses en premier. Laissez le modèle gérer le reste.