J'ai testé Seedance 2.0 : vidéo multimodale, contrôle des références & montage

Irwin

March 21, 2026

Cover Image for J'ai testé Seedance 2.0 : vidéo multimodale, contrôle des références & montage

Irwin

J'ai testé Seedance 2.0 — et finalement ça ressemble à un modèle vidéo qui comprend le "réalisateur"

J'ai testé Seedance 2.0 — et finalement ça ressemble à un modèle vidéo qui comprend le "réalisateur"

Je me souviens encore de l'époque où "faire une vidéo IA" signifiait une chose : taper un prompt, peut-être ajouter une première et une dernière image, et espérer que le modèle raconte l'histoire que vous aviez en tête.

Ce workflow ressemblait toujours à murmurer des instructions à travers un mur.

Alors quand j'ai entendu que Seedance 2.0 était basé sur une idée différente — pas seulement générer une vidéo, mais comprendre les références — j'ai dû l'essayer. Après test, mon constat est simple :

Seedance 2.0 n'est pas seulement une mise à niveau multimodale. C'est une mise à niveau du contrôle.

C'est la première fois que j'ai l'impression de ne pas supplier le modèle pour un résultat… je suis vraiment en train de diriger.

Ce qui a changé : Seedance 2.0 pense maintenant en quatre modalités

Seedance 2.0 prend en charge quatre types d'entrées :

Images (jusqu'à 9)
Vidéos (jusqu'à 3, total ≤ 15s)
Audio (MP3, jusqu'à 3, total ≤ 15s)
Texte (langage naturel)

Et voici l'essentiel : vous n'êtes pas obligé d'utiliser un seul style d'entrée "correct".

Je peux utiliser une image pour verrouiller le style, utiliser une vidéo pour définir le mouvement + langage de caméra, puis utiliser quelques secondes d'audio pour donner le rythme et l'ambiance — tout en utilisant l'anglais simple (ou n'importe quelle langue naturelle) pour expliquer ce que je veux.

Ce sentiment de "combinaison libre" est réel : je n'écris plus de prompts ; j'assemble une pile créative.

Le plus grand point fort : la capacité de référence (C'est le vrai 2.0)

Si je devais résumer Seedance 2.0 en une phrase :

C'est un modèle qui peut "référencer le monde" et rester fidèle à ce qu'on lui donne.

Les améliorations de référence se manifestent de quatre manières :

1) Images de référence qui respectent réellement la composition et les détails

J'ai testé avec des images riches en style et personnages, et la meilleure amélioration était celle-ci : la composition tient, les détails des personnages persistent, et il ne "dérive" pas aussi rapidement vers des visages génériques ou des accessoires vagues.

2) Vidéos de référence qui comprennent le langage de la caméra + mouvement complexe

C'est là que ça ressemble à un produit différent.

Au lieu de décrire "zoom avant, panoramique vif, plan de suivi, rythme rapide, effet de transition…" dans un mur de texte, je peux simplement dire :

"Référence le mouvement de caméra et le rythme de coupure de @video1"
"Copie le tempo d'action et les effets créatifs de @video2"

Et il le fait vraiment — y compris le timing complexe des actions, les transitions créatives, et les effets stylisés.

3) Extension vidéo fluide : pas seulement générer — "continuer à filmer"

Seedance 2.0 supporte l'extension d'une vidéo existante et la connexion des clips de manière plus fluide.

Cela importe car la création réelle n'est pas toujours "commencer de zéro". Parfois, je veux juste : "Continuer ce plan pendant 5 secondes, garder le mouvement et l'ambiance cohérents."

Seedance 2.0 traite enfin cela comme un workflow de première classe.

4) Le montage est plus puissant : remplacer / supprimer / ajouter dans une vidéo existante

C'est un changement subtil mais énorme : la création vidéo n'est plus seulement génération.

Seedance 2.0 peut prendre une vidéo existante et me permettre de spécifier :

remplacer un personnage
supprimer ou réduire une partie
ajouter un élément
rediriger le rythme de l'histoire

C'est la différence entre "résultat" et "contrôle."

Ce que ça donne en pratique : le workflow "@ Référence"

Le design d'interaction est étonnamment pratique.

Il y a deux points d'entrée principaux :

mode Premiere/Dernière image (utile si c'est juste une image de première frame + prompt)
mode Référence tout usage (nécessaire pour des entrées multimodales mixtes)

Dans Référence tout usage, tout est guidé par une idée simple :

Vous assignez des rôles en tapant `@nomdefichier`

Exemple de méthode de réflexion :

@image1 comme première image (verrouillage style)
@video1 pour référencer le langage de caméra + rythme de mouvement
@audio1 pour musique d'ambiance / timing
puis écrire le prompt comme si vous briefiez un monteur + directeur de la photographie

Ce n'est pas compliqué — mais ça change la façon dont vous faites vos prompts. Vous arrêtez de tout décrire abstraitement, et vous commencez à pointer vers des références concrètes.

La mise à niveau silencieuse qui compte : la qualité de base s'est améliorée

Multimodal est la grande vedette, mais Seedance 2.0 semble aussi meilleur dans les fondamentaux :

le mouvement paraît plus naturel
le comportement physique est plus raisonnable
le suivi des instructions est plus précis
la cohérence de style est plus stable
le résultat est plus fluide et plus "réel"

Si la version 1.0 donnait l'impression de "parfois magique, parfois chaotique", la 2.0 est "toujours créative, mais bien plus fiable."

Limites réelles à connaître (pour ne pas se perdre)

Quelques contraintes pratiques auxquelles j'ai dû m'adapter :

Limite totale d'entrées mixtes : 12 fichiers (images + vidéos + audio combinés)
Durée de sortie ≤ 15s (vous pouvez choisir 4–15s)
Les références vidéo peuvent être plus coûteuses que d'autres entrées (à prévoir)
Les visages humains réalistes sont actuellement restreints pour l'upload (images/vidéos contenant des visages humains nets peuvent être bloquées pour conformité)

Cette dernière est importante : si vous essayez de télécharger le visage réel d'une personne et que ça échoue, ce n'est pas votre flux de travail — c'est une contrainte de la plateforme.

Pourquoi c'est important : Seedance 2.0 est une "créativité contrôlable"

Beaucoup de modèles vidéo sont jugés sur une seule question :

"Peut-il générer un clip sympa ?"

Mais les vrais créateurs se préoccupent d'une autre question :

"Peut-il générer le clip que j'essaie d'exprimer ?"

Seedance 2.0 avance vers cette deuxième question.

Parce que la mise à niveau n'est pas que "plus de modalités". C'est que le modèle considère désormais la référence comme un élément fondamental — et la référence est la façon dont réalisateurs, monteurs et designers travaillent réellement.

Ma conclusion

Quand j'ai testé Seedance 2.0, je n'avais pas l'impression de parier sur un prompt.

J'avais l'impression de construire une scène :

verrouiller le style avec une image
définir le mouvement et la caméra avec une vidéo
fixer l'ambiance et le timing avec de l'audio
puis utiliser du texte pour expliquer ce qui importe

Ce workflow est plus proche du vrai cinéma que tout ce que j'ai essayé dans cette catégorie.

Seedance 2.0 est là où la création vidéo multimodale cesse d'être "juste génération" et commence à devenir "réalisable."

Seedance 2.0 — d'abord des idées audacieuses. Laissez le modèle gérer le reste.