goenhance logo

J'ai testé Wan 2.6 : La première fois que j'ai eu l'impression de planifier une scène (et non de jouer à la loterie avec un clip)

Cover Image for J'ai testé Wan 2.6 : La première fois que j'ai eu l'impression de planifier une scène (et non de jouer à la loterie avec un clip)
Hannah

Quand Wan 2.6 est arrivé, je pensais que ce serait un autre modèle « impressionnant sur les captures d'écran » qui s'effondre dès que vous essayez quelque chose d'un peu ambitieux.

Puis j'ai lancé quelques vrais prompts—des choses que je voudrais réellement pour un moment d'histoire courte, une présentation de produit ou un mini sketch—et je me suis surpris à faire quelque chose que je fais rarement avec générateur de vidéos IA :

J'ai commencé à penser en plans.

Pas « générer trois clips séparés et prier pour qu'ils correspondent ». Pas « un moment tape-à-l'œil et terminé ».
Plutôt : établir → avancer → capturer l'émotion → conclure le moment.

C'est ce sur quoi je vais me concentrer ici : ce que Wan 2.6 ressent en utilisation pratique, ce qu'il fait de manière fiable, où il trébuche encore, et comment je travaillerais réellement avec lui si je devais produire du contenu chaque semaine.

Ce que j'ai testé (pour que vous sachiez que je ne sélectionne pas uniquement les meilleurs résultats)

J'ai utilisé Wan 2.6 dans trois tests de résistance :

  1. Mini scène multi-plans (large → moyen → rapproché) avec éclairage et sujet cohérents
  2. Génération basée sur des références en utilisant un court clip « ambiance » (balancement de caméra + rythme)
  3. Dialogue + son (voix + ambiance) pour voir si l'audio et la performance restent alignés

J'ai également essayé des prompts « cinématographiques propres » et des prompts volontairement désordonnés (mouvement rapide, changement d'humeur, éclairage mixte) car c'est là que la plupart des modèles révèlent la vérité.

Ce qui semble nouveau dans Wan 2.6 (en termes simples)

1) Récit multi-plans qui ne ressemble pas à un collage

La grande différence est que Wan 2.6 est plus disposé à traiter votre prompt comme une séquence.

Au lieu qu'un seul angle fasse tout le travail, vous pouvez décrire une courte chaîne de plans et il garde souvent :

  • la même ambiance environnementale
  • les mêmes marqueurs d'identité du sujet
  • un sens cohérent de « c'est un moment qui se déroule »

Voici le type de structure auquel il a bien répondu dans mes tests :

  • Plan A (établissement) : Où sommes-nous ? Quelle est l'ambiance ?
  • Plan B (action) : Qu'est-ce qui change ? Qui bouge ?
  • Plan C (résultat) : La réaction / détail / révélation

Ce n'est pas une grammaire cinématographique parfaite, mais c'est beaucoup plus proche de « planifié » que de « assemblé ».

2) Entrée de référence qui compte vraiment

Les prompts textuels sont bien jusqu'à ce que vous vouliez un rythme très spécifique : balancement à main levée, zoom lent, le tempo « vlog de week-end paresseux » ou ce rythme serré de publicité.

Avec Wan 2.6, utiliser un court clip de référence n'est pas juste un gadget. En pratique, cela a aidé avec :

  • cadence du mouvement (à quelle vitesse la scène respire)
  • tendances de cadrage (à quelle distance il se place du sujet)
  • ressenti global (ton plus cohérent du début à la fin)

J'ai utilisé une référence simple : un court clip de promenade filmé sur un téléphone (rien de spécial). Je n'ai pas demandé à Wan 2.6 de reproduire la vidéo exacte—juste le rythme et l'attitude de la caméra.

Résultat : il n'a pas reproduit chaque micro-pas, mais l'énergie était nettement plus proche que les tentatives uniquement textuelles.

3) Sorties plus longues qui rendent les moments narratifs possibles

Ces secondes supplémentaires ne sont pas une démonstration ; elles sont pratiques.

Si vous avez déjà essayé de montrer établissement → changement → réaction dans un clip de 4 secondes, vous savez à quel point cela devient serré. Avec Wan 2.6, j'ai pu intégrer un véritable micro-arc :

  • établir le cadre
  • introduire l'action du sujet
  • capturer un petit tournant émotionnel

C'est la différence entre « échantillon de mouvement cool » et « un contenu que vous pouvez publier et qui semble complet ».

4) Le son fait enfin partie de la scène, pas une réflexion après coup

Le côté audio de Wan 2.6 (voix, ambiance, indices musicaux) n'est pas « de qualité studio », mais il est utile—surtout lorsque vous voulez :

  • un personnage parlant dans un court sketch
  • un son environnemental qui soutient l'ambiance
  • un timing qui semble intentionnel plutôt que aléatoire

La partie qui m'a surpris : la performance correspond parfois mieux à la livraison des lignes que je ne m'y attendais (pauses, emphases, petits mouvements faciaux). C'est le genre de détail qui rend un clip généré moins comme une démonstration.

Tableau rapide : Ce qui est fort vs. Ce qui nécessite encore de l'aide

Domaine Ce que j'ai vu en pratique Meilleure utilisation
Prompts multi-plans Suit souvent l'ordre des plans et garde la scène « ensemble » mini bandes-annonces, moments d'histoire, scènes sociales
Contrôle basé sur les références Bon pour préserver le rythme + l'attitude de la caméra cohérence de la marque, remakes stylisés
Cohérence des personnages Mieux que beaucoup de modèles, surtout avec des marqueurs clairs personnages récurrents, mascottes, courts épisodes
Audio + dialogue « Suffisamment bon pour être publié » pour de nombreux formats sociaux sketches, vidéos explicatives, clips narratifs
Action rapide Peut dériver avec les membres/objets en mouvement rapide éviter ou garder l'action lisible
Texte à l'écran Toujours risqué pour l'orthographe/typographie exacte utiliser l'édition post-production pour le texte critique

Les prompts qui ont le mieux fonctionné pour moi

A) La « formule simple du réalisateur »

Quand je gardais le prompt structuré, Wan 2.6 se comportait de manière plus prévisible.

Format

  • Sujet
  • Action
  • Cadre
  • Objectif / caméra
  • Ambiance / éclairage
  • (Optionnel) Son

Exemple de prompt

Un jeune chef dressant des nouilles dans une cuisine chaleureuse. La vapeur monte fortement et embue brièvement les lunettes. La caméra commence en plan moyen, avance lentement. Éclairage tungstène doux, ambiance cosy, légère brume en arrière-plan. Ambiance naturelle de cuisine et fond musical subtil.

Ce type de prompt donne au modèle une « colonne vertébrale ». Même si les détails changent, le clip reste lisible.

B) Prompt multi-plans (comme je l'écrirais réellement)

J'ai évité les termes trop techniques de cinématographie. À la place, j'ai écrit comme une liste rapide de plans.

Exemple

  • [0–4s] Plan large : rue pluvieuse devant une petite épicerie, reflets de néon sur le sol mouillé
  • [4–9s] Plan moyen : le personnage principal sort, ajuste son capuchon, regarde la rue
  • [9–15s] Gros plan : gouttes de pluie sur ses cils, un bref sourire alors qu'un taxi arrive hors champ

Le modèle n'a pas « obéi » à chaque mot, mais il a gardé la logique émotionnelle et l'identité de la scène de manière surprenante.

C) Prompt basé sur une référence (ce que j'ai appris)

En utilisant un clip de référence, j'ai obtenu les meilleurs résultats en étant explicite sur ce qu'il faut préserver.

Exemple

Utilisez la référence pour le mouvement de la caméra et le rythme. Recréez la scène comme un marché nocturne futuriste avec une lumière de lanterne chaude et une légère brume. Gardez le même ressenti de mouvement vers l'avant. Un voyageur solitaire traverse le cadre, calme et observateur.

Si vous ne nommez pas ce qu'il faut préserver, vous obtiendrez souvent « inspiré par » au lieu de « guidé par ».

Mon flux de travail pratique (comment j'utiliserais Wan 2.6 sans perdre la tête)

Voici la boucle pratique qui a le mieux fonctionné :

  1. Écrire la scène en une phrase
    • « Que se passe-t-il, en termes humains ? »
  2. Diviser en 2–3 plans
    • large → moyen → rapproché suffit
  3. Verrouiller les marqueurs d'identité
    • couleur des cheveux, éléments d'ancrage de la tenue, un accessoire unique
  4. Générer deux variations
    • une « propre », une avec un langage d'ambiance légèrement plus fort
  5. Choisir la meilleure base
    • ne pas trop itérer ; c'est un piège
  6. Ajouter ensuite dialogue/audio
    • traiter le son comme une deuxième passe, pas la première étape

Ce que je n'ai pas aimé (parce que rien n'est magique)

Quelques frictions honnêtes :

  • Le mouvement rapide peut toujours devenir étrange.
    Si votre scène repose sur des interactions physiques complexes (mains + accessoires + vitesse), gardez-la plus lente ou simplifiez l'action.

  • Les prompts surchargés échouent.
    Le modèle fonctionne mieux lorsque l'histoire est claire et les visuels contrôlés. Si vous empilez cinq styles et trois moments émotionnels, il peut les « moyenner » en un mélange.

  • Le texte à l'écran n'est pas quelque chose en quoi j'aurais confiance.
    Pour un cadre de style affiche avec une orthographe parfaite ? Je le ferais encore ailleurs ou corrigerais en post-production.

Aucun de ces points n'est rédhibitoire. Ils changent juste la façon dont vous planifiez.

Pour qui Wan 2.6 est réellement conçu

Je pense que Wan 2.6 a le plus de sens si vous :

  • créez des clips narratifs courts (sketches, micro-dramas, moments d'histoire)
  • essayez de maintenir un personnage récurrent cohérent entre les publications
  • produisez du contenu de marque où la « cohérence d'ambiance » compte plus qu'un spectacle unique
  • faites du prévisualisation/storyboarding et voulez quelque chose de regardable, rapidement

Si vous avez seulement besoin d'une impressionnante explosion de 3 secondes, vous pourriez même ne pas remarquer la différence.
Wan 2.6 brille lorsque le résultat doit ressembler à un moment complet.

Conclusion

Wan 2.6 ne ressemblait pas à un tour de magie. Il ressemblait à un outil qui respecte enfin comment les gens planifient réellement des vidéos :

  • des scènes, pas des clips isolés
  • de la continuité, pas des cadres chanceux
  • du rythme, pas seulement une texture jolie

Ce n'est toujours pas un substitut à une vraie équipe, et cela ne sauvera pas une idée faible.
Mais si vous pouvez écrire une scène simple, Wan 2.6 se rapproche étonnamment de la traduction en quelque chose qui ressemble à une narration intentionnelle.

Et c'est la première fois que je dis cela à propos d'un modèle vidéo basé sur le web sans rire un peu.