goenhance logo

Ich habe Wan 2.6 getestet: Zum ersten Mal hatte ich das Gefühl, eine Szene zu planen (statt auf einen Clip zu wetten)

Cover Image for Ich habe Wan 2.6 getestet: Zum ersten Mal hatte ich das Gefühl, eine Szene zu planen (statt auf einen Clip zu wetten)
Hannah

Als Wan 2.6 erschien, nahm ich an, es wäre ein weiteres „sieht in Screenshots toll aus"-Modell, das sofort zusammenbricht, sobald man etwas leicht Ambitioniertes ausprobiert.

Dann habe ich ein paar echte Eingaben ausprobiert – Sachen, die ich tatsächlich für einen kurzen Story-Beat, einen Produkt-Teaser oder eine Mini-Szene hätte wollen – und erwischte mich dabei, etwas zu tun, was ich selten beim KI-Video-Generator mache:

Ich fing an, in Einstellungen zu denken.

Nicht „erzeuge drei separate Clips und hoffe, dass sie zusammenpassen". Nicht „ein auffälliger Moment und fertig".
Mehr so: setzen → näher heran → Emotion zeigen → Beat abschließen.

Darauf werde ich mich hier konzentrieren: wie sich Wan 2.6 in der praktischen Nutzung anfühlt, was es zuverlässig kann, wo es noch stolpert und wie ich tatsächlich damit arbeiten würde, wenn ich wöchentlich Inhalte liefern müsste.

Was ich getestet habe (damit du weißt, dass ich nicht selektiv aussuche)

Ich habe Wan 2.6 mit drei Belastungstests geprüft:

  1. Multi-Shot Mini-Szene (weit → mittel → nah) mit konsistenter Beleuchtung und Motiv
  2. Referenzbasierte Generierung mit einem kurzen „Vibe"-Clip (Kamerabewegung + Rhythmus)
  3. Dialog + Ton (Stimme + Ambiente), um zu prüfen, ob Audio und Performance synchron bleiben

Ich habe sowohl „saubere, filmische" Eingaben als auch bewusst chaotische (schnelle Bewegungen, wechselnde Stimmungen, gemischte Beleuchtung) ausprobiert, weil dort die meisten Modelle ihre Schwächen zeigen.

Was sich in Wan 2.6 neu anfühlt (in einfachem Deutsch)

1) Multi-Shot Storytelling, das sich nicht wie eine Collage anfühlt

Der große Unterschied ist, dass Wan 2.6 eher bereit ist, dein Prompt wie eine Abfolge zu behandeln.

Statt ein Blickwinkel macht alles, kannst du eine kurze Reihe von Einstellungen beschreiben, die oft:

  • die gleiche Stimmung der Umgebung
  • die gleichen Identitätsmerkmale des Motivs
  • ein stimmiges Gefühl von „das ist ein einzelner Moment, der sich entfaltet"

beibehält.

Hier ist die Art von Struktur, auf die es in meinen Tests gut reagiert hat:

  • Einstellung A (Einleitung): Wo sind wir? Wie ist die Stimmung?
  • Einstellung B (Aktion): Was ändert sich? Wer bewegt sich?
  • Einstellung C (Auflösung): Die Reaktion / Detail / Enthüllung

Es ist keine perfekte filmische Grammatik, aber viel näher an „geplant" als „zusammengestückelt".

2) Referenzeingabe, die tatsächlich zählt

Textinputs sind in Ordnung, bis du einen sehr spezifischen Rhythmus willst: handgeführtes Wackeln, langsames Heranfahren, den „faulen Wochenend-Vlog"-Takt oder eng getaktetes Werbe-Tempo.

Mit Wan 2.6 ist die Nutzung eines kurzen Referenzclips kein Gimmick. Praktisch half es bei:

  • Bewegungsrhythmus (wie schnell die Szene atmet)
  • Bildgestaltungstendenzen (wie nah der Bildausschnitt am Motiv ist)
  • Gesamteindruck (beständigerer „Ton" von Anfang bis Ende)

Ich nutzte eine einfache Referenz: ein kurzer Walk-through-Clip, mit dem Handy aufgenommen (nichts Besonderes). Ich bat Wan 2.6 nicht, das exakte Video zu replizieren – nur das Timing und die Kamerahaltung.

Ergebnis: Es traf nicht jeden einzelnen Schritt exakt, aber die Energie war deutlich näher als bei reinen Textversuchen.

3) Längere Ausgaben, die narrative Beats ermöglichen

Diese zusätzlichen Sekunden sind kein Showoff; sie sind praktisch.

Wenn du jemals versucht hast, in einem 4-Sekunden-Clip Einleitung → Änderung → Reaktion zu zeigen, weißt du, wie begrenzt der Raum ist. Mit Wan 2.6 konnte ich einen echten Mikro-Bogen unterbringen:

  • den Ort etablieren
  • die Aktion des Motivs vorstellen
  • eine kleine emotionale Wendung landen

Das ist der Unterschied zwischen „cooles Bewegungsbeispiel" und „ein Ding, das man posten kann und das komplett wirkt".

4) Ton ist endlich Teil der Szene, nicht nur Beiwerk

Wan 2.6s Audio-Seite (Stimme, Ambiente, Musikhinweise) ist nicht „Studioqualität", aber nützlich – besonders wenn du willst:

  • eine sprechende Figur in einer kurzen Szene
  • Umgebungsgeräusche, die die Stimmung unterstützen
  • Timing, das absichtlich wirkt und nicht zufällig

Was mich überrascht hat: Die Performance passt manchmal besser zum Text als erwartet (Pausen, Betonungen, kleine Mimik-Beats). Das sind Details, die einen generierten Clip weniger wie eine Demo wirken lassen.

Schneller Überblick: Stärken vs. Bereiche mit Unterstützungsbedarf

Bereich Praxisbeobachtung Bester Anwendungsfall
Multi-Shot Eingaben Folgt oft der Reihenfolge und hält die Szene zusammen Mini-Trailer, Story-Beats, soziale Szenen
Referenzgesteuerte Kontrolle Gutes Beibehalten von Rhythmus und Kamerahaltung Marken-Vibe-Konsistenz, stilisierte Neuauflagen
Figurenkonsistenz Besser als viele Modelle, besonders mit klaren Merkmalen wiederkehrende Figuren, Maskottchen, Episoden-Kurzclips
Audio + Dialog „Gut genug, um zu veröffentlichen" für viele Social-Formate Sketche, Erklärvideos, narrative Clips
Schnelle Action Kann bei schnellen Bewegungen von Gliedmaßen/Requisiten aus dem Ruder laufen vermeiden oder Aktion gut lesbar halten
Text im Bild Noch riskant bei exakter Rechtschreibung/Typografie für kritischen Text Nachbearbeitung empfehlen

Die besten Prompts für mich

A) Die „einfach-Formel des Regisseurs"

Mit strukturierten Eingaben verhielt sich Wan 2.6 vorhersagbarer.

Format

  • Motiv
  • Aktion
  • Umgebung
  • Objektiv / Kamera
  • Stimmung / Beleuchtung
  • (Optional) Ton

Beispiel-Prompt

Ein junger Koch richtet Nudeln in einer warmen Küche an. Dampf steigt stark auf und beschlägt kurz die Brille. Kamera beginnt mit einer mittleren Einstellung, fährt langsam näher heran. Weiches Tungstenlicht, gemütliches Ambiente, leichter Dunst im Hintergrund. Natürliches Küchen-Ambiente und subtiler Musikteppich.

Diese Art von Prompt gibt dem Modell eine „Rückgrat". Auch wenn Details variieren, bleibt der Clip gut lesbar.

B) Multi-Shot Prompt (wie ich ihn tatsächlich schreiben würde)

Ich vermied zu technische Filmbegriffe und schrieb eher wie eine schnelle Shot-Liste.

Beispiel

  • [0–4s] Weitwinkel: regnerische Straße vor einem kleinen Kiosk, Neon-Reflektionen auf nassem Boden
  • [4–9s] Mittlere Einstellung: Hauptcharakter tritt heraus, zieht die Kapuze hoch, blickt die Straße hinunter
  • [9–15s] Nahaufnahme: Regentropfen auf den Wimpern, ein kurzes Lächeln, als ein Taxi außerhalb des Bildes ankommt

Das Modell hat nicht jedes Wort eingehalten, aber die emotionale Logik und die Identität der Szene überraschend gut bewahrt.

C) Referenzbasierter Prompt (was ich gelernt habe)

Bei Nutzung eines Referenzclips bekam ich die besten Resultate, wenn ich ausdrücklich angab, was erhalten bleiben soll.

Beispiel

Nutze die Referenz für Kamerabewegung und Rhythmus. Erschaffe die Szene als futuristischen Nachtmarkt mit warmem Laternenlicht und sanftem Dunst. Beibehalten des gleichen Vorwärtsbewegungsgefühls. Ein einzelner Reisender geht ruhig und aufmerksam durchs Bild.

Wenn du nicht explizit benennst, was erhalten bleiben soll, bekommst du oft „inspiriert von" statt „geleitet von".

Mein praktischer Workflow (wie ich Wan 2.6 nutze, ohne durchzudrehen)

Hier der praktikable Ablauf, der am besten funktionierte:

  1. Schreibe die Szene als einen Satz
    • „Was passiert, in menschlichen Worten?"
  2. Teile sie in 2–3 Einstellungen
    • weit → mittel → nah reicht
  3. Schließe Identitätsmerkmale ein
    • Haarfarbe, Outfits, ein einzigartiges Requisit
  4. Erzeuge zwei Varianten
    • eine „sauber", eine mit etwas stärkerer Stimmungssprache
  5. Wähle die beste Basis
    • nicht zu viel optimieren; das ist eine Falle
  6. Erst dann füge Dialog/Audio hinzu
    • Ton als zweiten Durchgang, nicht als ersten Schritt behandeln

Was ich nicht mochte (weil nichts magisch ist)

Ein paar ehrliche Probleme:

  • Schnelle Bewegungen können noch seltsam wirken.
    Wenn deine Szene komplexe physische Interaktionen erfordert (Hände + Requisiten + Geschwindigkeit), halte sie langsamer oder vereinfache die Aktion.

  • Überladene Prompts schlagen zurück.
    Das Modell funktioniert besser, wenn die Story klar und die visuelle Kontrolle gegeben ist. Wenn du fünf Stile und drei emotionale Beats kombinierst, „vermittel" es sie oft zu einem Brei.

  • Text im Bild vertraue ich noch nicht.
    Für ein Posterbild mit perfekter Rechtschreibung? Ich würde das woanders machen oder in der Nachbearbeitung korrigieren.

Keines davon ist ein Dealbreaker. Sie ändern einfach, wie du planst.

Für wen Wan 2.6 eigentlich gedacht ist

Ich denke, Wan 2.6 macht am meisten Sinn, wenn du:

  • kurze narrative Clips erstellst (Sketche, Mikrodramen, Story-Momente)
  • eine wiederkehrende Figur über Beiträge hinweg konsistent halten willst
  • Marken-Content machst, bei dem „Vibe-Konsistenz" wichtiger als Einzelereignisse ist
  • Previs/Storyboardings machst und schnell etwas Anguckbares brauchst

Wenn du nur einen beeindruckenden 3-Sekunden-Clip brauchst, merkst du den Unterschied vielleicht gar nicht.
Wan 2.6 glänzt, wenn das Ergebnis wie ein vollständiger Beat wirken muss.

Mein abschließendes Fazit

Wan 2.6 fühlt sich nicht wie ein Partytrick an. Es ist ein Werkzeug, das endlich respektiert, wie Menschen wirklich Video planen:

  • Szenen, nicht isolierte Clips
  • Kontinuität, nicht Glückstreffer
  • Rhythmus, nicht nur hübsche Textur

Es ist noch kein Ersatz für ein echtes Team, und es rettet keine schwache Idee.
Aber wenn man eine einfache Szene schreiben kann, kommt Wan 2.6 überraschend nah dran, diese in etwas zu übersetzen, das wie absichtsvolle Erzählung wirkt.

Und das ist das erste Mal, dass ich das über ein web-basiertes Videomodell gesagt habe, ohne ein wenig zu lachen.