goenhance logo

Generatore di video AI HappyHorse 1.1

HappyHorse 1.1 è il modello video AI multimodale aggiornato di Alibaba per clip da 3-15 secondi, con movimenti più fluidi, maggiore coerenza del soggetto, migliore aderenza ai prompt, texture visiva più naturale e generazione audio-video nativa.

Caratteristiche principali di HappyHorse 1.1

Movimento più forte e coerenza temporale

HappyHorse 1.1 migliora la modellazione del movimento e la coerenza tra i fotogrammi, specialmente per combattimenti, danza, corsa, rotazioni, movimento di veicoli e riprese con telecamera a seguito. Rispetto alla versione 1.0, riduce l'effetto rallentatore, le immagini fantasma e le interruzioni nelle sequenze d'azione.
Esempio di promptClip generata
Un feroce drago rosso (elementale) emerge dal mare, volando verso il cielo e girando rapidamente sopra la nave, sollevando onde enormi. La telecamera dinamica segue il drago mentre taglia la tempesta, rotolando tra imponenti cavalloni e scomparendo in lontananza.

R2V multi-riferimento più stabile

Il flusso di lavoro video multi-riferimento aggiornato supporta fino a 9 immagini di riferimento. Questo aiuta a preservare il volto di una persona, l'abbigliamento, i dettagli del prodotto, gli elementi del brand e l'ambiente attraverso brevi clip, rendendolo utile per annunci e-commerce, video in stile livestream, demo di prodotti e contenuti basati sui personaggi.

Migliore gestione dei prompt lunghi e pianificazione delle scene

HappyHorse 1.1 migliora la comprensione del contesto lungo, le relazioni tra i ruoli, la pianificazione delle scene e l'interpretazione del linguaggio cinematografico. È più efficace nel seguire prompt che descrivono chi sta parlando, dove si trovano i personaggi, come cambiano le emozioni e come la telecamera stacca tra le inquadrature.
Esempio di promptClip generata
Un vivace mercato futuristico su un altro pianeta, dove mercanti alieni vendono frutti luminosi, robot vagano ovunque, pubblicità olografiche fluttuanti riempiono l'aria e luci colorate sono visibili tutt'intorno, catturato in uno stile cinematografico a mano libera.

Texture visiva più naturale

Il modello è stato ottimizzato per una texture della pelle, dettagli del volto, resa dei capelli, illuminazione, ombre e stabilità locale più realistici. Riduce l'aspetto oleoso o eccessivamente elaborato visto in alcuni output della versione 1.0, mantenendo al contempo ritratti e visual di cortometraggi più naturali.

Generazione audio-video nativa

HappyHorse genera audio e video insieme invece di aggiungere semplicemente il suono in un secondo momento. La versione 1.1 migliora il ritmo del parlato, le pause, il tono emotivo, la musica di sottofondo, il suono ambientale e la sincronizzazione audio-visiva, sebbene le scene di esecuzioni strumentali possano ancora richiedere una revisione manuale.

Parametri di HappyHorse 1.1

ParametroValoreNote
Data di rilascio22 giugno 2026Rilasciato ufficialmente come modello di generazione video HappyHorse aggiornato di Alibaba.
Dimensioni del modello15 miliardi di parametriUn modello di generazione video multimodale da 15 miliardi di parametri.
ArchitetturaTransfusion multimodale unificata / Transformer a flusso singoloI token di testo, immagine, video e audio vengono elaborati in un unico modello anziché in moduli separati.
Profondità del Transformer40 livelliSegnalato come un'architettura Transformer unificata a 40 livelli.
Modalità di generazioneDa testo a video, da immagine a video, da riferimento a video, editing videoCopre prompt scritti, animazione di immagini fisse, creazione di video con riferimenti multipli e scenari di editing video.
Durata3–15 secondiI clip generati singolarmente supportano lunghezze video in formato breve.
Risoluzione720p / 1080pSono supportate sia la generazione HD che quella Full HD.
Frequenza fotogrammi24 fpsAdatto per clip cinematografiche in formato breve.
ProporzioniPersonalizzate / flessibiliSupporta rapporti di output flessibili per formati orizzontali, verticali, quadrati e altri formati creativi.
Immagini di riferimentoFino a 9 immaginiUtile per bloccare personaggi, prodotti, abiti, scene ed elementi del brand.
AudioSupportatoProduce video con audio, inclusi dialoghi, ambiente, musica ed effetti sonori.
DenoisingDistillazione DMD-2, 8 passaggi di denoisingRiduce i passaggi di generazione e migliora l'efficienza.
CFGRimossoLa guida priva di classificatore (Classifier-free guidance) è stata rimossa per migliorare l'efficienza.
Velocità di inferenzaCirca 38s per una clip 1080p da 5s su una NVIDIA H100Benchmark riportato per la generazione di brevi video 1080p.
Prezzo 720pPrezzo di listino 0,9 RMB/sec; prezzo promozionale a partire da 0,54 RMB/secIl prezzo promozionale dipende dalla piattaforma e dalla campagna.
Prezzo 1080pPrezzo di listino 1,2 RMB/sec; prezzo promozionale a partire da 0,72 RMB/secIl prezzo di listino 1080p è inferiore del 25% rispetto a 1,6 RMB/sec di HappyHorse 1.0.

Casi d'uso di HappyHorse 1.1

Video di prodotto e live-selling per l'e-commerce

Utilizza più immagini di riferimento per combinare un portavoce, un prodotto, un outfit e una stanza in stile livestream in una breve clip pubblicitaria. Questo è utile quando il colore del prodotto, il packaging, la tonalità del rossetto, l'abbigliamento o i dettagli del brand devono rimanere coerenti invece di apparire solo approssimativamente corretti.

Cortometraggi, storie di brand e concept di CG per giochi

HappyHorse 1.1 è più adatto per dialoghi emotivi, scene in interni con più inquadrature, sequenze d'azione, teaser cinematografici di brand e concept di CG stilizzati, poiché migliora la continuità del movimento, la pianificazione di prompt lunghi, la comprensione del linguaggio cinematografico e la texture naturale del volto.

HappyHorse 1.1 su X

Domande frequenti su HappyHorse 1.1

Cos'è HappyHorse 1.1?

HappyHorse 1.1 è il modello di generazione video AI aggiornato di Alibaba per clip brevi. Si concentra su un movimento più fluido, una maggiore coerenza del soggetto, un migliore rispetto dei prompt, una qualità dell'immagine più naturale e una sincronizzazione audio-video migliorata.

Quali modalità di generazione supporta HappyHorse 1.1?

Supporta flussi di lavoro text-to-video, image-to-video, multi-reference reference-to-video e di editing video per la creazione di brevi video AI.

Quanto possono essere lunghi i video di HappyHorse 1.1?

Le singole clip generate supportano da 3 a 15 secondi, ideali per brevi pubblicità, video social, clip di personaggi, demo di prodotti e riprese di cortometraggi.

Quali risoluzioni sono supportate?

HappyHorse 1.1 supporta la generazione a 720p e 1080p, con proporzioni flessibili per diversi formati di contenuto.

Quante immagini di riferimento può utilizzare HappyHorse 1.1?

Il flusso di lavoro multi-riferimento supporta fino a 9 immagini di riferimento, aiutando il modello a preservare volti dei personaggi, abbigliamento, prodotti, scene ed elementi del brand.

In che modo HappyHorse 1.1 è diverso da HappyHorse 1.0?

La versione 1.1 mantiene la stessa direzione tecnica generale ma migliora la continuità del movimento, il blocco del soggetto multi-riferimento, la comprensione di prompt complessi, la texture visiva e l'espressione audio. Abbassa inoltre il prezzo di listino 1080p rispetto alla versione 1.0.

HappyHorse 1.1 genera audio?

Sì. HappyHorse 1.1 può generare parlato, atmosfera, musica ed effetti sonori insieme al video.

Quali sono le limitazioni principali?

Può ancora avere difficoltà con la fisica complessa, volti affollati sullo sfondo, scene con più soggetti in casi limite e la sincronizzazione audio delle performance strumentali. Per l'uso commerciale, gli output dovrebbero essere sempre revisionati prima della pubblicazione.

Pronto a testare HappyHorse 1.1?

Usa HappyHorse 1.1 per esplorare brevi video AI con azioni più fluide, soggetti di riferimento più stabili, un migliore rispetto dei prompt e audio nativo. È particolarmente utile per brevi drammi, annunci e-commerce, concept di brand e idee video in stile gioco.

Prova HappyHorse 1.1