goenhance logo

Generador de vídeo por IA HappyHorse 1.1

HappyHorse 1.1 es el modelo de vídeo por IA multimodal mejorado de Alibaba para clips de 3 a 15 segundos, con un movimiento más fluido, mayor consistencia de los sujetos, mejor seguimiento de las instrucciones (prompts), una textura visual más natural y generación nativa de audio y vídeo.

Características clave de HappyHorse 1.1

Movimiento más fuerte y consistencia temporal

HappyHorse 1.1 mejora el modelado de movimiento y la consistencia entre fotogramas, especialmente en escenas de lucha, baile, carrera, giros, movimiento de vehículos y tomas de seguimiento de cámara. En comparación con la versión 1.0, reduce la sensación de cámara lenta, el efecto fantasma y los cortes de acción inconexos.
Ejemplo de promptClip generado
Un feroz dragón rojo (elemental) emerge del mar, se eleva hacia el cielo y gira rápidamente sobre el barco, levantando enormes olas. La cámara dinámica sigue al dragón mientras atraviesa la tormenta, rodando sobre olas imponentes y desapareciendo en la distancia.

R2V con múltiples referencias más estable

El flujo de trabajo de vídeo con múltiples referencias mejorado admite hasta 9 imágenes de referencia. Esto ayuda a preservar el rostro de una persona, la ropa, los detalles del producto, los elementos de marca y el entorno a lo largo de clips cortos, lo que resulta útil para anuncios de comercio electrónico, vídeos estilo livestream, demostraciones de productos y contenido basado en personajes.

Mejor planificación de escenas y prompts largos

HappyHorse 1.1 mejora la comprensión de contextos largos, las relaciones entre roles, la planificación de escenas y la interpretación del lenguaje cinematográfico. Es mejor siguiendo instrucciones que describen quién habla, dónde están los personajes, cómo cambian las emociones y cómo la cámara corta entre tomas.
Ejemplo de promptClip generado
Un bullicioso mercado futurista en otro planeta, donde comerciantes alienígenas venden frutas brillantes, robots deambulan por todas partes, anuncios holográficos flotantes llenan el aire y luces coloridas son visibles por todas partes, capturado con un estilo de cámara cinematográfica en mano.

Textura visual más natural

El modelo ha sido ajustado para lograr una textura de piel, detalles faciales, renderizado de cabello, iluminación, sombras y estabilidad local más realistas. Reduce el aspecto aceitoso o sobreprocesado visto en algunas salidas de la versión 1.0, manteniendo al mismo tiempo los retratos y las imágenes de dramas cortos más naturales.

Generación nativa de audio y vídeo

HappyHorse genera audio y vídeo juntos en lugar de simplemente añadir sonido después. La versión 1.1 mejora el ritmo del habla, las pausas, el tono emocional, la música de fondo, el sonido ambiental y la sincronización audiovisual, aunque las escenas de interpretación de instrumentos aún pueden requerir una revisión manual.

Parámetros de HappyHorse 1.1

ParámetroValorNotas
Fecha de lanzamiento22 de junio de 2026Lanzado oficialmente como el modelo de generación de video HappyHorse mejorado de Alibaba.
Tamaño del modelo15 mil millones de parámetrosUn modelo multimodal de generación de video de 15 mil millones de parámetros.
ArquitecturaTransfusion multimodal unificada / Transformer de flujo únicoLos tokens de texto, imagen, video y audio se procesan en un solo modelo en lugar de módulos separados y unidos.
Profundidad del Transformer40 capasReportado como una arquitectura Transformer unificada de 40 capas.
Modos de generaciónTexto a video, imagen a video, referencia a video, edición de videoCubre escenarios de prompts escritos, animación de imágenes fijas, creación de video con múltiples referencias y edición de video.
Duración3–15 segundosLos clips generados individualmente admiten duraciones de video de formato corto.
Resolución720p / 1080pSe admite la generación tanto en HD como en Full HD.
Velocidad de fotogramas24 fpsAdecuado para clips cinematográficos de formato corto.
Relación de aspectoPersonalizada / flexibleAdmite relaciones de salida flexibles para formatos horizontales, verticales, cuadrados y otros formatos creativos.
Imágenes de referenciaHasta 9 imágenesÚtil para fijar personajes, productos, atuendos, escenas y elementos de marca.
AudioCompatibleProduce video con audio, incluyendo diálogos, ambiente, música y efectos de sonido.
Eliminación de ruidoDestilación DMD-2, 8 pasos de eliminación de ruidoReduce los pasos de generación y mejora la eficiencia.
CFGEliminadoLa guía libre de clasificador (Classifier-free guidance) se elimina para mejorar la eficiencia.
Velocidad de inferenciaAproximadamente 38 s para un clip de 5 s a 1080p en una NVIDIA H100Benchmark reportado para generación corta a 1080p.
Precio de 720pPrecio de lista de 0,9 RMB/seg; desde 0,54 RMB/seg en promociónEl precio promocional depende de la plataforma y la campaña.
Precio de 1080pPrecio de lista de 1,2 RMB/seg; desde 0,72 RMB/seg en promociónEl precio de lista de 1080p es un 25 % menor que los 1,6 RMB/seg de HappyHorse 1.0.

Casos de uso de HappyHorse 1.1

Vídeos de productos para comercio electrónico y venta en directo

Utilice varias imágenes de referencia para combinar un portavoz, un producto, un conjunto y una sala al estilo de una transmisión en directo en un solo clip publicitario corto. Esto es útil cuando el color del producto, el embalaje, el tono del pintalabios, la ropa o los detalles de la marca deben mantenerse consistentes en lugar de parecer solo aproximadamente correctos.

Cortometrajes, historias de marca y conceptos de CG para juegos

HappyHorse 1.1 es más adecuado para diálogos emocionales, escenas de interior con múltiples planos, secuencias de acción, avances cinematográficos de marca y conceptos de CG de juegos estilizados, ya que mejora la continuidad del movimiento, la planificación de prompts largos, la comprensión del lenguaje de cámara y la textura facial natural.

HappyHorse 1.1 en X

Preguntas frecuentes sobre HappyHorse 1.1

¿Qué es HappyHorse 1.1?

HappyHorse 1.1 es el modelo de generación de vídeo por IA mejorado de Alibaba para clips cortos. Se centra en un movimiento más fluido, una mayor consistencia del sujeto, un mejor seguimiento de los prompts, una calidad de imagen más natural y una sincronización audio-vídeo mejorada.

¿Qué modos de generación admite HappyHorse 1.1?

Admite flujos de trabajo de texto a vídeo, imagen a vídeo, referencia múltiple a vídeo y edición de vídeo para la creación de vídeos cortos con IA.

¿Qué duración pueden tener los vídeos de HappyHorse 1.1?

Los clips generados individualmente admiten de 3 a 15 segundos, lo que se adapta a anuncios cortos, vídeos sociales, clips de personajes, demostraciones de productos y tomas de cortometrajes.

¿Qué resoluciones son compatibles?

HappyHorse 1.1 admite la generación a 720p y 1080p, con relaciones de aspecto flexibles para diferentes formatos de contenido.

¿Cuántas imágenes de referencia puede utilizar HappyHorse 1.1?

El flujo de trabajo de referencia múltiple admite hasta 9 imágenes de referencia, lo que ayuda al modelo a preservar los rostros de los personajes, la ropa, los productos, las escenas y los elementos de la marca.

¿En qué se diferencia HappyHorse 1.1 de HappyHorse 1.0?

La versión 1.1 mantiene la misma dirección técnica general, pero mejora la continuidad del movimiento, el bloqueo de sujetos con múltiples referencias, la comprensión de prompts complejos, la textura visual y la expresión de audio. También reduce el precio de lista de 1080p en comparación con la versión 1.0.

¿HappyHorse 1.1 genera audio?

Sí. HappyHorse 1.1 puede generar voz, ambiente, música y efectos de sonido junto con el vídeo.

¿Cuáles son las principales limitaciones?

Todavía puede tener dificultades con físicas complejas, rostros de fondo muy concurridos, escenas con múltiples sujetos en casos extremos y la sincronización de audio en interpretaciones musicales. Para uso comercial, los resultados deben revisarse antes de su publicación.

¿Listo para probar HappyHorse 1.1?

Usa HappyHorse 1.1 para explorar vídeos cortos con IA con acciones más fluidas, sujetos de referencia más estables, un seguimiento de instrucciones más preciso y audio nativo. Es especialmente útil para dramas cortos, anuncios de comercio electrónico, conceptos de marca e ideas de vídeo al estilo de los videojuegos.

Prueba HappyHorse 1.1