
Kling 3.0 Turbo
Kling AITexto a video e imagen a video con audio nativo sincronizado, en 720p o 1080p durante 3 a 15 segundos, con control de relacion de aspecto y prompt.
Explora el catálogo completo de modelos en texto, imagen, audio, vídeo, 3D y más.
Catálogo de modelos
Navega por texto, imagen, vídeo, audio, 3D, búsqueda y endpoints de agentes con precios pay-as-you-go. El catálogo interactivo carga la disponibilidad actual de EmpirioLabs, y estos documentos modelo son rastreables sin JavaScript cliente.
xAI image-to-video con movimiento guiado por prompt, audio nativo, salida 480p o 720p y clips de hasta 15 segundos.
Generación de vídeo multimodal para clips cinematográficos a partir de entradas, texto, imagen, audio o vídeo.
Generación y edición unificada de imágenes para imágenes creativas, de marca y de producto en alta resolución.
Modelo de lenguaje visual rentable para texto, imagen, vídeo, programación, herramientas y flujos de trabajo contextuales de 1M.
Modelo insignia de contexto largo para programación, productividad, agentes de larga duración, pensamiento profundo y uso de herramientas.
Razonamiento multimodal para codificación, agentes, análisis de contexto largo y entrada de texto, imagen y vídeo.
Razonamiento multimodal Moonshot con fuerte soporte de codificación, contexto 256K y entrada de imagen y vídeo.
Razonamiento de contexto largo con llamada a herramientas, salida estructurada, soporte de caché y salida de 128K.
Generación de imagen a 3D que convierte una imagen de referencia en un recurso GLB texturizado.

Kling AITexto a video e imagen a video con audio nativo sincronizado, en 720p o 1080p durante 3 a 15 segundos, con control de relacion de aspecto y prompt.

Z.aiModelo de razonamiento y codigo con contexto de 1M de tokens, salida de 128K, esfuerzo de razonamiento ajustable, busqueda web nativa y llamadas a herramientas.

Moonshot AIKimi K2.7 Code es el modelo de codigo agentico de un billon de parametros de Moonshot, con contexto de 256K, razonamiento siempre activo y entradas de texto, imagen y video.

Alibaba CloudModelo de lenguaje de visión rentable Qwen3.7 para texto, imagen, vídeo, codificación, uso de herramientas, comprensión GUI y flujos de trabajo contexto 1M.

Moonshot AIKimi K2.7 Code Highspeed es el nivel más rápido del modelo de codificación de Moonshot, con contexto 256K, siempre en el razonamiento, y la entrada de imagen y vídeo.

MiniMaxMiniMax M3 es un modelo de razonamiento multimodal para codificación, agentes y análisis de largo contenido con texto, imagen y entrada de vídeo.

Z.aiModelo de razonamiento y codigo con contexto de 1M de tokens, salida de 128K, esfuerzo de razonamiento ajustable, busqueda web nativa y llamadas a herramientas.

Moonshot AIKimi K2.7 Code es el modelo de codigo agentico de un billon de parametros de Moonshot, con contexto de 256K, razonamiento siempre activo y entradas de texto, imagen y video.

Alibaba CloudModelo de lenguaje de visión rentable Qwen3.7 para texto, imagen, vídeo, codificación, uso de herramientas, comprensión GUI y flujos de trabajo contexto 1M.

Moonshot AIKimi K2.7 Code Highspeed es el nivel más rápido del modelo de codificación de Moonshot, con contexto 256K, siempre en el razonamiento, y la entrada de imagen y vídeo.

MiniMaxMiniMax M3 es un modelo de razonamiento multimodal para codificación, agentes y análisis de largo contenido con texto, imagen y entrada de vídeo.

Alibaba CloudQwen3.7 Max es un modelo de texto insignia para codificación, productividad, agentes de larga duración, pensamiento profundo, herramientas y contexto de 1M.

Black Forest LabsApache-licensed 4B FLUX.2 Klein generación de imágenes y modelo de edición con text-to-image, edición de imagen de referencia, y soporte de flujo de trabajo creativo.

AmazonGeneración de imágenes y modelo de edición creando y modificando imágenes de entrada de texto o imagen, con controles de impresión, virtuales y estilo.

TencentOpen-source text-to-image modelo en una arquitectura multimodal Mixture-of-Experts con detalles fotorrealistas y una fuerte reproducción de texto multilingüe.

DeepSeekMarco autoregresivo sobre el modelo Janus Pro 7B que unifica la comprensión multimodal y la generación de imagen en una arquitectura.

Alibaba CloudModelo de generación y edición de imágenes unificadas con complejo líder en clase Chinese/English renderización de texto, texturas realistas y fusión multiimagen.

ByteDanceUnified multimodal image model that reasons through prompts before rendering, producing high- resolution and consistent edits and brand visuals.

Kling AITexto a video e imagen a video con audio nativo sincronizado, en 720p o 1080p durante 3 a 15 segundos, con control de relacion de aspecto y prompt.

AmazonModelo de generación de vídeo que produce hasta 2 minutos vídeos multi-shot de texto y impulsos de imagen opcionales con mejor calidad y consistencia.

Alibaba CloudModelo de vídeo que ofrece modos Text-to-Video, Image-to-Video, Reference-to-Video y Video Editar con alta fidelidad, salida motriz.

Tencent8.3B-parametro modelo de vídeo con salida nativa 720p (superable a 1080p), fuerte coherencia de movimiento y comprensión bilingüe rápida hasta 10s.

Kling AIModelo de vídeo en modos Standard o Pro con transiciones de texto a vídeo, imagen a vídeo, referencia a vídeo, edición, sonido nativo y multiescena.

Kling AIModelo Kling 3.0 que transfiere el movimiento de un video de referencia a un personaje de una imagen de referencia, con los niveles Standard 720p y Pro 1080p.

ACE-StepModelo de generación de música de código abierto para text-to-song y audio guiado por letras, con rápida inferencia XL Turbo de 8 pasos para la iteración de canciones controlable.

InworldSub-130ms TTFB síntesis de voz con 271+ voces a través de 15 idiomas, prosodio expresivo y streaming SSE en tiempo real para agentes de voz de baja latencia.

InworldSintetización de voz de calidad de radio con rica prosodia expresiva, 271+ voces a través de 15 idiomas, y streaming SSE en tiempo real con temporizadores por palabra.

GoogleLow-latency text-to-speech con voces individuales y multihablantes y estilo controlable, acento y tono expresivo para aplicaciones de producción.

GoogleAvance TTS de alta calidad para podcasts, audiolibros y soporte al cliente, con voces expresivas multihablantes en 23 idiomas.

GoogleTTS altamente controlables con nuevas etiquetas de audio para estilo preciso, tono, ritmo y entrega a través de narración, asistentes y aplicaciones de voz.

DeepgramTrascripción de discurso a texto utilizando el modelo Nova-3 con soporte multilingüe y ajustes personalizables avanzados para la carga de trabajo de producción.

OpenAIWhisper-1 speech-to-text transcripción entrenada en audio supervisado multilingüe, con un límite de carga de 25 MB por archivo.

OpenAIControlada transcripción de Whisper Large v3 Turbo con ASR multilingüe, traducción, VAD, timetamps, subtítulos, palabras calientes y controles de decodificador expuestos.

ExaRespuesta rápida de estilo LLM a una pregunta de lenguaje natural, basada en resultados de búsqueda web de Exa frescos con citas en línea y enlaces fuente.

ExaAsincrónica tarea de investigación que explora la web, reúne fuentes, sintetiza hallazgos, y devuelve respuestas citadas para consultas profundas.

ExaWeb Search Engine for finding pages, retrieving similar pages, gateing, and dedicated code search across the open web for AI agents.

LinkupIterative AI search that keep querying when initial results are insufficient, returning more comprehensive responses than Standard mode.

LinkupBúsqueda web impulsada por AI con descripciones detalladas y respuestas, más rápido que búsqueda profunda. Ranks #1 en punto de referencia OpenAI SimpleQA.

PerplexityInvestigación de grado institucional impulsada por el razonamiento Claude Opus 4.6, con máxima profundidad, mayor acceso a herramientas y amplia cobertura de fuente.

MicrosoftTRELLIS.2 modelo de imagen a 3D que convierte una imagen de referencia en un activo GLB texturado con resolución, semilla, malla, textura y controles de exportación.

Alibaba CloudTexto multilingüe incrustando con dimensiones de salida seleccionables (64–2048). Hasta 8.192 fichas por entrada.

Alibaba CloudIncrustación multimodal optimizada a la velocidad - la misma forma que Vision-Plus, 3× más barato image/video tokens.

Alibaba CloudMultimodal embedding produciendo vectores independientes para textos, imágenes y entradas de vídeo.

Alibaba CloudReranker de documentos semánticos. Ordenar hasta 500 candidatos por consulta por relevancia, admite más de 100 idiomas y acepta una instrucción de clasificación personalizada.

GPTZeroDetector de aprendizaje profundo que marca porciones de texto generadas por AI contra humanos, clasificando contenido como totalmente humano, AI o mixto.

ManusAgente autónomo de IA que convierte un impulso de alto nivel en subtascos, llama herramientas y APIs, y ofrece resultados end-to-end sin orquestación manual.
Explora nuestros modelos o contáctanos para consultas empresariales, despliegues personalizados o cualquier otra cosa.