
Kling 3.0 Turbo
Kling AITexto-para-vídeo e image-to-video com áudio nativo sincronizado, em 720p ou 1080p por 3 a 15 segundos, com relação de aspecto e controle de prompt.
Navegue pelo catálogo completo de modelos em texto, imagem, áudio, vídeo, 3D e muito mais.
Catálogo de modelos
Navegue por texto, imagem, vídeo, áudio, 3D, busca e endpoints de agentes com preços pay-as-you-go. O catálogo interativo carrega a disponibilidade atual do EmpirioLabs, e esses documentos modelo são rastreáveis sem JavaScript do cliente.
xAI image-to-video com movimento guiado por prompt, áudio nativo, saída 480p ou 720p e clipes de até 15 segundos.
Geração de vídeo multimodal para clipes cinematográficos a partir de entradas, texto, imagem, áudio ou vídeo.
Geração e edição unificada de imagens para criatividade, visual de marca e produto em alta resolução.
Modelo de linguagem visual econômico para texto, imagem, vídeo, programação, ferramentas e fluxos de trabalho com contexto de 1M.
Modelo principal de longo contexto para programação, produtividade, agentes de longa duração, pensamento profundo e uso de ferramentas.
Raciocínio multimodal para codificação, agentes, análise de contexto longo e entrada de texto, imagem e vídeo.
Moonshot raciocínio multimodal com forte suporte à programação, contexto 256K e entrada de imagem e vídeo.
Raciocínio de longo contexto com chamada de ferramentas, saída estruturada, suporte a cache e saída de 128K.
Geração de imagem para 3D que transforma uma imagem de referência em um recurso GLB texturizado.

Kling AITexto-para-vídeo e image-to-video com áudio nativo sincronizado, em 720p ou 1080p por 3 a 15 segundos, com relação de aspecto e controle de prompt.

Z.aiRaciocínio e modelo de codificação com um contexto de token 1M, saída 128K, esforço de raciocínio ajustável, busca nativa web e chamada de ferramenta.

Moonshot AIKimi K2.7 O código é o modelo de codificação agentic trilião-parâmetro de Moonshot com 256K contexto, sempre em raciocínio, e texto, imagem, e entradas de vídeo.

Alibaba CloudModelo de linguagem de visão Qwen3.7 econômico para texto, imagem, vídeo, codificação, uso de ferramentas, compreensão de GUI e fluxos de trabalho de 1M-contexto.

Moonshot AIKimi K2.7 O Code Highspeed é o nível de serviço mais rápido do modelo de codificação agentic da Moonshot, com 256K de contexto, sempre em raciocínio e entrada de imagem e vídeo.

MiniMaxMiniMax M3 é um modelo de raciocínio multimodal para codificação, agentes e análise de contexto longo com texto, imagem e entrada de vídeo.

Z.aiRaciocínio e modelo de codificação com um contexto de token 1M, saída 128K, esforço de raciocínio ajustável, busca nativa web e chamada de ferramenta.

Moonshot AIKimi K2.7 O código é o modelo de codificação agentic trilião-parâmetro de Moonshot com 256K contexto, sempre em raciocínio, e texto, imagem, e entradas de vídeo.

Alibaba CloudModelo de linguagem de visão Qwen3.7 econômico para texto, imagem, vídeo, codificação, uso de ferramentas, compreensão de GUI e fluxos de trabalho de 1M-contexto.

Moonshot AIKimi K2.7 O Code Highspeed é o nível de serviço mais rápido do modelo de codificação agentic da Moonshot, com 256K de contexto, sempre em raciocínio e entrada de imagem e vídeo.

MiniMaxMiniMax M3 é um modelo de raciocínio multimodal para codificação, agentes e análise de contexto longo com texto, imagem e entrada de vídeo.

Alibaba CloudQwen3.7 Max é um modelo de texto emblemático para codificação, produtividade, agentes de longo prazo, pensamento profundo, ferramentas e contexto de 1M-token.

Black Forest LabsLicença Apache 4B FLUX.2 Modelo de geração e edição de imagens Klein com text-to-image, edição de imagem de referência e suporte ao fluxo de trabalho criativo.

AmazonModelo de geração e edição de imagens criando e modificando imagens a partir de entradas de texto ou imagem, com inpinting, virtual try-on, e controles de estilo.

TencentOpen-source text-to-image modelo em uma arquitetura multimodal Mixture-of-Experts com detalhes fotorealistas e forte renderização de texto multilingue.

DeepSeekFramework autorregressivo no modelo Janus Pro 7B que unifica compreensão multimodal e geração de imagem em uma arquitetura.

Alibaba CloudModelo unificado de geração e edição de imagens com complexo líder de classe Chinese/English renderização de texto, texturas realistas e fusão multi-imagem.

ByteDanceModelo de imagem multimodal unificado que raciocina através de prompts antes da renderização, produzindo edições de alta resolução e consistentes e visuais de marca.

Kling AITexto-para-vídeo e image-to-video com áudio nativo sincronizado, em 720p ou 1080p por 3 a 15 segundos, com relação de aspecto e controle de prompt.

AmazonModelo de geração de vídeo produzindo até 2 minutos de vídeos multi-shot de texto e avisos de imagem opcionais com melhor qualidade e consistência.

Alibaba CloudModelo de vídeo que oferece os modos Texto-para-Video, Imagem-para-Vídeo, Referência-para-Vídeo e Edição de Vídeo com alta fidelidade, movimento-saída.

TencentModelo de vídeo de 8,3B-parâmetros com saída nativa de 720p (upcalable a 1080p), forte coerência de movimento, e entendimento rápido bilíngue até 10s.

Kling AIModelo de vídeo em modos Standard ou Pro com transições de Texto para Vídeo, Imagem para Vídeo, Referência para Vídeo, edição, som nativo e multi-cena.

Kling AIModelo Kling 3.0 que transfere movimento de um vídeo de referência para um caractere de uma imagem de referência, com níveis Standard 720p e Pro 1080p.

ACE-StepModelo de geração de música de código aberto para text-to-song e áudio guiado por letras, com rápida inferência XL Turbo de 8 passos para iterações de músicas controláveis.

InworldSub-130ms TTFB síntese de voz com 271+ vozes em 15 idiomas, prosódia expressiva e streaming em tempo real para agentes de voz de baixa latência.

InworldSíntese de voz de qualidade de transmissão com prosódia expressiva rica, 271+ vozes em 15 idiomas e streaming em tempo real de SSE com datas por palavra.

GoogleBaixa latência text-to-speech com vozes mono e multi-falantes e estilo controlável, sotaque e tom expressivo para aplicativos de produção.

GooglePré-visualização TTS de alta qualidade para podcasts, audiolivros e suporte ao cliente, com vozes expressivas multi-falantes em mais de 23 idiomas.

GoogleTTS altamente controlável com novas etiquetas de áudio para estilo preciso, tom, ritmo e entrega através de narração, assistentes e aplicativos de voz.

DeepgramTranscrição de fala-texto utilizando o modelo Nova-3 com suporte multilíngue e configurações personalizáveis avançadas para cargas de trabalho de produção.

OpenAIWhisper-1 speech-to-text transcrição treinada em áudio supervisionado multilingue, com um limite de upload de 25 MB por arquivo.

OpenAIAuto-anfitrião controlado Whisper Grande v3 transcrição Turbo com ASR multilíngue, tradução, VAD, timestamps, legendas, hotwords e controles decodificadores expostos.

ExaResposta rápida ao estilo LLM a uma questão de linguagem natural, fundamentada em resultados de busca recente da web Exa com citações em linha e links de origem.

ExaTarefa de pesquisa assíncrona que explora a web, reúne fontes, sintetiza descobertas e retorna respostas citadas para consultas aprofundadas.

ExaMecanismo de busca da Web para encontrar páginas, recuperar páginas semelhantes, rastejar, e busca de código dedicado através da web aberta para agentes de IA.

LinkupPesquisa de IA iterativa que continua consultando quando os resultados iniciais são insuficientes, retornando respostas mais abrangentes do que o modo Padrão.

LinkupPesquisa web com tecnologia de IA com visão geral e respostas detalhadas, mais rápido do que a pesquisa profunda. Ranks #1 no OpenAI SimpleQA benchmark.

PerplexityPesquisa de nível institucional baseada no raciocínio de Claude Opus 4.6, com profundidade máxima, acesso aprimorado a ferramentas e ampla cobertura de fontes.

MicrosoftTRELLIS.2 modelo imagem-para-3D que transforma uma imagem de referência em um ativo GLB texturizado com resolução, semente, malha, textura e controles de exportação.

Alibaba CloudTexto multilingue incorporado com dimensões de saída selecionáveis (64-2048). Até 8.192 tokens por entrada.

Alibaba CloudIncorporação multimodal otimizada por velocidade - da mesma forma que Vision-Plus, 3× mais barato image/video.

Alibaba CloudIncorporação multimodal produzindo vetores independentes para entradas de texto, imagem e vídeo.

Alibaba CloudReavaliador de documentos semânticos. Ordena até 500 candidatos por consulta por relevância, suporta mais de 100 idiomas e aceita uma instrução de ordenação personalizada.

GPTZeroDetector de aprendizagem profunda que sinaliza porções de texto provavelmente geradas por IA versus humanos, classificando o conteúdo como inteiramente humano, IA ou misto.

ManusAgente de IA autônomo que transforma um prompt de alto nível em subtarefas, ferramentas de chamadas e APIs e oferece resultados end-to-end sem orquestração manual.
Explore nossos modelos ou entre em contato conosco para consultas de negócios, implantações personalizadas ou qualquer outra coisa.