
Kling 3.0 Turbo
Kling AIText-to-video et image-to-video avec audio natif synchronisé, à 720p ou 1080p pendant 3 à 15 secondes, avec rapport d'aspect et contrôle rapide.
Parcourez le catalogue complet des modèles: texte, image, audio, vidéo, 3D et plus encore.
Catalogue de modèles
Parcourez les points de terminaison texte, image, vidéo, audio, 3D, recherche et agents avec pay-as-you-go prix. Le catalogue interactif charge la disponibilité actuelle d’EmpirioLabs, et ces documents modèles sont accessibles sans JavaScript client.
xAI image-to-video avec des mouvements guidés par prompt, audio natif, sortie 480p ou 720p, et des clips jusqu’à 15 secondes.
Génération vidéo multimodale pour des extraits cinématiques à partir de texte, d’image, d’audio ou d’entrées vidéo.
Génération et édition d’images unifiées pour des visuels créatifs, de marque et produits haute résolution.
Modèle de vision de langage économique pour le texte, l’image, la vidéo, le codage, les outils et les flux de travail contextuels 1M.
Modèle phare à long contexte pour le codage, la productivité, les agents à long terme, la réflexion approfondie et l’utilisation des outils.
Raisonnement multimodal pour le codage, les agents, l’analyse en contexte long, ainsi que l’entrée de texte, d’image et de vidéo.
Moonshot raisonnement multimodal avec un fort support du codage, contexte 256K, et entrées image et vidéo.
Raisonnement en contexte long avec appel d’outils, sortie structurée, support du cache et sortie 128K.
Génération image en 3D qui transforme une image de référence en un asset GLB texturé.

Kling AIText-to-video et image-to-video avec audio natif synchronisé, à 720p ou 1080p pendant 3 à 15 secondes, avec rapport d'aspect et contrôle rapide.

Z.aiModèle de raisonnement et de codage avec un contexte de jeton 1M, sortie 128K, effort de raisonnement réglable, recherche web native, et appel d'outils.

Moonshot AIKimi K2.7 Le code est le modèle de codage agentique par trillion de Moonshot avec un contexte 256K, toujours sur le raisonnement et des entrées texte, image et vidéo.

Alibaba CloudModèle de langage de vision Qwen3.7 rentable pour le texte, l'image, la vidéo, le codage, l'utilisation d'outils, la compréhension de l'interface graphique et les flux de travail 1M-context.

Moonshot AIKimi K2.7 Code Highspeed est le niveau de service plus rapide du modèle de codage agentique de Moonshot, avec un contexte 256K, un raisonnement toujours en cours, et une entrée image et vidéo.

MiniMaxMiniMax M3 est un modèle de raisonnement multimodal pour le codage, les agents et l'analyse de long-contexte avec entrée texte, image et vidéo.

Z.aiModèle de raisonnement et de codage avec un contexte de jeton 1M, sortie 128K, effort de raisonnement réglable, recherche web native, et appel d'outils.

Moonshot AIKimi K2.7 Le code est le modèle de codage agentique par trillion de Moonshot avec un contexte 256K, toujours sur le raisonnement et des entrées texte, image et vidéo.

Alibaba CloudModèle de langage de vision Qwen3.7 rentable pour le texte, l'image, la vidéo, le codage, l'utilisation d'outils, la compréhension de l'interface graphique et les flux de travail 1M-context.

Moonshot AIKimi K2.7 Code Highspeed est le niveau de service plus rapide du modèle de codage agentique de Moonshot, avec un contexte 256K, un raisonnement toujours en cours, et une entrée image et vidéo.

MiniMaxMiniMax M3 est un modèle de raisonnement multimodal pour le codage, les agents et l'analyse de long-contexte avec entrée texte, image et vidéo.

Alibaba CloudQwen3.7 Max est un modèle de texte phare pour le codage, la productivité, les agents de longue durée, la pensée profonde, les outils et le contexte de jeton 1M.

Black Forest LabsLicence Apache 4B FLUX.2 Modèle de génération et d'édition d'images Klein avec text-to-image, édition d'images de référence et support créatif du workflow.

AmazonGénération d'images et édition de modèles créant et modifiant des images à partir d'entrées de texte ou d'image, avec inpeinture, essai virtuel et contrôles de style.

TencentOpen-source text-to-image modèle sur une architecture multimodale Mixture-of-Experts avec des détails photoréalistes et un rendu multilingue fort.

DeepSeekCadre autorégressif sur le modèle Janus Pro 7B qui unifie la compréhension multimodale et la génération d'images dans une architecture.

Alibaba CloudModèle de génération et d'édition d'images unifiées avec un complexe de classe Chinese/English, des textures réalistes et une fusion multi-images.

ByteDanceModèle d'image multimodale unifiée qui raisonne par l'intermédiaire d'invites avant le rendu, produisant des modifications à haute résolution et cohérentes et des visuels de marque.

Kling AIText-to-video et image-to-video avec audio natif synchronisé, à 720p ou 1080p pendant 3 à 15 secondes, avec rapport d'aspect et contrôle rapide.

AmazonModèle de génération vidéo produisant jusqu'à 2 minutes de vidéos multi-captures à partir de texte et d'invites d'image optionnelles avec une qualité et une cohérence améliorées.

Alibaba CloudModèle vidéo offrant des modes Text-to-Video, Image-to-Video, Reference-to-Video et Video Edit avec une sortie haute fidélité, motion-smooth.

TencentModèle vidéo de 8.3B-paramètre avec sortie native 720p (upcalable à 1080p), forte cohérence des mouvements et compréhension rapide bilingue jusqu'à 10s.

Kling AIModèle vidéo en mode Standard ou Pro avec transitions Text-to-Video, Image-to-Video, Reference-to-Video, édit, son natif et multi-scène.

Kling AIModèle Kling 3.0 qui transfère le mouvement d'une vidéo de référence sur un personnage d'une image de référence, avec les niveaux Standard 720p et Pro 1080p.

ACE-StepModèle de génération de musique Open-source pour text-to-song et audio lyrique-guided, avec inférence XL Turbo à 8 étapes rapides pour l'itération de chansons contrôlables.

InworldSous-130ms TTFB synthèse vocale avec 271+ voix dans 15 langues, prosody expressive, et en temps réel SSE streaming pour les agents de voix à faible latence.

InworldSynthèse vocale de qualité radiodiffusée avec prosody expressive riche, 271+ voix dans 15 langues, et diffusion SSE en temps réel avec horodatage par mot.

GoogleFaible latence text-to-speech avec voix mono- et multi-parleurs et style contrôlable, accent et ton expressif pour les applications de production.

GooglePrévisualisation TTS de haute qualité pour les podcasts, les livres audio et le support client, avec voix expressives multi-parleurs dans plus de 23 langues.

GoogleTTS hautement contrôlable avec de nouveaux Tags audio pour un style, un ton, un rythme précis et une livraison à travers la narration, les assistants et les applications vocales.

DeepgramTranscription de la parole au texte en utilisant le modèle Nova-3 avec un support multilingue et des paramètres personnalisables avancés pour les charges de production.

OpenAIWhisper-1 speech-to-text transcription formée sur audio supervisé multilingue, avec une limite de téléchargement de 25 Mo par fichier.

OpenAIWhisper Large v3 Turbo à transcription contrôlée avec ASR multilingue, traduction, VAD, horodatage, sous-titres, mots chauds et contrôles décodeur exposés.

ExaRéponse rapide de style LLM à une question en langage naturel, fondée sur des résultats de recherche récents sur le Web Exa avec des citations en ligne et des liens sources.

ExaTâche de recherche asynchrone qui explore le Web, recueille les sources, synthétise les résultats et renvoie les réponses citées pour des questions approfondies.

ExaMoteur de recherche Web pour trouver des pages, récupérer des pages similaires, ramper, et recherche de code dédié à travers le web ouvert pour les agents d'IA.

LinkupRecherche itérative d'IA qui continue à interroger lorsque les résultats initiaux sont insuffisants, en retournant des réponses plus complètes que le mode Standard.

LinkupRecherche en ligne alimentée par l'IA avec des aperçus détaillés et des réponses, plus rapidement que la recherche profonde. Classement 1 sur OpenAI SimpleQA benchmark.

PerplexityRecherche de niveau institutionnel alimentée par le raisonnement de Claude Opus 4.6, avec une profondeur maximale, un accès amélioré aux outils et une couverture étendue des sources.

MicrosoftTRELLIS.2 modèle image à 3D qui transforme une image de référence en un actif GLB texturé avec résolution, graine, maillage, texture et contrôles d'exportation.

Alibaba CloudIntégration multilingue du texte avec des dimensions de sortie sélectionnables (64-2048). Jusqu'à 8 192 jetons par entrée.

Alibaba CloudIntégration multimodale optimisée de vitesse - même forme que Vision-Plus, 3× moins cher image/video jetons.

Alibaba CloudIntégration multimodale produisant des vecteurs indépendants pour les entrées texte, image et vidéo.

Alibaba CloudDocument sémantique reclassé. Trie jusqu'à 500 candidats par question par pertinence, prend en charge plus de 100 langues, et accepte une instruction de tri personnalisée.

GPTZeroDétecteur d'apprentissage profond qui annonce des portions de texte probablement générées par l'IA par rapport à l'humain, classant le contenu comme entièrement humain, l'IA ou mixte.

ManusAgent d'IA autonome qui transforme une prompte de haut niveau en sous-tâches, appels d'outils et API, et délivre des résultats end-to-end sans orchestration manuelle.
Explorez nos modèles, ou contactez-nous pour toute demande d’entreprise, des déploiements personnalisés ou pour tout autre sujet.