
Kling 3.0 Turbo
Kling AIText-zu-Video und image-to-video mit synchronisiertem nativem Audio, bei 720p oder 1080p für 3 bis 15 Sekunden, mit Seitenverhältnis und sofortiger Steuerung.
Durchstöbern Sie den vollständigen Katalog der Modelle in Text, Bild, Audio, Video, 3D und mehr.
Modellkatalog
Durchsuchen Sie Text-, Bild-, Video-, Audio-, 3D-, Such- und Agenten-Endpunkte mit pay-as-you-go Preisen. Der interaktive Katalog lädt die aktuelle Verfügbarkeit von EmpirioLabs, und diese Modelldokumentationen sind ohne Client-JavaScript crawlbar.
xAI image-to-video mit promptgesteuerter Bewegung, nativem Audio, 480p- oder 720p-Ausgabe und bis zu 15 Sekunden langen Clips.
Multimodale Videoerzeugung für filmische Clips aus Text-, Bild-, Audio- oder Videoeingängen.
Vereinheitlichte Bildgenerierung und -bearbeitung für hochauflösende kreative, Marken- und Produktvisuals.
Kosteneffizientes Vision-Language-Modell für Text, Bild, Video, Coding, Tools und 1M-Kontext-Workflows.
Flaggschiff-Langkontextmodell für Programmierung, Produktivität, langlaufende Agenten, tiefes Denken und Werkzeugnutzung.
Multimodales Schließen für Coding, Agenten, Langkontextanalyse sowie Text-, Bild- und Videoeingabe.
Moonshot-Multimodallogik mit starker Codierungsunterstützung, 256K-Kontext sowie Bild- und Videoeingaben.
Langkontext-Argumentation mit Werkzeugaufrufen, strukturierter Ausgabe, Cache-Unterstützung und 128K-Ausgabe.
Bild-zu-3D-Generierung, die ein Referenzbild in ein strukturiertes GLB-Asset verwandelt.

Kling AIText-zu-Video und image-to-video mit synchronisiertem nativem Audio, bei 720p oder 1080p für 3 bis 15 Sekunden, mit Seitenverhältnis und sofortiger Steuerung.

Z.aiReasoning- und Codierungsmodell mit einem 1M-Token-Kontext, 128K-Ausgabe, einstellbarem Argumentationsaufwand, nativer Websuche und Tool-Aufrufen.

Moonshot AIKimi K2.7 Code ist Moonshots Agentik-Codierungsmodell mit einem Trillion-Parameter-Parameter mit 256K-Kontext, ständiger Argumentation und Text-, Bild- und Videoeingaben.

Alibaba CloudKostengünstiges Qwen3.7 Vision-Sprachmodell für Text, Bild, Video, Codierung, Werkzeugnutzung, GUI-Verständnis und 1M-Kontext-Workflows.

Moonshot AIKimi K2.7 Code Highspeed ist die schneller dienende Ebene des agentischen Codierungsmodells von Moonshot mit 256K Kontext, ständigem Denken und Bild- und Videoeingaben.

MiniMaxMiniMax M3 ist ein multimodales Argumentationsmodell für Codierung, Agenten und lange Kontextanalyse mit Text-, Bild- und Videoeingabe.

Z.aiReasoning- und Codierungsmodell mit einem 1M-Token-Kontext, 128K-Ausgabe, einstellbarem Argumentationsaufwand, nativer Websuche und Tool-Aufrufen.

Moonshot AIKimi K2.7 Code ist Moonshots Agentik-Codierungsmodell mit einem Trillion-Parameter-Parameter mit 256K-Kontext, ständiger Argumentation und Text-, Bild- und Videoeingaben.

Alibaba CloudKostengünstiges Qwen3.7 Vision-Sprachmodell für Text, Bild, Video, Codierung, Werkzeugnutzung, GUI-Verständnis und 1M-Kontext-Workflows.

Moonshot AIKimi K2.7 Code Highspeed ist die schneller dienende Ebene des agentischen Codierungsmodells von Moonshot mit 256K Kontext, ständigem Denken und Bild- und Videoeingaben.

MiniMaxMiniMax M3 ist ein multimodales Argumentationsmodell für Codierung, Agenten und lange Kontextanalyse mit Text-, Bild- und Videoeingabe.

Alibaba CloudQwen3.7 Max ist ein Flaggschiff-Textmodell für Codierung, Produktivität, langjährige Agenten, tiefes Denken, Tools und 1M-Token-Kontext.

Black Forest LabsApache-lizenziert 4B FLUX.2 Kleines Bilderzeugungs- und Bearbeitungsmodell mit text-to-image, Referenzbildbearbeitung und kreativer Workflow-Unterstützung.

AmazonBilderzeugung und -bearbeitungsmodell Erstellen und Ändern von Bildern aus Text- oder Bildeingaben mit Inpainting, virtuellen Try-On- und Style-Steuerelementen.

TencentOpen-Source-Modell text-to-image auf einer multimodalen Mixture-of-Experts-Architektur mit fotorealistischen Details und starker mehrsprachiger Textwiedergabe.

DeepSeekAutoregressives Framework auf dem Janus Pro 7B-Modell, das multimodales Verständnis und Bilderzeugung in einer Architektur vereint.

Alibaba CloudEinheitliches Bilderzeugungs- und Bearbeitungsmodell mit klassenführendem komplexem Chinese/English Text-Rendering, realistischen Texturen und Multi-Bild-Fusion.

ByteDanceEinheitliches multimodales Bildmodell, das durch Eingabeaufforderungen vor dem Rendern begründet und hochauflösende und konsistente Bearbeitungen und Markenvisuals erzeugt.

Kling AIText-zu-Video und image-to-video mit synchronisiertem nativem Audio, bei 720p oder 1080p für 3 bis 15 Sekunden, mit Seitenverhältnis und sofortiger Steuerung.

AmazonVideogenerierungsmodell, das bis zu 2-minütige Multi-Shot-Videos aus Text- und optionalen Bildaufforderungen mit verbesserter Qualität und Konsistenz produziert.

Alibaba CloudVideo-Modell bietet Text-to-Video, Image-to-Video, Reference-to-Video und Video Edit-Modi mit High-Fidelity, Motion-Smooth-Ausgabe.

Tencent8.3B-Parameter-Videomodell mit nativem 720p-Ausgang (upskalierbar auf 1080p), starker Bewegungskohärenz und zweisprachigem promptem Verständnis bis zu 10s.

Kling AIVideomodell im Standard- oder Pro-Modus mit Text-zu-Video, Bild-zu-Video, Referenz-zu-Video, Bearbeitung, nativem Sound und Multi-Szenen-Übergängen.

Kling AIKling 3.0-Modell, das Bewegung von einem Referenzvideo auf einen Charakter aus einem Referenzbild überträgt, mit Standard 720p und Pro 1080p Ebenen.

ACE-StepOpen-Source-Musikgenerierungsmodell für text-to-song und lyrisch geführtes Audio, mit schneller 8-stufiger XL Turbo-Inferenz für eine steuerbare Song-Iteration.

InworldSub-130ms TTFB Sprachsynthese mit 271+ Stimmen in 15 Sprachen, expressive Prosodie und Echtzeit-SSE-Streaming für Sprachagenten mit niedriger Latenz.

InworldSprachsynthese in Broadcast-Qualität mit reichhaltiger ausdrucksstarker Prosodie, 271+ Stimmen in 15 Sprachen und Echtzeit-SSE-Streaming mit Zeitstempeln pro Wort.

GoogleNiedrige Latenz text-to-speech mit Single- und Multi-Sprecher-Stimmen und steuerbarem Stil, Akzent und ausdrucksstarken Ton für Produktions-Apps.

GoogleHochwertige TTS-Vorschau für Podcasts, Hörbücher und Kundensupport mit ausdrucksstarken Multi-Sprecher-Stimmen in 23+ Sprachen.

GoogleHoch kontrollierbare TTS mit neuen Audio-Tags für präzisen Stil, Ton, Tempo und Lieferung über Narration, Assistenten und Voice-Apps.

DeepgramSprach-zu-Text-Transkription mit dem Nova-3-Modell mit mehrsprachiger Unterstützung und erweiterten anpassbaren Einstellungen für Produktions-Workloads.

OpenAIWhisper-1 speech-to-text Transkription mit einem Upload-Limit von 25 MB pro Datei.

OpenAIKontrollierte selbst gehostete Whisper Large v3 Turbo-Transkription mit mehrsprachigen ASR-, Übersetzungs-, VAD-, Zeitstempeln, Untertiteln, Hotwords und Decoder-Steuerelementen.

ExaSchnelle Antwort im LLM-Stil auf eine Frage in natürlicher Sprache, die auf frischen Exa-Websuchergebnissen mit Inline-Zitaten und Quelllinks basiert.

ExaAsynchrone Forschungsaufgabe, die das Web erforscht, Quellen sammelt, Erkenntnisse synthetisiert und zitierte Antworten für eingehende Abfragen zurückgibt.

ExaWeb-Suchmaschine zum Finden von Seiten, zum Abrufen ähnlicher Seiten, zum Crawlen und zur dedizierten Codesuche im offenen Web für KI-Agenten.

LinkupIterative KI-Suche, die immer dann abfragt, wenn die ersten Ergebnisse unzureichend sind, und umfassendere Antworten liefert als der Standardmodus.

LinkupKI-gestützte Websuche mit detaillierten Übersichten und Antworten, schneller als Deep Search. Rang 1 auf OpenAI SimpleQA Benchmark.

PerplexityInstitutionelle Forschung, angetrieben von Claude Opus 4.6, mit maximaler Tiefe, verbessertem Werkzeugzugriff und umfangreicher Quellenabdeckung.

MicrosoftTRELLIS.2 Bild-zu-3D-Modell, das ein Referenzbild in ein strukturiertes GLB-Asset mit Auflösung, Seed, Mesh, Textur und Exportkontrollen verwandelt.

Alibaba CloudMehrsprachige Texteinbettung mit wählbaren Ausgabedimensionen (64-2048). Bis zu 8.192 Token pro Eingang.

Alibaba CloudGeschwindigkeitsoptimierte multimodale Einbettung - die gleiche Form wie Vision-Plus, 3x billigere image/video Token.

Alibaba CloudMultimodale Einbettung, die unabhängige Vektoren für Text-, Bild- und Videoeingaben erzeugt.

Alibaba CloudSemantischer Dokumenten-Reranker. Sortiert bis zu 500 Kandidaten pro Abfrage nach Relevanz, unterstützt über 100 Sprachen und akzeptiert eine benutzerdefinierte Sortieranweisung.

GPTZeroDeep-Learning-Detektor, der Textteile markiert, die wahrscheinlich von KI gegen Menschen generiert werden, und den Inhalt als vollständig menschlich, KI oder gemischt klassifiziert.

ManusAutonomer KI-Agent, der eine hochrangige Eingabeaufforderung in Teilaufgaben umwandelt, Tools und APIs aufruft und end-to-end Ergebnisse ohne manuelle Orchestrierung liefert.
Entdecken Sie unsere Modelle oder kontaktieren Sie uns bei Geschäftsanfragen, individuellen Deployments oder sonst etwas.