EmpirioLabs AI

Vierfach-Codierungstest: Kimi K2.7 Code, DeepSeek v4 Pro, Qwen3.7 Max und GLM 5.2, wobei jeder ein selbstspielendes Breakout-Spiel aus einer einzigen HTML-Datei rendert.

Jun 24, 2026

EmpirioLabs AI

Wir haben vier Frontier-Coding-Modellen dieselben drei Spiel-Prompts gegeben und sie bauen lassen. Keine Bearbeitungen, keine erneuten Versuche. Kimi K2.7 Code von Moonshot AI, DeepSeek V4 Pro, Qwen3.7 Max von Alibaba, und GLM 5.2 von Z.ai schrieb jeder eine selbstspielende Snake, eine selbstspielende Breakout und eine selbstspielende Pong, jede einzelne eigenständige HTML-Datei ohne Bibliotheken. Alle vier laufen auf EmpirioLabs hinter einer OpenAI-kompatiblen API.

Sieh zu, wie alle vier es bauen

Wie wir es geführt haben

Jeder Prompt ging an jedes Modell als eine Benutzernachricht, eine Aufnahme, die exakt so gerendert wurde, wie sie zurückgegeben wurde, ohne Bearbeitungen. Der Schlusskampf war auf Maximum eingestellt. Keine Temperaturübersteuerung und keine Systemanweisung. Die maximale Ausgabe betrug 32.000 Token. Jeder Prompt verlangte ein selbstspielbares Spiel als einzige, eigenständige HTML-Datei mit ausschließlich CSS und JavaScript inline, ohne externe Bibliotheken, ohne CDN und ohne Importe.

Die Ergebnisse

Alle vier Modelle lieferten bei jedem Prompt beim ersten Versuch ein funktionierendes Einzeldatei-Spiel. Hier ist die Größe jeder Antwort, in Zeilen der finalen HTML-Datei.

Test	Kimi K2.7 Code	DeepSeek V4 Pro	Qwen3.7 Max	GLM 5.2
Selbstspielende Schlange	374 Linien	744 Linien	460 Linien	526 Linien
Selbstspielender Breakout	295 Linien	762 Linien	335 Linien	370 Linien
Selbstspielender Pong	240 Linien	640 Linien	258 Linien	321 Linien

Was uns aufgefallen ist

Jedes Modell hat beim ersten Versuch ein spielbares Spiel veröffentlicht, aber sie haben es auf sehr unterschiedliche Weise erreicht. DeepSeek V4 Pro schrieb bei allen drei Aufgaben mit Abstand den meisten Code, oft mehr als doppelt so viele Zeilen wie die anderen. Kimi K2.7 Code war am prägnantsten. Qwen3.7 Max und GLM 5.2 landeten dazwischen. Mehr Zeilen sind für sich genommen weder besser noch schlechter, daher sollte man darauf achten, wie jedes Spiel im Clip tatsächlich aussieht und sich spielt. Wir nennen keinen Gewinner. Wähle die Ausgabe, deren Ausgabe zu deiner Arbeit passt.

Führe denselben Test selbst durch

Alle vier bedienen die OpenAI-kompatible Chat Completions API, sodass der Vergleich nur eine Zeile ist. Punkt base_url bei https://api.empiriolabs.ai/v1 und setze die Modell-ID.

curl https://api.empiriolabs.ai/v1/chat/completions \ -H "Authorization: Bearer $EMPIRIOLABS_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "kimi-k2-7-code", "messages": [{"role": "user", "content": "Selbst spielendes Snake-Spiel als einzelne HTML-Datei, ohne Bibliotheken."}] }'

Swap "Model" zu deepseek-v4-pro, qwen3-7-max, oder glm-5-2 und es nochmal ausführen. Jedes Frontier-Modell basiert auf derselben API, sodass du sie mit deinen eigenen Prompts vergleichen kannst, ohne deinen Code zu ändern. Man kann auch alle vier nebeneinander in der spielplatz.

Häufig gestellte Fragen

Welche Codierungsmodelle wurden getestet?

Kimi K2.7 Code von Moonshot AI, DeepSeek V4 Pro, Qwen3.7 Max von Alibaba und GLM 5.2 von Z.ai. Alle vier laufen auf EmpirioLabs über eine OpenAI-kompatible API.

Was waren die drei Aufgaben?

Ein selbstspielender Snake, ein selbstspielender Breakout und ein selbstspielender Pong, jeweils eine einzelne, eigenständige HTML-Datei ohne externe Bibliotheken, die sich ohne Benutzereingabe selbst abspielt.

Wurde irgendetwas bearbeitet oder erneut ausprobiert?

Nein. Jedes Modell bekam pro Prompt eine Aufnahme, und wir haben genau das gerendert, was zurückgegeben wurde, ob es funktionierte oder nicht.

Welches Modell hat den meisten Code geschrieben?

DeepSeek V4 Pro schrieb bei allen drei Aufgaben die meisten Zeilen, und Kimi K2.7 Code schrieb die wenigsten. Die Zeilenzahl ist nur ein Maß für die Größe, nicht für die Qualität, also schau dir den Clip an, um zu sehen, wie jedes Spiel abläuft.

Wie wechsle ich zwischen den Modellen?

Wechsel eine Saite. Alle vier bedienen die OpenAI Chat Completions API unter https://api.empiriolabs.ai/v1, also setzt du die Modell-ID und lässt den Rest der Anfrage unverändert.

Probier es mal

Öffnen Sie den Spielplatz | Alle Modelle durchsuchen | Preisgestaltung

Kimi vs DeepSeek vs Qwen vs GLM: KI-Codingmodelle im Vergleich

Sieh zu, wie alle vier es bauen

Wie wir es geführt haben

Die Ergebnisse

Was uns aufgefallen ist

Führe denselben Test selbst durch

Häufig gestellte Fragen

Welche Codierungsmodelle wurden getestet?

Was waren die drei Aufgaben?

Wurde irgendetwas bearbeitet oder erneut ausprobiert?

Welches Modell hat den meisten Code geschrieben?

Wie wechsle ich zwischen den Modellen?

Probier es mal

Bereit, bessere Endpunkte zu nutzen?

Kimi vs DeepSeek vs Qwen vs GLM: KI-Codingmodelle im Vergleich

Sieh zu, wie alle vier es bauen

Wie wir es geführt haben

Die Ergebnisse

Was uns aufgefallen ist

Führe denselben Test selbst durch

Häufig gestellte Fragen

Welche Codierungsmodelle wurden getestet?

Was waren die drei Aufgaben?

Wurde irgendetwas bearbeitet oder erneut ausprobiert?

Welches Modell hat den meisten Code geschrieben?

Wie wechsle ich zwischen den Modellen?

Probier es mal

Ihre nächsten Artikel

Seedance 2.0 Mini vs Seedance 2.0 Fast: Die schnellen Tiers im Vergleich

HappyHorse 1.1 vs Seedance 2.0 vs Grok Imagine: KI-Videomodelle im Vergleich

Seedance vs Kling vs HappyHorse vs Grok: KI-Videomodelle im Vergleich

Bereit, bessere Endpunkte zu nutzen?