EmpirioLabs AI

Side-by-side-Codierungstest: Fugu Ultra und GLM 5.2 rendern jeweils einen Plasmaeffekt aus einer einzigen HTML-Datei auf EmpirioLabs.

Jun 24, 2026

EmpirioLabs AI

Wir gaben zwei Frontier-Modellen exakt die gleichen fünf Codierungs-Prompts und notierten, was jedes von ihnen baute. Keine Bearbeitungen, keine Wiederholungen, kein Selektives Auswählen. Fugu Ultra von Sakana AI und GLM 5.2 von Z.ai alle schrieben ein selbstspielendes Asteroids, ein selbstspielendes Pong, ein Plasmafeld, einen Wurmlochtunnel und ein Hyperraum-Sternenfeld, jedes einzelne eine eigenständige HTML-Datei ohne Bibliotheken. Beide Modelle laufen auf EmpirioLabs hinter einer OpenAI-kompatiblen API, sodass es sich um einen Request-Body mit vertauschtem Modellnamen handelte.

Sehen Sie sich alle fünf Tests an

Wie wir es geführt haben

Jeder Prompt ging an jedes Model als eine Benutzernachricht, eine Aufnahme, und wir renderten genau das, was zurückkam, ohne Bearbeitungen. Der Denkaufwand war für beide auf Maximum gesetzt. Fugu Ultra hat sein Denken immer eingeschaltet, und GLM 5.2 lief mit seinem höchsten Denkvermögen. Keine Temperaturübersteuerung und keine Systemanweisung. Die maximale Ausgabe betrug 32.000 Token. Jeder Prompt verlangte eine einzige, eigenständige HTML-Datei mit ausschließlich CSS und JavaScript inline, keine externen Bibliotheken, keine CDN-Links und keine Importe.

Die Ergebnisse

Beide Modelle lieferten beim ersten Versuch auf allen fünf Prompts funktionierenden Code. Hier ist die Größe jeder Antwort, gemessen in Zeilen der finalen HTML-Datei.

Test	Fugu Ultra	GLM 5.2
Selbstspielende Asteroiden	948 Linien	656 Linien
Selbstspielender Pong	486 Linien	412 Linien
Plasmafeld	298 Linien	131 Linien
Wurmlochtunnel	255 Linien	199 Linien
Hyperraum-Sternenfeld	241 Linien	166 Linien

Was uns aufgefallen ist

Die beiden Modelle funktionieren unter der Haube sehr unterschiedlich, und der Test zeigt das. Fugu Ultra ist ein Multi-Agenten-Orchestrierungsmodell: Es führt mehrere interne Überlegungen durch, bevor es antwortet, sodass es viel länger pro Aufgabe gebraucht hat und unterwegs viel mehr Argumentation erzeugt hat. Außerdem schrieb es bei jedem Prompt mehr Codezeilen. GLM 5.2 ist ein schnelles Single-Pass-Modell mit einem 1M Token-Kontextfenster und lieferte in einem Bruchteil der Zeit straffere Dateien zurück. Keine der beiden Ansätze ist hier der Gewinner. Sie sind für verschiedene Aufträge gebaut, und die richtige Wahl hängt davon ab, ob du maximale Tiefe pro Anfrage oder Geschwindigkeit und Volumen möchtest.

Wir nennen nicht absichtlich einen Gewinner. Sieh dir den Clip an, sieh, wie jedes Render aussieht und sich verhält, und beurteile für deinen eigenen Anwendungsfall.

Führe denselben Test selbst durch

Beide Modelle bedienen die OpenAI-kompatible Chat Completions API, sodass der Wechsel zwischen ihnen nur eine Zeile bedeutet. Punkt base_url bei https://api.empiriolabs.ai/v1 und setzen Sie die Modell-ID auf fugu-ultra oder glm-5-2.

curl https://api.empiriolabs.ai/v1/chat/completions \ -H "Autorisierung: Träger $EMPIRIOLABS_API_KEY" \ -H "Inhaltstyp: application/json" \ -d '{ "model": "fugu-ultra", "messages": [{"role": "user", "content": "Selbst spielendes Asteroids-Spiel als einzelne HTML-Datei, keine Bibliotheken."}] }'

Veränderung "Model": "Fugu-Ultra" zu "Model": "glm-5-2" und es nochmal ausführen. Das ist der ganze Sinn von EmpirioLabs: jedes Frontier-Modell hinter einer API, sodass man sie mit eigenen Prompts vergleichen kann, ohne etwas neu verdrahten zu müssen. Du kannst auch beide nebeneinander in der spielplatz.

Häufig gestellte Fragen

Welche Modelle wurden getestet?

Fugu Ultra von Sakana AI und GLM 5.2 von Z.ai, beide auf EmpirioLabs über eine OpenAI-kompatible API verfügbar.

Was waren die fünf Programmieraufgaben?

Ein selbstspielendes Asteroids-Spiel, ein selbstspielendes Pong-Spiel, ein Demoscene-Plasmaeffekt, ein unendlicher Wurmlochtunnel und ein Hyperraum-Sternenfeld-Warp. Jede Datei musste eine einzelne, eigenständige HTML-Datei ohne externe Bibliotheken sein.

Wurde irgendetwas bearbeitet oder erneut ausprobiert?

Nein. Jedes Modell bekam pro Prompt eine Aufnahme und wir renderten genau das, was zurückgegeben wurde. Wir haben das Ergebnis beibehalten, egal ob es großartig aussah oder nicht.

Warum dauert Fugu Ultra länger?

Fugu Ultra ist ein Multi-Agenten-Orchestrierungsmodell mit immer-eingeschaltetem Denken. Er führt mehrere interne Durchgänge durch, bevor er antwortet, was Geschwindigkeit gegen Tiefe eintauscht. GLM 5.2 antwortet in einem einzigen Durchgang.

Wie wechsle ich zwischen den beiden Modellen?

Wechsel eine Saite. Beide bedienen die OpenAI Chat Completions API bei https://api.empiriolabs.ai/v1, also setzt du die Modell-ID auf fugu-ultra oder glm-5-2 Und alles andere bleibt gleich.

Probier es mal

Öffnen Sie den Spielplatz | Fugu Ultra Modellseite | GLM 5.2 Modellseite | Preisgestaltung

Fugu Ultra vs GLM 5.2: Fünf Kodierungstests im Vergleich

Sehen Sie sich alle fünf Tests an

Wie wir es geführt haben

Die Ergebnisse

Was uns aufgefallen ist

Führe denselben Test selbst durch