Nous avons donné à deux modèles frontières exactement les mêmes cinq prompts de codage et enregistré ce que chacun construisait. Pas de modifications, pas de tentatives, pas de sélection à la tête. Fugu Ultra de Sakana AI et GLM 5.2 de Z.ai chacun écrivait un Asteroids auto-jouant, un Pong auto-jouant, un champ de plasma, un tunnel de trou de ver et un champ d’étoiles hyperspatial, chacun étant un fichier HTML autonome sans bibliothèques. Les deux modèles fonctionnent sur EmpirioLabs derrière une API compatible OpenAI, donc il s’agissait d’un seul organisme de demande avec le nom du modèle inversé.
Regardez les cinq tests
Comment nous l’avons géré
Chaque invite était envoyée à chaque modèle sous forme d’un message utilisateur, d’un seul shot, et nous avons rendu exactement ce qui était revenu sans aucune modification. L’effort de raisonnement était réglé au maximum pour les deux. Fugu Ultra affiche toujours sa réflexion, et GLM 5.2 a tourné à son meilleur niveau de raisonnement. Pas de dépassement de température et pas de prompt système. La production maximale était de 32 000 jetons. Chaque invite demandait un seul fichier HTML autonome avec tout le CSS et JavaScript en ligne, sans bibliothèques externes, sans liens CDN, sans importations.
Les résultats
Les deux modèles ont renvoyé du code fonctionnel sur les cinq invites du premier coup. Voici la taille de chaque réponse, mesurée en lignes du fichier HTML final.
| Test | Fugu Ultra | GLM 5.2 |
|---|---|---|
| Astéroïdes auto-jouants | 948 lignes | 656 lignes |
| Pong autonome | 486 lignes | 412 lignes |
| Champ de plasma | 298 lignes | 131 lignes |
| Tunnel du trou de ver | 255 lignes | 199 lignes |
| Champ stellaire hyperspatial | 241 lignes | 166 lignes |
Ce que nous avons remarqué
Les deux modèles fonctionnent très différemment sous le capot, et le test le montre. Fugu Ultra est un modèle d’orchestration multi-agents: il exécute plusieurs phases de raisonnement internes avant de répondre, ce qui lui permet de passer beaucoup plus de temps par tâche et de produire beaucoup plus de raisonnement en cours de route. Il écrivait aussi plus de lignes de code sur chaque prompt. GLM 5.2 est un modèle rapide en un seul passage avec une fenêtre de contexte de jeton de 1M, et il renvoyait des fichiers plus serrés en une fraction du temps. Aucune des deux approches n’est la gagnante ici. Ils sont conçus pour différents métiers, et le bon choix dépend de la profondeur maximale par requête ou de la vitesse et du volume.
Nous ne désignons pas un gagnant exprès. Regardez l’extrait, voyez à quoi ressemble et se comporte chaque rendus, et jugez selon votre propre cas d’usage.
Fais le même test toi-même
Les deux modèles servent l’API Chat Completions compatible OpenAI, donc passer d’un à l’autre est un changement en une seule ligne. Point base_url à https://api.empiriolabs.ai/v1 et fixer l’id du modèle à fugu-ultra ou glm-5-2.
curl https://api.empiriolabs.ai/v1/chat/completions \ -H « Autorisation: Porteur $EMPIRIOLABS_API_KEY » \ -H « Type-Contenu: application/json » \ -d '{ « modèle »: « fugu-ultra », « messages »: [{"rôle »: « utilisateur », « contenu »: « Construire un jeu Asteroids auto-jouant comme un seul fichier HTML, sans bibliothèques."}] }'
Changement « mannequin »: « fugu-ultra » à « mannequin »: « glm-5-2 » et relancer. C’est tout l’intérêt de EmpirioLabs: chaque modèle frontière derrière une API, pour pouvoir les comparer sur vos propres invites sans rien reconfigurer. Vous pouvez aussi faire fonctionner les deux côte à côte dans le aire de jeux.
Questions fréquemment posées
Quels modèles ont été testés ?
Fugu Ultra de Sakana AI et GLM 5.2 de Z.ai, tous deux disponibles sur EmpirioLabs via une API compatible OpenAI.
Quelles étaient les cinq tâches de codage ?
Un jeu Asteroids auto-jouable, un jeu Pong auto-jouable, un effet plasma de demoscene, un tunnel de trou de ver infini et un warp de champ stellaire hyperspatial. Chacun devait être un fichier HTML autonome unique sans bibliothèques externes.
Y a-t-il quelque chose qui a été modifié ou réessayé ?
Non. Chaque modèle a eu un shot par prompt et nous avons rendu exactement ce qu’il a rendu. Nous avons gardé le résultat, qu’il soit beau ou non.
Pourquoi Fugu Ultra prend-il plus de temps ?
Fugu Ultra est un modèle d’orchestration multi-agents avec un raisonnement toujours activé. Il effectue plusieurs passages internes avant de répondre, ce qui échange la vitesse contre la profondeur. GLM 5.2 répond en un seul passage.
Comment puis-je passer d’un modèle à l’autre ?
Change une corde. Les deux servent l’API OpenAI Chat Completions à https://api.empiriolabs.ai/v1, donc vous définissez l’identifiant du modèle à fugu-ultra ou glm-5-2 et tout le reste reste pareil.
Essaie
Ouvrez le terrain de jeux - Oui Page modèle Fugu Ultra - Oui Page modèle GLM 5.2 - Oui Prix



