EmpirioLabs AI

Test de codage à quatre voies: Kimi K2.7 Code, DeepSeek V4 Pro, Qwen3.7 Max et GLM 5.2 rendant chacun un jeu Breakout auto-joueur à partir d’un seul fichier HTML.

Jun 24, 2026

EmpirioLabs AI

Nous avons donné à quatre modèles de codage Frontier les mêmes trois prompts de jeu et les avons laissés construire. Pas de modifications, pas de retours. Kimi K2.7 Code extrait de Moonshot AI, DeepSeek V4 Pro, Qwen3.7 Max d’Alibaba, et GLM 5.2 de Z.ai chacun écrivait un Snake auto-jouant, un Breakout auto-jouant et un Pong auto-jouant, chacun étant un fichier HTML autonome sans bibliothèques. Les quatre fonctionnent sur EmpirioLabs derrière une API compatible OpenAI.

Regardez les quatre la construire

Comment nous l’avons géré

Chaque invite était envoyée à chaque modèle sous forme d’un message utilisateur, d’un seul plan, rendu exactement comme renvoyé sans modifications. L’effort de raisonnement était réglé au maximum. Pas de dépassement de température et pas de prompt système. La production maximale était de 32 000 jetons. Chaque invite demandait un jeu auto-jouable sous forme d’un seul fichier HTML autonome avec tout le CSS et JavaScript en ligne, sans bibliothèques externes, sans CDN, et sans importations.

Les résultats

Les quatre modèles ont tous donné un jeu en file unique fonctionnel à chaque invite du premier coup. Voici la taille de chaque réponse, en lignes du fichier HTML final.

Test	Kimi K2.7 Code	DeepSeek V4 Pro	Qwen3.7 Max	GLM 5.2
Serpent auto-joueur	374 lignes	744 lignes	460 lignes	526 lignes
Breakout auto-jouant	295 lignes	762 lignes	335 lignes	370 lignes
Pong autonome	240 lignes	640 lignes	258 lignes	321 lignes

Ce que nous avons remarqué

Chaque modèle a livré un jeu jouable du premier coup, mais ils y sont arrivés de manières très différentes. DeepSeek V4 Pro écrivait de loin le plus de code sur les trois tâches, souvent plus du double de lignes des autres. Le code Kimi K2.7 était le plus concis. Qwen3.7 Max et GLM 5.2 ont atterri entre les deux. Plus de répliques n’est ni mieux ni pire en soi, donc ce qu’il faut observer, c’est comment chaque match ressemble et se joue réellement dans le clip. Nous ne dénonçons pas de gagnant. Choisis celui dont la sortie correspond à ton style de travail.

Fais le même test toi-même

Les quatre servent l’API Chat Completions compatible OpenAI, donc les comparer est un changement en une ligne. Point base_url à https://api.empiriolabs.ai/v1 et définissez l’identifiant du modèle.

curl https://api.empiriolabs.ai/v1/chat/completions \ -H « Autorisation: Porteur $EMPIRIOLABS_API_KEY » \ -H « Type-Contenu: application/json » \ -d '{ « modèle »: « kimi-k2-7-code », « messages »: [{"rôle »: « utilisateur », « contenu »: « Construire un jeu Snake auto-jouant comme un seul fichier HTML, sans bibliothèques."}] }'

Échange « modèle » à deepseek-v4-pro, qwen3-7-max, ou glm-5-2 et relancer. Chaque modèle Frontier repose sur la même API, donc vous pouvez les comparer sur vos propres prompts sans changer votre code. Vous pouvez aussi faire courir les quatre côte à côte dans le aire de jeux.

Questions fréquemment posées

Quels modèles de codage ont été testés ?

Le code Kimi K2.7 de Moonshot AI, DeepSeek V4 Pro, Qwen3.7 Max d’Alibaba, et GLM 5.2 de Z.ai. Les quatre fonctionnent sur EmpirioLabs via une API compatible OpenAI.

Quelles étaient les trois tâches ?

Un Snake auto-jouant, un Breakout auto-jouant et un Pong auto-jouant, chacun un fichier HTML autonome sans bibliothèques externes, qui se joue tout seul sans entrée utilisateur.

Y a-t-il quelque chose qui a été modifié ou réessayé ?

Non. Chaque modèle avait un shot par prompt et nous rendions exactement ce qu’il revenait, qu’il fonctionne ou non.

Quel modèle a écrit le plus de code ?

DeepSeek V4 Pro a écrit le plus de lignes sur les trois tâches, et Kimi K2.7 Code en a écrit le moins. Le nombre de lignes est juste une mesure de taille, pas de qualité, alors regardez le clip pour voir comment chaque partie se joue.

Comment puis-je passer d’un modèle à l’autre ?

Change une corde. Les quatre desservent l’API OpenAI Chat Completions à https://api.empiriolabs.ai/v1, donc vous définissez l’identifiant du modèle et gardez le reste de la requête inchangé.

Essaie

Ouvrez le terrain de jeux - Oui Parcourez tous les modèles - Oui Prix

Kimi vs DeepSeek vs Qwen vs GLM: Comparaison des modèles de codage IA

Regardez les quatre la construire

Comment nous l’avons géré

Les résultats

Ce que nous avons remarqué

Fais le même test toi-même