Demos a quatro modelos de programação Frontier os mesmos três prompts do jogo e deixamos que eles construíssem. Sem edições, sem tentativas. Kimi K2.7 Código da Moonshot AI, DeepSeek V4 Pro, Qwen3.7 Max de Alibaba, e GLM 5.2 de Z.ai cada um escreveu um Snake auto-jogável, um Breakout auto-jogável e um Pong auto-jogável, cada um um arquivo HTML autônomo sem bibliotecas. Os quatro rodam em EmpirioLabs atrás de uma API compatível com OpenAI.
Assista os quatro construírem
Como administramos
Cada prompt era enviado para cada modelo como uma mensagem de usuário, um shot, renderizado exatamente como retornado, sem nenhuma edição. O esforço de raciocínio estava no máximo. Sem override de temperatura e sem aviso do sistema. A produção máxima era de 32.000 tokens. Todo prompt pedia um jogo autônomo como um único arquivo HTML autônomo com todo CSS e JavaScript inlineados, sem bibliotecas externas, sem CDN e sem importações.
Os resultados
Todos os quatro modelos retornavam um jogo funcional em arquivo único em cada prompt na primeira tentativa. Aqui está o tamanho de cada resposta, em linhas do arquivo HTML final.
| Teste | Kimi K2.7 Código | DeepSeek V4 Pro | Qwen3.7 Max | GLM 5.2 |
|---|---|---|---|---|
| Cobra Auto-Jogadora | 374 linhas | 744 linhas | 460 linhas | 526 linhas |
| Breakout auto-jogável | 295 linhas | 762 linhas | 335 linhas | 370 linhas |
| Pong de jogo autônomo | 240 linhas | 640 linhas | 258 linhas | 321 linhas |
O que notamos
Cada modelo lançou um jogo jogável na primeira tentativa, mas chegaram lá de maneiras bem diferentes. O DeepSeek V4 Pro escrevia de longe a maior quantidade de código nas três tarefas, muitas vezes mais do que o dobro das linhas das outras. O código Kimi K2.7 foi o mais conciso. Qwen3.7 Max e GLM 5.2 pousaram no meio. Mais falas não é melhor nem pior por si só, então o que vale a pena observar é como cada jogo realmente parece e se desenrola no clipe. Não vamos nomear um vencedor. Escolha aquele cujo resultado se encaixe no estilo que você gosta de trabalhar.
Faça o mesmo teste você mesmo
Todos os quatro atendem à API Chat Completions compatível com OpenAI, então compará-los é uma mudança de linha simples. Ponto base_url em https://api.empiriolabs.ai/v1 e definir o ID do modelo.
curl https://api.empiriolabs.ai/v1/chat/completions \ -H "Autorização: Portador $EMPIRIOLABS_API_KEY" \ -H "Tipo-de-Conteúdo: application/json" \ -d '{ "modelo": "kimi-k2-7-code", "mensagens": [{"papel": "usuário", "conteúdo": "Construa um jogo Snake auto-jogável como um único arquivo HTML, sem bibliotecas."}] }'
Troca "modelo" para deepseek-v4-pro, qwen3-7-max, ou glm-5-2 E rodar de novo. Todo modelo Frontier fica atrás da mesma API, então você pode compará-los nos seus próprios prompts sem mudar seu código. Você também pode rodar os quatro lado a lado no playground.
Perguntas frequentes
Quais modelos de codificação foram testados?
Código Kimi K2.7 da Moonshot AI, DeepSeek V4 Pro, Qwen3.7 Max da Alibaba e GLM 5.2 da Z.ai. Os quatro rodam em EmpirioLabs por meio de uma API compatível com OpenAI.
Quais eram as três tarefas?
Um Snake auto-jogável, um Breakout auto-reproduzido e um Pong auto-jogável, cada um um arquivo HTML autônomo sem bibliotecas externas, que se reproduz sozinho sem entrada do usuário.
Algo foi editado ou retentado?
Não. Cada modelo teve uma foto por prompt e renderizamos exatamente o que ele retornou, funcionando ou não.
Qual modelo escreveu mais código?
O DeepSeek V4 Pro escreveu mais linhas nas três tarefas, e o Kimi K2.7 Code escreveu menos. A contagem de linhas é apenas uma medida de tamanho, não de qualidade, então assista ao clipe para ver como cada jogo é jogado.
Como faço para alternar entre os modelos?
Troque uma corda. Todos os quatro atendem à API de Completação de Chats OpenAI em https://api.empiriolabs.ai/v1, então você define o ID do modelo e mantém o restante da solicitação inalterada.
Experimente
Abrir o parque infantil □ Navegue por todos os modelos □ Preços



