Casa Blog

Kimi vs DeepSeek vs Qwen vs GLM: Modelos de Codificação de IA Comparados

Teste de codificação de quatro vias: Kimi K2.7 Code, DeepSeek V4 Pro, Qwen3.7 Max e GLM 5.2, cada um renderizando um jogo Breakout auto-jogável a partir de um único arquivo HTML.

Jun 24, 2026

EmpirioLabs AI

Demos a quatro modelos de programação Frontier os mesmos três prompts do jogo e deixamos que eles construíssem. Sem edições, sem tentativas. Kimi K2.7 Código da Moonshot AI, DeepSeek V4 Pro, Qwen3.7 Max de Alibaba, e GLM 5.2 de Z.ai cada um escreveu um Snake auto-jogável, um Breakout auto-jogável e um Pong auto-jogável, cada um um arquivo HTML autônomo sem bibliotecas. Os quatro rodam em EmpirioLabs atrás de uma API compatível com OpenAI.

Assista os quatro construírem

Como administramos

Cada prompt era enviado para cada modelo como uma mensagem de usuário, um shot, renderizado exatamente como retornado, sem nenhuma edição. O esforço de raciocínio estava no máximo. Sem override de temperatura e sem aviso do sistema. A produção máxima era de 32.000 tokens. Todo prompt pedia um jogo autônomo como um único arquivo HTML autônomo com todo CSS e JavaScript inlineados, sem bibliotecas externas, sem CDN e sem importações.

Os resultados

Todos os quatro modelos retornavam um jogo funcional em arquivo único em cada prompt na primeira tentativa. Aqui está o tamanho de cada resposta, em linhas do arquivo HTML final.

TesteKimi K2.7 CódigoDeepSeek V4 ProQwen3.7 MaxGLM 5.2
Cobra Auto-Jogadora374 linhas744 linhas460 linhas526 linhas
Breakout auto-jogável295 linhas762 linhas335 linhas370 linhas
Pong de jogo autônomo240 linhas640 linhas258 linhas321 linhas

O que notamos

Cada modelo lançou um jogo jogável na primeira tentativa, mas chegaram lá de maneiras bem diferentes. O DeepSeek V4 Pro escrevia de longe a maior quantidade de código nas três tarefas, muitas vezes mais do que o dobro das linhas das outras. O código Kimi K2.7 foi o mais conciso. Qwen3.7 Max e GLM 5.2 pousaram no meio. Mais falas não é melhor nem pior por si só, então o que vale a pena observar é como cada jogo realmente parece e se desenrola no clipe. Não vamos nomear um vencedor. Escolha aquele cujo resultado se encaixe no estilo que você gosta de trabalhar.

Faça o mesmo teste você mesmo

Todos os quatro atendem à API Chat Completions compatível com OpenAI, então compará-los é uma mudança de linha simples. Ponto base_url em https://api.empiriolabs.ai/v1 e definir o ID do modelo.

curl https://api.empiriolabs.ai/v1/chat/completions \ -H "Autorização: Portador $EMPIRIOLABS_API_KEY" \ -H "Tipo-de-Conteúdo: application/json" \ -d '{ "modelo": "kimi-k2-7-code", "mensagens": [{"papel": "usuário", "conteúdo": "Construa um jogo Snake auto-jogável como um único arquivo HTML, sem bibliotecas."}] }'

Troca "modelo" para deepseek-v4-pro, qwen3-7-max, ou glm-5-2 E rodar de novo. Todo modelo Frontier fica atrás da mesma API, então você pode compará-los nos seus próprios prompts sem mudar seu código. Você também pode rodar os quatro lado a lado no playground.

Perguntas frequentes

Quais modelos de codificação foram testados?

Código Kimi K2.7 da Moonshot AI, DeepSeek V4 Pro, Qwen3.7 Max da Alibaba e GLM 5.2 da Z.ai. Os quatro rodam em EmpirioLabs por meio de uma API compatível com OpenAI.

Quais eram as três tarefas?

Um Snake auto-jogável, um Breakout auto-reproduzido e um Pong auto-jogável, cada um um arquivo HTML autônomo sem bibliotecas externas, que se reproduz sozinho sem entrada do usuário.

Algo foi editado ou retentado?

Não. Cada modelo teve uma foto por prompt e renderizamos exatamente o que ele retornou, funcionando ou não.

Qual modelo escreveu mais código?

O DeepSeek V4 Pro escreveu mais linhas nas três tarefas, e o Kimi K2.7 Code escreveu menos. A contagem de linhas é apenas uma medida de tamanho, não de qualidade, então assista ao clipe para ver como cada jogo é jogado.

Como faço para alternar entre os modelos?

Troque uma corda. Todos os quatro atendem à API de Completação de Chats OpenAI em https://api.empiriolabs.ai/v1, então você define o ID do modelo e mantém o restante da solicitação inalterada.

Experimente

Abrir o parque infantilNavegue por todos os modelosPreços

Pronto para usar endpoints melhores?

Explore nossos modelos ou entre em contato conosco para consultas de negócios, implantações personalizadas ou qualquer outra coisa.