EmpirioLabs AI

4방향 코딩 테스트: Kimi K2.7 코드, DeepSeek V4 Pro, Qwen3.7 Max, GLM 5.2가 각각 단일 HTML 파일로부터 셀프 플레이 Breakout 게임을 렌더링합니다.

Jun 24, 2026

EmpirioLabs AI

우리는 네 개의 프론티어 코딩 모델에게 동일한 세 가지 게임 프롬프트를 주고 그들이 빌드하도록 했습니다. 편집도, 재시도도 없습니다. 김이 K2.7 이름 * 문샷 AI에서, 딥시크 V4 프로·, Qwen3.7 맥스 알리바바에서 왔고, GLM 5.2 Z.ai 각각 자체 플레이 스네이크, 셀프 플레이 브레이크아웃, 셀프 플레이 퐁을 작성했으며, 모두 라이브러리가 없는 단일 독립형 HTML 파일이었습니다. 네 가지 모두 하나의 OpenAI 호환 API 뒤에서 EmpirioLabs 실행됩니다.

네 명 모두가 조립하는 모습을 지켜보세요

우리가 진행한 방법

각 프롬프트는 각 모델에 한 번의 사용자 메시지로 전달되었고, 편집 없이 정확히 렌더링되었습니다. 추론 노력은 최대치로 설정되어 있었다. 온도 오버라이드도 없고 시스템 알림도 없었습니다. 최대 출력은 32,000 토큰이었습니다. 모든 프롬프트는 모든 CSS와 자바스크립트가 인라인에 포함된 단일 독립형 HTML 파일로 자동 플레이 게임을 요청했고, 외부 라이브러리나 CDN, 가져오기 기능이 없었습니다.

결과

네 모델 모두 첫 시도에서 모든 프롬프트에서 작동하는 단일 파일 게임을 반환했습니다. 각 답변의 크기는 최종 HTML 파일의 줄 단위입니다.

테스트	김이 K2.7 이름 *	딥시크 V4 프로	Qwen3.7 맥스	GLM 5.2
셀프 플레이 스네이크	374개 라인	744개 라인	460 라인	526 라인
셀프 플레이 브레이크아웃	295개 라인	762개 라인	335 라인	370개 라인
셀프 플레이 퐁	240개 라인	640 라인	258개 라인	321 라인

우리가 알아차린 점

모든 모델이 처음부터 플레이 가능한 게임을 출시했지만, 그 과정은 매우 달랐습니다. DeepSeek V4 Pro는 세 가지 작업 모두에서 가장 많은 코드를 작성했으며, 종종 다른 작업보다 두 배 이상 많은 코드를 작성했습니다. Kimi K2.7 코드가 가장 간결했습니다. Qwen3.7 Max와 GLM 5.2는 그 사이에 착륙했습니다. 대사가 많다고 해서 좋거나 나쁜 것은 아니므로, 각 게임이 실제로 영상에서 어떻게 보이고 플레이되는지를 주목해야 합니다. 우리는 승자를 발표하지 않습니다. 본인이 원하는 방식으로 작업하는 결과를 가진 사람을 선택하세요.

직접 같은 검사를 해보세요

네 가지 모두 OpenAI 호환 채팅 완성 API를 제공하므로 비교는 한 줄만 가능합니다. 요점 base_url at https://api.empiriolabs.ai/v1 에 그리고 모델 ID를 설정하세요.

curl https://api.empiriolabs.ai/v1/chat/completions \ -h "권한: 보유자 $EMPIRIOLABS_API_KEY" \ -h "콘텐츠-타입: application/json" \ -d '{ "model": "kimi-k2-7-code", "messages": [{"role": "user", "content": "라이브러리 없이 단일 HTML 파일로 셀프 플레이 Snake 게임을 구축하세요."}}] }''

스왑 "모델" 로 deepseek-v4-pro·, qwen3-7-max, 또는 glm-5-2 에 그리고 다시 실행하세요. 모든 프론티어 모델은 동일한 API 뒤에 존재하기 때문에, 코드를 변경하지 않고도 자신의 프롬프트에서 비교할 수 있습니다. 또한 네 개를 나란히 진행할 수도 있습니다. 뚱 베어·.

자주 묻는 질문

어떤 코딩 모델이 테스트되었나요?

Moonshot AI의 Kimi K2.7 코드, DeepSeek V4 Pro, Alibaba의 Qwen3.7 Max, Z.ai 의 GLM 5.2 코드입니다. 네 개 모두 하나의 OpenAI 호환 API를 통해 EmpirioLabs에서 실행됩니다.

세 가지 과제는 무엇이었나요?

셀프 플레이하는 스네이크, 셀프 플레이 브레이크아웃, 셀프 플레이 퐁 모두 외부 라이브러리가 없는 단일 독립형 HTML 파일로, 사용자 입력 없이 스스로 플레이합니다.

편집하거나 재시도한 부분이 있나요?

아니. 각 모델은 프롬프트당 한 번씩 촬영했고, 작동하든 안 하든 반환된 대로 렌더링했습니다.

어떤 모델이 가장 많은 코드를 작성했나요?

DeepSeek V4 Pro는 세 가지 작업 모두에서 가장 많은 줄을 썼고, Kimi K2.7 Code는 가장 적은 글을 썼습니다. 라인 수는 품질이 아니라 규모의 척도일 뿐이니, 각 경기가 어떻게 진행되는지 클립을 보면 됩니다.

모델을 어떻게 전환하나요?

한 줄만 바꿔. 이 네 가지 모두 OpenAI 채팅 완성 API를 제공합니다. https://api.empiriolabs.ai/v1 에모델 ID를 설정하고 나머지 요청은 변경하지 않게 유지하면 됩니다.

한번 해보세요

놀이터 열기 · 모든 모델을 둘러보기 · 제품정보

Kimi vs DeepSeek vs Qwen vs GLM: AI 코딩 모델 비교

네 명 모두가 조립하는 모습을 지켜보세요

우리가 진행한 방법

결과

우리가 알아차린 점

직접 같은 검사를 해보세요