EmpirioLabs AI

四路编码测试：Kimi K2.7 代码、DeepSeek V4 Pro、Qwen3.7 Max 和 GLM 5.2，每个版本都从单个 HTML 文件渲染一个自玩的 Breakout 游戏。

Jun 24, 2026

EmpirioLabs AI

我们给四个Frontier编码模型同样的三个游戏提示，让他们自行构建。不修改，不重试。 Kimi K2.7 (韩语) 代码来自Moonshot AI， DeepSeek V4 Pro, (中文), Qwen 3.7 Max 来自阿里巴巴，以及 GLM 5.2 从 Z.ai 开始，他们各自编写了一个自玩的Snake、一个自玩的Breakout和一个自玩的Pong，每个都是一个独立的HTML文件，没有库。这四个都运行在EmpirioLabs上，基于一个兼容OpenAI的API。

看四个人一起建造

我们的运行方式

每个提示都以一条用户消息的形式发送给每个模型，一次拍摄，完全按照回复方式渲染，没有任何修改。推理努力被调到了最大。没有温度覆盖，也没有系统提示。最大输出为32000个代币。每个提示都要求一个自玩游戏，作为一个独立的HTML文件，所有CSS和JavaScript都内联，没有外部库，没有CDN和导入。

结果

四个模型在第一次尝试时，每个提示都返回了一个可运行的单档游戏。以下是每个答案的大小，以最终HTML文件的行数表示。

测试	Kimi K2.7 (韩语) 代码	DeepSeek V4 Pro	Qwen 3.7 Max	GLM 5.2
自演蛇	374条线路	744条线路	460条线路	526行
自制突围	295条线路	762条线路	335条线路	370条线路
自玩乒乓	240条线路	640条线路	258条线路	321条线

我们注意到的情况

每个模型第一次尝试都会推出可玩的游戏，但它们实现的方式截然不同。DeepSeek V4 Pro 在这三项任务上编写的代码数量远远超过其他两倍。Kimi K2.7 代码是最简洁的。Qwen3.7 Max 和 GLM 5.2 则在中间降落。台词多并不意味着更好或更差，所以关键是看每款游戏在片段中的实际画面和玩法。我们不会公布赢家。选择那个产出符合你工作方式的项目。

你自己也做同样的测试

这四个都服务于 OpenAI 兼容的聊天完成 API，所以比较只需一句话。要点 base_url 在 https://api.empiriolabs.ai/v1 (英语) 并设置型号ID。

curl https://api.empiriolabs.ai/v1/chat/completions \ -h “授权：承载者 $EMPIRIOLABS_API_KEY” \ -H “内容类型：application/json” \ -d '{ “model”： “kimi-k2-7-code”， “messages”： [{“role”： “user”， “content”： “构建一个自玩的蛇游戏，作为单一 HTML 文件，无库。”}] }''

交换 “模型” 到 deepseek-v4-pro, (中文), qwen3-7-max，或者 glm-5-2 (英语) 再跑一遍。每个Frontier模型都存在同一个API，所以你可以在自己的提示词中比较它们，而不使用修改代码。你也可以把四个角色并排运行在操场。。。.

常见问题解答

测试了哪些编码模型？

来自Moonshot AI的Kimi K2.7代码，DeepSeek V4 Pro，阿里巴巴的Qwen 3.7 Max，以及 Z.ai 的GLM 5.2。这四个都通过一个兼容 OpenAI 的 API 运行在 EmpirioLabs 上。

这三项任务是什么？

一个自玩的Snake、一个自玩的Breakout和一个自玩的Pong，每个都是独立的HTML文件，没有外部库，且无需用户输入即可自行运行。

有没有什么修改或重试过的内容？

不。每个模型每个提示只有一次机会，我们渲染的完全是它返回的，无论是否能用。

哪个模型写了最多代码？

DeepSeek V4 Pro 在这三项任务中写入最多行，Kimi K2.7 Code 写入最少。线数只是衡量规模，不是质量，所以请观看视频，了解每场比赛的玩法。

我该如何在不同型号之间切换？

换一根弦。这四个平台都服务于 OpenAI 聊天完成 API，地址为 https://api.empiriolabs.ai/v1 (英语)所以你设置模型ID，保持请求的其他部分不变。

试试看吧

打开游乐场 | 浏览所有车型 | 定价

Kimi vs DeepSeek vs Qwen vs GLM：AI 编码模型对比

看四个人一起建造

我们的运行方式

结果

我们注意到的情况

你自己也做同样的测试