我们给四个Frontier编码模型同样的三个游戏提示,让他们自行构建。不修改,不重试。 Kimi K2.7 (韩语) 代码 来自Moonshot AI, DeepSeek V4 Pro, (中文), Qwen 3.7 Max 来自阿里巴巴,以及 GLM 5.2 从 Z.ai 开始,他们各自编写了一个自玩的Snake、一个自玩的Breakout和一个自玩的Pong,每个都是一个独立的HTML文件,没有库。这四个都运行在EmpirioLabs上,基于一个兼容OpenAI的API。
看四个人一起建造
我们的运行方式
每个提示都以一条用户消息的形式发送给每个模型,一次拍摄,完全按照回复方式渲染,没有任何修改。推理努力被调到了最大。没有温度覆盖,也没有系统提示。最大输出为32000个代币。每个提示都要求一个自玩游戏,作为一个独立的HTML文件,所有CSS和JavaScript都内联,没有外部库,没有CDN和导入。
结果
四个模型在第一次尝试时,每个提示都返回了一个可运行的单档游戏。以下是每个答案的大小,以最终HTML文件的行数表示。
| 测试 | Kimi K2.7 (韩语) 代码 | DeepSeek V4 Pro | Qwen 3.7 Max | GLM 5.2 |
|---|---|---|---|---|
| 自演蛇 | 374条线路 | 744条线路 | 460条线路 | 526行 |
| 自制突围 | 295条线路 | 762条线路 | 335条线路 | 370条线路 |
| 自玩乒乓 | 240条线路 | 640条线路 | 258条线路 | 321条线 |
我们注意到的情况
每个模型第一次尝试都会推出可玩的游戏,但它们实现的方式截然不同。DeepSeek V4 Pro 在这三项任务上编写的代码数量远远超过其他两倍。Kimi K2.7 代码是最简洁的。Qwen3.7 Max 和 GLM 5.2 则在中间降落。台词多并不意味着更好或更差,所以关键是看每款游戏在片段中的实际画面和玩法。我们不会公布赢家。选择那个产出符合你工作方式的项目。
你自己也做同样的测试
这四个都服务于 OpenAI 兼容的聊天完成 API,所以比较只需一句话。要点 base_url 在 https://api.empiriolabs.ai/v1 (英语) 并设置型号ID。
curl https://api.empiriolabs.ai/v1/chat/completions \ -h “授权:承载者 $EMPIRIOLABS_API_KEY” \ -H “内容类型:application/json” \ -d '{ “model”: “kimi-k2-7-code”, “messages”: [{“role”: “user”, “content”: “构建一个自玩的蛇游戏,作为单一 HTML 文件,无库。”}] }''
交换 “模型” 到 deepseek-v4-pro, (中文), qwen3-7-max,或者 glm-5-2 (英语) 再跑一遍。每个Frontier模型都存在同一个API,所以你可以在自己的提示词中比较它们,而不使用修改代码。你也可以把四个角色并排运行在 操场。 。 。.
常见问题解答
测试了哪些编码模型?
来自Moonshot AI的Kimi K2.7代码,DeepSeek V4 Pro,阿里巴巴的Qwen 3.7 Max,以及 Z.ai 的GLM 5.2。这四个都通过一个兼容 OpenAI 的 API 运行在 EmpirioLabs 上。
这三项任务是什么?
一个自玩的Snake、一个自玩的Breakout和一个自玩的Pong,每个都是独立的HTML文件,没有外部库,且无需用户输入即可自行运行。
有没有什么修改或重试过的内容?
不。每个模型每个提示只有一次机会,我们渲染的完全是它返回的,无论是否能用。
哪个模型写了最多代码?
DeepSeek V4 Pro 在这三项任务中写入最多行,Kimi K2.7 Code 写入最少。线数只是衡量规模,不是质量,所以请观看视频,了解每场比赛的玩法。
我该如何在不同型号之间切换?
换一根弦。这四个平台都服务于 OpenAI 聊天完成 API,地址为 https://api.empiriolabs.ai/v1 (英语)所以你设置模型ID,保持请求的其他部分不变。



