EmpirioLabs AI

并排编码测试：Fugu Ultra 和 GLM 5.2 分别从单个 HTML 文件渲染等离子特效，分别在 EmpirioLabs 上。

Jun 24, 2026

EmpirioLabs AI

我们给两个Frontier模型提供了完全相同的五个编程提示，并记录了每个模型各自构建的内容。没有修改，没有重试，没有挑选。 Fugu Ultra 来自Sakana AI和 GLM 5.2 从 Z.ai 开始，他们各自编写了一个自玩的《小行星》、一个自动玩的《乒乓》、一个等离子场、一个虫洞隧道和一个超空间星域，每一个都是没有库的独立HTML文件。两个模型都运行在一个兼容 OpenAI 的 API 后EmpirioLabs，所以这是一个交换型号名称的请求体。

观看全部五场测试赛

我们的运行方式

每个提示都以一条用户消息的形式发送给每个模型，一次性渲染，我们渲染出的完全相同，没有任何修改。推理努力都设置为最大。Fugu Ultra始终运行着思维，GLM 5.2则发挥了最高推理力度。没有温度覆盖，也没有系统提示。最大输出为32000个代币。每个提示都要求一个包含所有CSS和JavaScript的独立HTML文件，没有外部库，没有CDN链接，也没有导入。

结果

两种模型在第一次尝试时都返回了所有五个提示的可用代码。这是每个答案的大小，以最终HTML文件的行数为单位。

测试	Fugu Ultra	GLM 5.2
自动玩小行星	948条线	656条线路
自玩乒乓	486条线路	412条线
等离子体场	298条线路	131行
虫洞隧道	255条线路	199条线路
超空间星域	241条线路	166条线路

我们注意到的情况

这两款机型在内部工作原理差异很大，测试结果显示了这一点。Fugu Ultra 是一种多智能体编排模型：它在回答前会运行多次内部推理，因此每个任务花费的时间更长，同时产生了更多的推理。而且每个提示词都写了更多代码。GLM 5.2 是一种快速的单遍模型，拥有 1M 令牌上下文窗口，且返回更紧凑的文件时间极短。这两种做法都不是赢家。它们是为不同工作设计的，合适的选择取决于你想要每个请求的最大深度，还是想要速度和容量。

我们并不是故意提名获奖者。看视频，看看每个渲染的效果和表现，然后根据你的实际情况判断。

你自己也做同样的测试

这两种型号都支持OpenAI兼容的聊天完成API，因此切换只需一行即可。要点 base_url 在 https://api.empiriolabs.ai/v1 (英语) 并将模型ID设置为 Fugu-Ultra 或 glm-5-2 (英语)。。。.

curl https://api.empiriolabs.ai/v1/chat/completions \ -h “授权：承载者 $EMPIRIOLABS_API_KEY” \ -h “内容类型：application/json” \ -d '{ “model”： “fugu-ultra”， “messages”： [{“role”： “user”， “content”： “构建一个自玩的Asteroids游戏，作为单一HTML文件，不包含库。”}] }''

变化 “型号”：“Fugu-Ultra” 到 “模特”：“glm-5-2” 再跑一遍。这正是EmpirioLabs的全部意义：每个前沿模型都支持一个API，这样你可以在自己的提示词上比较它们，而无需重新布线。你也可以把两者并排运行在操场。。。.

常见问题解答

测试了哪些型号？

Sakana AI 的 Fugu Ultra 和 Z.ai 的 GLM 5.2，都通过一个兼容 OpenAI 的 API 在EmpirioLabs上提供。

五个编码任务是什么？

一款自动游玩的《小行星》游戏，一款自动游玩的乒乓游戏，一个演示场景的等离子特效，一个无限虫洞隧道，以及一个超空间星域曲速。每个都必须是一个独立的 HTML 文件，没有外部库。

有没有什么修改或重试过的内容？

不。每个模型每个提示只有一次机会，我们渲染的完全是它返回的。无论结果好坏，我们都保留了。

为什么Fugu Ultra需要更长时间？

Fugu Ultra 是一种多智能体编排模型，具有始终在线的推理。它在接听前会进行多次内部传球，这在速度和深度之间做出了牺牲。GLM 5.2 一遍就能回答。

我该如何在这两种型号之间切换？

换一根弦。两者都支持 OpenAI 聊天完成 API，地址为 https://api.empiriolabs.ai/v1 (英语)，所以你将模型ID设置为 Fugu-Ultra 或 glm-5-2 (英语) 其他一切都保持不变。

试试看吧

打开游乐场 | Fugu Ultra模型页面 | GLM 5.2 型号页面 | 定价

Fugu Ultra 与 GLM 5.2：五项编码测试的比较

观看全部五场测试赛

我们的运行方式

结果

我们注意到的情况

你自己也做同样的测试