我们给两个Frontier模型提供了完全相同的五个编程提示,并记录了每个模型各自构建的内容。没有修改,没有重试,没有挑选。 Fugu Ultra 来自Sakana AI和 GLM 5.2 从 Z.ai 开始,他们各自编写了一个自玩的《小行星》、一个自动玩的《乒乓》、一个等离子场、一个虫洞隧道和一个超空间星域,每一个都是没有库的独立HTML文件。两个模型都运行在一个兼容 OpenAI 的 API 后EmpirioLabs,所以这是一个交换型号名称的请求体。
观看全部五场测试赛
我们的运行方式
每个提示都以一条用户消息的形式发送给每个模型,一次性渲染,我们渲染出的完全相同,没有任何修改。推理努力都设置为最大。Fugu Ultra始终运行着思维,GLM 5.2则发挥了最高推理力度。没有温度覆盖,也没有系统提示。最大输出为32000个代币。每个提示都要求一个包含所有CSS和JavaScript的独立HTML文件,没有外部库,没有CDN链接,也没有导入。
结果
两种模型在第一次尝试时都返回了所有五个提示的可用代码。这是每个答案的大小,以最终HTML文件的行数为单位。
| 测试 | Fugu Ultra | GLM 5.2 |
|---|---|---|
| 自动玩小行星 | 948条线 | 656条线路 |
| 自玩乒乓 | 486条线路 | 412条线 |
| 等离子体场 | 298条线路 | 131行 |
| 虫洞隧道 | 255条线路 | 199条线路 |
| 超空间星域 | 241条线路 | 166条线路 |
我们注意到的情况
这两款机型在内部工作原理差异很大,测试结果显示了这一点。Fugu Ultra 是一种多智能体编排模型:它在回答前会运行多次内部推理,因此每个任务花费的时间更长,同时产生了更多的推理。而且每个提示词都写了更多代码。GLM 5.2 是一种快速的单遍模型,拥有 1M 令牌上下文窗口,且返回更紧凑的文件时间极短。这两种做法都不是赢家。它们是为不同工作设计的,合适的选择取决于你想要每个请求的最大深度,还是想要速度和容量。
我们并不是故意提名获奖者。看视频,看看每个渲染的效果和表现,然后根据你的实际情况判断。
你自己也做同样的测试
这两种型号都支持OpenAI兼容的聊天完成API,因此切换只需一行即可。要点 base_url 在 https://api.empiriolabs.ai/v1 (英语) 并将模型ID设置为 Fugu-Ultra 或 glm-5-2 (英语)。 。 。.
curl https://api.empiriolabs.ai/v1/chat/completions \ -h “授权:承载者 $EMPIRIOLABS_API_KEY” \ -h “内容类型:application/json” \ -d '{ “model”: “fugu-ultra”, “messages”: [{“role”: “user”, “content”: “构建一个自玩的Asteroids游戏,作为单一HTML文件,不包含库。”}] }''
变化 “型号”:“Fugu-Ultra” 到 “模特”:“glm-5-2” 再跑一遍。这正是EmpirioLabs的全部意义:每个前沿模型都支持一个API,这样你可以在自己的提示词上比较它们,而无需重新布线。你也可以把两者并排运行在 操场。 。 。.
常见问题解答
测试了哪些型号?
Sakana AI 的 Fugu Ultra 和 Z.ai 的 GLM 5.2,都通过一个兼容 OpenAI 的 API 在EmpirioLabs上提供。
五个编码任务是什么?
一款自动游玩的《小行星》游戏,一款自动游玩的乒乓游戏,一个演示场景的等离子特效,一个无限虫洞隧道,以及一个超空间星域曲速。每个都必须是一个独立的 HTML 文件,没有外部库。
有没有什么修改或重试过的内容?
不。每个模型每个提示只有一次机会,我们渲染的完全是它返回的。无论结果好坏,我们都保留了。
为什么Fugu Ultra需要更长时间?
Fugu Ultra 是一种多智能体编排模型,具有始终在线的推理。它在接听前会进行多次内部传球,这在速度和深度之间做出了牺牲。GLM 5.2 一遍就能回答。
我该如何在这两种型号之间切换?
换一根弦。两者都支持 OpenAI 聊天完成 API,地址为 https://api.empiriolabs.ai/v1 (英语),所以你将模型ID设置为 Fugu-Ultra 或 glm-5-2 (英语) 其他一切都保持不变。
试试看吧
打开游乐场 | Fugu Ultra模型页面 | GLM 5.2 型号页面 | 定价



