首页 博客

Fugu Ultra 与 GLM 5.2:五项编码测试的比较

并排编码测试:Fugu Ultra 和 GLM 5.2 分别从单个 HTML 文件渲染等离子特效,分别在 EmpirioLabs 上。

Jun 24, 2026

EmpirioLabs AI

我们给两个Frontier模型提供了完全相同的五个编程提示,并记录了每个模型各自构建的内容。没有修改,没有重试,没有挑选。 Fugu Ultra 来自Sakana AI和 GLM 5.2 从 Z.ai 开始,他们各自编写了一个自玩的《小行星》、一个自动玩的《乒乓》、一个等离子场、一个虫洞隧道和一个超空间星域,每一个都是没有库的独立HTML文件。两个模型都运行在一个兼容 OpenAI 的 API 后EmpirioLabs,所以这是一个交换型号名称的请求体。

观看全部五场测试赛

我们的运行方式

每个提示都以一条用户消息的形式发送给每个模型,一次性渲染,我们渲染出的完全相同,没有任何修改。推理努力都设置为最大。Fugu Ultra始终运行着思维,GLM 5.2则发挥了最高推理力度。没有温度覆盖,也没有系统提示。最大输出为32000个代币。每个提示都要求一个包含所有CSS和JavaScript的独立HTML文件,没有外部库,没有CDN链接,也没有导入。

结果

两种模型在第一次尝试时都返回了所有五个提示的可用代码。这是每个答案的大小,以最终HTML文件的行数为单位。

测试Fugu UltraGLM 5.2
自动玩小行星948条线656条线路
自玩乒乓486条线路412条线
等离子体场298条线路131行
虫洞隧道255条线路199条线路
超空间星域241条线路166条线路

我们注意到的情况

这两款机型在内部工作原理差异很大,测试结果显示了这一点。Fugu Ultra 是一种多智能体编排模型:它在回答前会运行多次内部推理,因此每个任务花费的时间更长,同时产生了更多的推理。而且每个提示词都写了更多代码。GLM 5.2 是一种快速的单遍模型,拥有 1M 令牌上下文窗口,且返回更紧凑的文件时间极短。这两种做法都不是赢家。它们是为不同工作设计的,合适的选择取决于你想要每个请求的最大深度,还是想要速度和容量。

我们并不是故意提名获奖者。看视频,看看每个渲染的效果和表现,然后根据你的实际情况判断。

你自己也做同样的测试

这两种型号都支持OpenAI兼容的聊天完成API,因此切换只需一行即可。要点 base_urlhttps://api.empiriolabs.ai/v1 (英语) 并将模型ID设置为 Fugu-Ultraglm-5-2 (英语)。 。 。.

curl https://api.empiriolabs.ai/v1/chat/completions \ -h “授权:承载者 $EMPIRIOLABS_API_KEY” \ -h “内容类型:application/json” \ -d '{ “model”: “fugu-ultra”, “messages”: [{“role”: “user”, “content”: “构建一个自玩的Asteroids游戏,作为单一HTML文件,不包含库。”}] }''

变化 “型号”:“Fugu-Ultra”“模特”:“glm-5-2” 再跑一遍。这正是EmpirioLabs的全部意义:每个前沿模型都支持一个API,这样你可以在自己的提示词上比较它们,而无需重新布线。你也可以把两者并排运行在 操场。 。 。.

常见问题解答

测试了哪些型号?

Sakana AI 的 Fugu Ultra 和 Z.ai 的 GLM 5.2,都通过一个兼容 OpenAI 的 API 在EmpirioLabs上提供。

五个编码任务是什么?

一款自动游玩的《小行星》游戏,一款自动游玩的乒乓游戏,一个演示场景的等离子特效,一个无限虫洞隧道,以及一个超空间星域曲速。每个都必须是一个独立的 HTML 文件,没有外部库。

有没有什么修改或重试过的内容?

不。每个模型每个提示只有一次机会,我们渲染的完全是它返回的。无论结果好坏,我们都保留了。

为什么Fugu Ultra需要更长时间?

Fugu Ultra 是一种多智能体编排模型,具有始终在线的推理。它在接听前会进行多次内部传球,这在速度和深度之间做出了牺牲。GLM 5.2 一遍就能回答。

我该如何在这两种型号之间切换?

换一根弦。两者都支持 OpenAI 聊天完成 API,地址为 https://api.empiriolabs.ai/v1 (英语),所以你将模型ID设置为 Fugu-Ultraglm-5-2 (英语) 其他一切都保持不变。

试试看吧

打开游乐场 | Fugu Ultra模型页面 | GLM 5.2 型号页面 | 定价

准备好使用更好的终端了吗?

欢迎浏览我们的模型,或联系我们洽谈业务咨询、定制部署或其他任何事宜。