EmpirioLabs AI

Prueba de codificación lado a lado: Fugu Ultra y GLM 5.2 renderizando cada uno un efecto plasma a partir de un único archivo HTML, en EmpirioLabs.

Jun 24, 2026

EmpirioLabs AI

Dimos a dos modelos frontera exactamente los mismos cinco indicios de codificación y registramos lo que cada uno construyó. Sin editos, sin repeticiones, sin selecciones selectivas. Fugu Ultra de Sakana AI y GLM 5.2 de Z.ai cada uno escribió un Asteroides auto-jugable, un Pong auto-jugable, un campo de plasma, un túnel de agujero de gusano y un campo estelar de hiperespacio, cada uno un archivo HTML autónomo sin bibliotecas. Ambos modelos funcionan en EmpirioLabs detrás de una API compatible con OpenAI, así que esto fue un cuerpo de solicitud con el nombre del modelo intercambiado.

Mira los cinco tests

Cómo lo gestionamos

Cada prompt iba a cada modelo como un mensaje de usuario, un solo shot, y renderizábamos exactamente lo que daba sin ninguna edición. El esfuerzo de razonamiento estaba al máximo para ambos. Fugu Ultra mantiene su pensamiento siempre activo, y GLM 5.2 funcionó en su máximo esfuerzo de razonamiento. No hay anulación de temperatura ni aviso del sistema. La producción máxima era de 32.000 tokens. Cada prompt pedía un único archivo HTML autónomo con todo CSS y JavaScript en línea, sin bibliotecas externas, sin enlaces CDN y sin importaciones.

Los resultados

Ambos modelos devolvieron código funcional en los cinco prompts en el primer intento. Aquí está el tamaño de cada respuesta, medido en líneas del archivo HTML final.

Test	Fugu Ultra	GLM 5.2
Asteroides auto-jugables	948 líneas	656 líneas
Pong auto-jugable	486 líneas	412 líneas
Campo de plasma	298 líneas	131 líneas
Túnel de agujero de gusano	255 líneas	199 líneas
Campo estelar del hiperespacio	241 líneas	166 líneas

Lo que hemos notado

Los dos modelos funcionan de forma muy diferente bajo el capó, y la prueba lo demuestra. Fugu Ultra es un modelo de orquestación multiagente: ejecuta varias pasadas internas de razonamiento antes de responder, por lo que tardaba mucho más tiempo por tarea y producía mucho más razonamiento en el proceso. También escribía más líneas de código en cada prompt. GLM 5.2 es un modelo rápido de paso único con una ventana de contexto de token de 1M, y devolvía archivos más compactos en una fracción del tiempo. Ninguno de los dos enfoques es el ganador aquí. Están diseñados para diferentes trabajos, y la elección correcta depende de si quieres la máxima profundidad por petición o velocidad y volumen.

No estamos nombrando un ganador a propósito. Mira el vídeo, observa cómo se ve y se comporta cada render, y juzga según tu propio caso de uso.

Haz la misma prueba tú mismo

Ambos modelos sirven con la API Chat Completions compatible con OpenAI, por lo que cambiar entre ellos es un cambio de una sola línea. Point base_url en https://api.empiriolabs.ai/v1 y fijar el id del modelo en FUGU-ULTRA o glm-5-2.

curl https://api.empiriolabs.ai/v1/chat/completions \ -H "Autorización: Portador $EMPIRIOLABS_API_KEY" \ -H "Tipo-Contenido: application/json" \ -d '{ "modelo": "fugu-ultra", "mensajes": [{"rol": "usuario", "contenido": "Construye un juego Asteroids auto-jugable como un único archivo HTML, sin bibliotecas."}] }'

Cambio "modelo": "fugu-ultra" a "modelo": "glm-5-2" y lo vuelvo a ejecutar. Ese es el objetivo de EmpirioLabs: cada modelo de frontera detrás de una API, para que puedas compararlos en tus propios prompts sin tener que reconfigurar nada. También puedes hacer que ambos estén lado a lado en el parque infantil.

Preguntas frecuentes

¿Qué modelos se probaron?

Fugu Ultra de Sakana AI y GLM 5.2 de Z.ai, ambos disponibles en EmpirioLabs a través de una API compatible con OpenAI.

¿Cuáles eran las cinco tareas de programación?

Un juego de Asteroids auto-jugable, un juego de Pong auto-jugable, un efecto de plasma en demoscene, un túnel de agujero de gusano infinito y un warp estelar hiperespacial. Cada una tenía que ser un único archivo HTML autónomo sin bibliotecas externas.

¿Se editó o volvió a intentar algo?

No. Cada modelo tenía una oportunidad por prompt y renderizábamos exactamente lo que devolvía. Mantuvimos el resultado, estuviera genial o no.

¿Por qué Fugu Ultra tarda más?

Fugu Ultra es un modelo de orquestación multiagente con razonamiento siempre activado. Realiza múltiples pasadas internas antes de responder, lo que cambia velocidad por profundidad. GLM 5.2 responde en una sola pasada.

¿Cómo cambio entre los dos modelos?

Cambia una cuerda. Ambos sirven a la API de Completación de Chats de OpenAI en https://api.empiriolabs.ai/v1, así que se establece el id del modelo en FUGU-ULTRA o glm-5-2 Y todo lo demás sigue igual.

Pruébalo

Abrir el parque infantil Silencio Página de modelos Fugu Ultra Silencio Página del modelo GLM 5.2 Silencio Precios

Fugu Ultra vs GLM 5.2: Cinco pruebas de codificación comparadas

Mira los cinco tests

Cómo lo gestionamos

Los resultados

Lo que hemos notado

Haz la misma prueba tú mismo