أعطينا نموذجين من Frontier نفس خمسة تعليمات ترميز بالضبط وسجلنا ما يبنيه كل منهما. لا تعديلات، لا محاولات، لا انتقاء دقيق. فوجو ألترا من Sakana AI و GLM 5.2 من Z.ai كتب كل منهم لعبة Asteroids ذاتية اللعب، ولعبة Pong ذاتية اللعب، وحقل بلازما، ونفق ثقوب دودية، وحقل نجمي في الفضاء الفائق، كل واحدة منها ملف HTML مستقل بدون مكتبات. كلا الطرازين يعملان على EmpirioLabs خلف واجهة برمجة تطبيقات متوافقة مع OpenAI، لذا كان هذا هو نموذج واحد مع تبديل اسم النموذج.
شاهد جميع الاختبارات الخمسة
كيف أدرناها
كل طلب كان يذهب إلى كل نموذج كرسالة مستخدم واحدة، لقطة واحدة، ونقوم بعرض ما عاد بالضبط دون أي تعديلات. تم ضبط جهد التفكير على الحد الأقصى لكليهما. يعمل فوجو ألترا دائما على تفكيره، وGLM 5.2 كان أعلى مستوى من المنطق. لا يوجد تجاوز للحرارة ولا يوجد إشعار للنظام. كان الحد الأقصى للإنتاج 32000 رمز. كل طلب ملف HTML مكتفي بنفسه يحتوي على جميع ملفات CSS وJavaScript المدمجة، بدون مكتبات خارجية، ولا روابط CDN، ولا استيراد.
النتائج
أعاد كلا الطرازين كودا يعمل على جميع التعليمات الخمسة في المحاولة الأولى. إليك حجم كل إجابة، مقاس بأسطر ملف HTML النهائي.
| اختبار | فوجو ألترا | GLM 5.2 |
|---|---|---|
| الكويكبات التي تلعب ذاتيا | 948 خطوط | 656 خط |
| بونغ الذاتي اللعب | 486 خطا | 412 خطا |
| حقل البلازما | 298 خطا | 131 خطا |
| نفق الثقب الدودي | 255 خطا | 199 خطا |
| حقل الفضاء الفائق | 241 خطا | 166 خطا |
ما لاحظناه
يعمل الطرازان بشكل مختلف تماما تحت غطاء المحرك، والاختبار يظهر ذلك. Fugu Ultra هو نموذج تنسيق متعدد الوكلاء: ينفذ عدة تمريرات استدلالية داخلية قبل أن يجيب، لذا قضى وقتا أطول بكثير لكل مهمة وأنتج المزيد من التفكير على طول الطريق. كما كتب المزيد من أسطر الكود في كل موجه. GLM 5.2 هو نموذج سريع بمرور واحد مع نافذة سياق رمزية بمقدار 1 مليون، وكان يعيد ملفات أكثر إحكاما في جزء بسيط من الوقت. لا أحد من الطريقتين هو الفائز هنا. تم تصميمها لمهام مختلفة، والاختيار الصحيح يعتمد على ما إذا كنت تريد أقصى عمق لكل طلب أو سرعة وحجم عمل.
نحن لا نعلن فائزا عن قصد. شاهد المقطع، شاهد كيف يبدو كل عرض ويتصرف، وقرر حسب استخدامك الخاص.
قم بإجراء نفس الاختبار بنفسك
كلا النموذجين يخدمان واجهة برمجة تطبيقات إكمال الدردشة المتوافقة مع OpenAI، لذا فإن التبديل بينهما يتطلب تغييرا في سطر واحد. النقطة base_url في https://api.empiriolabs.ai/v1 وتعيين معرف النموذج إلى فوغو-ألترا أو glm-5-2.
curl https://api.empiriolabs.ai/v1/chat/completions \ -H "التفويض: حامل $EMPIRIOLABS_API_KEY" \ -H "نوع المحتوى: application/json" \ -d '{ "model": "fugu-ultra", "messages": [{"role": "user", "content": "ابن لعبة Asteroids ذاتية اللعب كملف HTML واحد، بدون مكتبات."}] }'
التغيير "موديل": "فوغو-ألترا" إلى "عارض": "glm-5-2" وأعيد تشغيله. هذه هي الفكرة الأساسية من EmpirioLabs: كل نموذج Frontier خلف واجهة برمجة تطبيقات واحدة، حتى تتمكن من مقارنتها على التوجيهات الخاصة بك دون إعادة توصيل أي شيء بنفسك. يمكنك أيضا تشغيل الاثنين جنبا إلى جنب في الملعب.
الأسئلة الشائعة
ما هي الطرازات التي تم اختبارها؟
Fugu Ultra من Sakana AI وGLM 5.2 من Z.ai، وكلاهما متوفر على EmpirioLabs عبر واجهة برمجة تطبيقات متوافقة مع OpenAI.
ما هي خمس مهام برمجية؟
لعبة كويكب ذاتية اللعب، لعبة بونغ ذاتية اللعب، تأثير بلازما ديموسين، نفق ثقوب دودية لا نهائية، وانحراف في حقل فضائي فائق. كان يجب أن يكون كل ملف HTML مستقل واحد بدون مكتبات خارجية.
هل تم تعديل أو إعادة تجربة أي شيء؟
لا. كل نموذج حصل على لقطة واحدة لكل طلب وكنا نعرض بالضبط ما أعاده. احتفظنا بالنتيجة سواء بدت رائعة أم لا.
لماذا يستغرق فوجو ألترا وقتا أطول؟
فوجو ألترا هو نموذج تنسيق متعدد الوكلاء مع تفكير دائم التشغيل. يجري عدة تمريرات داخلية قبل الرد، مما يبدل السرعة بالعمق. يجيب GLM 5.2 في مرور واحد.
كيف يمكنني التبديل بين الطرازين؟
غير وتر واحد. كلاهما يخدم واجهة برمجة تطبيقات OpenAI لإكمال الدردشة في https://api.empiriolabs.ai/v1، لذا تضبط معرف النموذج على فوغو-ألترا أو glm-5-2 وكل شيء آخر يبقى كما هو.
جربها
افتح الملعب | صفحة نموذج فوجو ألترا | صفحة موديل GLM 5.2 | التسعير



