أعطينا أربعة نماذج برمجة فرونتير نفس ثلاثة تعليمات للعبة وتركناهم يبنون. لا تعديلات، لا محاولات. رمز كيمي K2.7 من Moonshot AI, ديب سيك V4 برو, كوين 3.7 ماكس من علي بابا، و GLM 5.2 من Z.ai كتب كل منهم لعبة Snake ذاتية اللعب، وBreakout ذاتية اللعب، وPong ذاتية اللعب، كل واحدة منها ملف HTML مكتفي بنفسه بدون مكتبات. تعمل جميع الأربعة على EmpirioLabs خلف واجهة برمجة تطبيقات واحدة متوافقة مع OpenAI.
شاهد الأربعة جميعا يبنونها
كيف أدرناها
كل طلب كان يذهب إلى كل نموذج كرسالة مستخدم واحدة، لقطة واحدة، تعرض تماما كما تم إرجاعها دون أي تعديلات. تم ضبط جهد الاستدلال على الحد الأقصى. لا يوجد تجاوز للحرارة ولا يوجد إشعار للنظام. كان الحد الأقصى للإنتاج 32000 رمز. كل طلب لعبة ذاتية التشغيل كملف HTML مستقل مع جميع ملفات CSS وJavaScript مداخلة، بدون مكتبات خارجية، ولا CDN، ولا استيراد.
النتائج
جميع النماذج الأربعة أعادت لعبة ملف واحد تعمل في كل طلب من المحاولة الأولى. إليك حجم كل إجابة، في أسطر ملف HTML النهائي.
| اختبار | رمز كيمي K2.7 | ديب سيك V4 برو | كوين 3.7 ماكس | GLM 5.2 |
|---|---|---|---|---|
| الأفعى التي تلعب ذاتها | 374 خطا | 744 خط | 460 خطا | 526 خطا |
| الهروب الذاتي اللعب | 295 خطا | 762 خط | 335 خطا | 370 خطا |
| بونغ الذاتي اللعب | 240 خطا | 640 خط | 258 خطا | 321 خطا |
ما لاحظناه
كل موديل كان يصدر لعبة قابلة للعب من المحاولة الأولى، لكنهم وصلوا إلى ذلك بطرق مختلفة تماما. كتب DeepSeek V4 Pro أكبر عدد من الكود في المهام الثلاث جميعها، وغالبا ما يكون أكثر من ضعف أسطر الكتب الأخرى. كان Kimi K2.7 Code هو الأكثر إيجازا. هبطت Qwen3.7 Max وGLM 5.2 في المنتصف. المزيد من الحوارات ليس أفضل أو أسوأ بحد ذاته، لذا الشيء الذي يجب متابعته هو كيف تبدو كل لعبة وكيف تلعب في المقطع. نحن لا نعلن فائزا. اختر الشخص الذي يتناسب مع طريقة عملك في الإنتاج.
قم بإجراء نفس الاختبار بنفسك
جميع الأربعة تخدم واجهة برمجة تطبيقات إكمال الدردشة المتوافقة مع OpenAI، لذا فإن مقارنتها تتطلب تغييرا في سطر واحد. النقطة base_url في https://api.empiriolabs.ai/v1 وتعيين معرف النموذج.
curl https://api.empiriolabs.ai/v1/chat/completions \ -H "التفويض: حامل $EMPIRIOLABS_API_KEY" \ -H "CONTENT-TYPE: application/json" \ -d '{ "model": "kimi-k2-7-code", "messages": [{"role": "user", "content": "ابن لعبة Snake ذاتية اللعب كملف HTML واحد، بدون مكتبات."}] }'
تبديل "عارضة" إلى deepseek-v4-pro, qwen3-7-max، أو glm-5-2 وأعيد تشغيله. كل نموذج Frontier يعيش خلف نفس واجهة برمجة التطبيقات (API)، لذا يمكنك مقارنتها على التعليمات الخاصة بك دون تغيير الكود. يمكنك أيضا تشغيل الأربعة جنبا إلى جنب في الملعب.
الأسئلة الشائعة
ما هي نماذج البرمجة التي تم اختبارها؟
Kimi K2.7 Code من Moonshot AI، DeepSeek V4 Pro، Qwen3.7 Max من Alibaba، وGLM 5.2 من Z.ai. تعمل جميع الأجهزة الأربعة على EmpirioLabs عبر واجهة برمجة تطبيقات واحدة متوافقة مع OpenAI.
ما هي المهام الثلاث؟
سنيك ذاتي اللعب، بريك آوت ذاتي، وبونغ ذاتي التشغيل، كل منها ملف HTML مستقل بدون مكتبات خارجية، يلعب نفسه دون تدخل المستخدم.
هل تم تعديل أو إعادة تجربة أي شيء؟
لا. كل نموذج حصل على لقطة واحدة لكل طلب وكنا نعرض بالضبط ما أعاده، سواء كان يعمل أم لا.
أي موديل كتب أكبر عدد من الكود؟
كتب DeepSeek V4 Pro أكبر عدد من الأسطر في المهام الثلاث، وكتب Kimi K2.7 Code أقل عدد من الأسطر. عدد الخطوط هو مجرد مقياس للحجم، وليس الجودة، لذا شاهد المقطع لترى كيف تسير كل مباراة.
كيف يمكنني التبديل بين النموذجين؟
غير وتر واحد. جميع هذه الشبكات الأربعة تخدم واجهة برمجة تطبيقات OpenAI لإكمال الدردشة في https://api.empiriolabs.ai/v1، لذا تضبط معرف النموذج وتحافظ على بقية الطلب دون تغيير.



