हमने चार फ्रंटियर कोडिंग मॉडल को एक ही तीन गेम प्रॉम्प्ट दिए और उन्हें बनाने दिया। कोई संपादन नहीं, कोई प्रयास नहीं। Kimi K2.7 कोड मूनशॉट एआई से, डीपसीक V4 प्रो, Qwen3.7 अधिकतम अलीबाबा से, और जीएलएम 5.2 Z.ai से प्रत्येक ने एक स्व-खेलने वाला सांप, एक स्व-खेल ब्रेकआउट, और एक स्व-खेलने वाला पोंग लिखा, हर एक बिना पुस्तकालयों के एक स्व-निहित HTML फ़ाइल थी। सभी चार एक OpenAI संगत API के पीछे EmpirioLabs पर चलते हैं।
चारों को इसे बनाते हुए देखें
हमने इसे कैसे चलाया
प्रत्येक संकेत प्रत्येक मॉडल पर एक उपयोगकर्ता संदेश, एक शॉट के रूप में गया, जो बिना किसी संपादन के बिल्कुल वैसा ही प्रस्तुत किया गया। तर्क प्रयास अधिकतम करने के लिए निर्धारित किया गया था। कोई तापमान ओवरराइड नहीं और कोई सिस्टम प्रॉम्प्ट नहीं। अधिकतम आउटपुट 32000 टोकन था। प्रत्येक संकेत ने सभी सीएसएस और जावास्क्रिप्ट इनलाइन के साथ एक स्व-निहित एचटीएमएल फ़ाइल के रूप में एक स्व-खेल गेम के लिए कहा, कोई बाहरी पुस्तकालय नहीं, कोई सीडीएन नहीं, और कोई आयात नहीं।
परिणाम
सभी चार मॉडलों ने पहली कोशिश में हर प्रॉम्प्ट पर एक कार्यशील एकल फ़ाइल गेम लौटाया। यहां अंतिम HTML फ़ाइल की पंक्तियों में प्रत्येक उत्तर का आकार दिया गया है।
| परीक्षा | Kimi K2.7 कोड | डीपसीक V4 प्रो | Qwen3.7 अधिकतम | जीएलएम 5.2 |
|---|---|---|---|---|
| स्व-खेल सांप | 374 लाइनें | 744 लाइनें | 460 लाइनें | 526 लाइनें |
| सेल्फ-प्लेइंग ब्रेकआउट | 295 लाइनें | 762 लाइनें | 335 लाइनें | 370 लाइनें |
| स्व-खेल पोंग | 240 लाइनें | 640 लाइनें | 258 लाइनें | 321 लाइनें |
हमने क्या देखा
प्रत्येक मॉडल ने पहले प्रयास में एक खेलने योग्य गेम भेज दिया, लेकिन वे बहुत अलग तरीकों से वहां पहुंचे। डीपलक V4 प्रो ने तीनों कार्यों पर अब तक का सबसे अधिक कोड लिखा, अक्सर दूसरों की पंक्तियों से दोगुने से अधिक। किमी K2.7 कोड सबसे संक्षिप्त था। Qwen3.7 Max और GLM 5.2 बीच में उतरे। अधिक लाइनें अपने आप में बेहतर या बदतर नहीं हैं, इसलिए देखने वाली बात यह है कि प्रत्येक गेम वास्तव में कैसा दिखता है और क्लिप में खेलता है। हम किसी विजेता का नाम नहीं ले रहे हैं। वह चुनें जिसका आउटपुट फिट बैठता है कि आप कैसे काम करना पसंद करते हैं।
वही परीक्षण स्वयं चलाएँ
ये चारों OpenAI संगत चैट पूर्णता API की सेवा करते हैं, इसलिए उनकी तुलना करना एक पंक्ति का बदलाव है। बिंदु base_url पर https://api.empiriolabs.ai/v1 और मॉडल आईडी सेट करें।
curl https://api.empiriolabs.ai/v1/chat/completions \ -H "प्राधिकरण: वाहक $EMPIRIOLABS_API_KEY" \ -h "सामग्री-प्रकार: application/json" \ -d '{ "मॉडल": "kimi-k2-7-code", "संदेश": [{"भूमिका": "उपयोगकर्ता", "सामग्री": "एकल HTML फ़ाइल के रूप में एक स्व-खेलने वाला साँप गेम बनाएं, कोई पुस्तकालय नहीं।
विनिमय करना "मॉडल" सेवा मेरे deepseek-v4-pro, qwen3-7-max, या TOKEN और इसे फिर से चलाएं। प्रत्येक फ्रंटियर मॉडल एक ही एपीआई के पीछे रहता है, इसलिए आप अपना कोड बदले बिना अपने संकेतों पर उनकी तुलना कर सकते हैं। आप सभी चार को एक साथ भी चला सकते हैं खेल।.
अक्सर पूछे जाने वाले प्रश्नों
कौन से कोडिंग मॉडल का परीक्षण किया गया था?
मूनशॉट एआई से किमी K2.7 कोड, डीपसीक V4 प्रो, अलीबाबा से Qwen3.7 मैक्स और Z.ai से GLM 5.2। चारों एक OpenAI संगत API के माध्यम से EmpirioLabs पर चलते हैं।
तीन कार्य क्या थे?
एक स्व-खेलने वाला सांप, एक स्व-खेल ब्रेकआउट, और एक स्व-खेलने वाला पोंग, प्रत्येक एक स्व-निहित HTML फ़ाइल जिसमें कोई बाहरी पुस्तकालय नहीं है, जो बिना किसी उपयोगकर्ता इनपुट के खुद को खेलता है।
क्या कुछ संपादित या पुन: प्रयास किया गया था?
नहीं। प्रत्येक मॉडल को प्रति प्रॉम्प्ट एक शॉट मिला और हमने वही प्रस्तुत किया जो उसने लौटाया, काम कर रहा था या नहीं।
किस मॉडल ने सबसे अधिक कोड लिखा?
डीपलक वी4 प्रो ने तीनों कार्यों पर सबसे अधिक पंक्तियाँ लिखीं, और किमी K2.7 कोड ने सबसे कम लिखा। लाइन गिनती केवल आकार का एक उपाय है, गुणवत्ता का नहीं, इसलिए यह देखने के लिए क्लिप देखें कि प्रत्येक गेम कैसे खेलता है।
मैं मॉडलों के बीच कैसे स्विच करूं?
एक स्ट्रिंग बदलें। ये चारों OpenAI चैट पूर्णता API पर सेवा प्रदान करते हैं https://api.empiriolabs.ai/v1, इसलिए आप मॉडल आईडी सेट करें और बाकी अनुरोध को अपरिवर्तित रखें।
इसे अजमाएं
खेल का मैदान खोलें (c) सभी मॉडल ब्राउज़ करें (c) मूल्य निर्धारण



