EmpirioLabs AI

4方向コーディングテスト:Kimi K2.7 Code、DeepSeek V4 Pro、Qwen 3.7 Max、GLM 5.2。それぞれが1つのHTMLファイルからセルフプレイ可能なBreakoutゲームをレンダリングします。

Jun 24, 2026

EmpirioLabs AI

4つのフロンティアコーディングモデルに同じ3つのゲームプロンプトを与え、構築させました。編集もリトライもなし。キム・ク2.7 コードコードムーンショットAIより、 DeepSeek V4 Pro, Qwen3.7 マックスアリババから、 GLM 5.2 それぞれ Z.ai セルフプレイ用のスネーク、セルフプレイのブレイクアウト、セルフプレイのポンを書き、それぞれライブラリのない独立したHTMLファイルでした。これら4つすべてが1つのOpenAI互換APIの背後でEmpirioLabs上で動作しています。

4人全員がそれを作るのを見てください

運営方法

各プロンプトは各モデルに1つのユーザーメッセージとして送られ、1ショットで、編集なしで返された通りにレンダリングされました。理屈の努力は最大に設定されていました。温度のオーバーライドもシステムプロンプトもありません。最大出力は32,000トークンでした。すべてのプロンプトは、CSSとJavaScriptがすべてインラインで、外部ライブラリもCDNもインポートもなしの、単一の自己完結型HTMLファイルとして自己プレイゲームを要求していました。

結果

4モデルすべてが初回のプロンプトで動作するシングルファイルゲームを返しました。こちらが最終HTMLファイルの各回答のサイズです。

テスト	キム・ク2.7 コードコード	DeepSeek V4 Pro	Qwen3.7 マックス	GLM 5.2
セルフプレイスネーク	374ライン	744回線	460行	526行
セルフプレイング・ブレイクアウト	295路線	762行	335ライン	370行
セルフプレイポン	240ライン	640ライン	258路線	321行

私たちが気づいたこと

すべてのモデルは最初からプレイ可能なゲームをリリースしましたが、達成方法は非常に異なりました。DeepSeek V4 Proは3つのタスクすべてで圧倒的に多くのコードを書き、他のタスクの2行以上を多く書いていました。Kimi K2.7コードが最も簡潔でした。Qwen3.7 MaxとGLM 5.2はその間に着陸しました。線数が多いからといって良いとか悪いわけではないので、重要なのは各ゲームの映像やプレイ感です。私たちは勝者を発表するつもりはありません。自分の働き方に合った成果を選びましょう。

自分で同じテストを行ってください

これら4つすべてがOpenAI互換のチャットコンピリオメントAPIに対応しているため、比較は一行だけの変更です。ポイント base_url at https://api.empiriolabs.ai/v1 モデルIDを設定してください。

curl https://api.empiriolabs.ai/v1/chat/completions \ -h "Authorization: Bearer $EMPIRIOLABS_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "kimi-k2-7-code", "messages": [{"role": "user", "content": "Self-playing Snake gameを単一のHTMLファイルとして構築、ライブラリなし。"}] }''

スワップ 「モデル」 から deepseek-v4-pro, qwen3-7-max、または お問い合わせ そしてもう一度実行してください。すべてのフロンティアモデルは同じAPIの背後にあるため、コードを変更せずに自分のプロンプトで比較できます。また、4つすべてを並べて走らせることも可能ですプレイグラウンドお問い合わせ.

よくある質問

どのコーディングモデルがテストされましたか?

Moonshot AIのKimi K2.7コード、DeepSeek V4 Pro、AlibabaのQwen 3.7 Max、Z.ai のGLM 5.2です。これら4つすべてが1つのOpenAI互換APIを通じてEmpirioLabs上で動作します。

その3つの課題は何だったのでしょうか?

セルフプレイのスネーク、セルフプレイのブレイクアウト、セルフプレイのポンなど、それぞれ外部ライブラリを持たない単一の自己完結型HTMLファイルで、ユーザーの入力なしで自動でプレイします。

編集や再挑戦はありましたか?

いいえ。各モデルはプロンプトごとに1ショットずつ割り当てられ、動作するかどうかに関わらず、返された通りにレンダリングしました。

どのモデルが最も多くコードを書いたのでしょうか?

DeepSeek V4 Proは3つのタスクすべてで最も多くの行を書き込み、Kimi K2.7 Codeは最も少ない行を書きました。ライン数はサイズの指標であり、質の指標ではないので、各ゲームのプレイ感をぜひクリップで確認してください。

モデルをどうやって切り替えればいいですか?

弦を一本変えて。これら4つすべてがOpenAIチャットコンプリートAPIに対応しています。 https://api.empiriolabs.ai/v1モデルIDを設定し、リクエストの他の部分は変更せずに保存します。

試してみて

遊び場を開くお問い合わせすべてのモデルを閲覧お問い合わせ料金について

Kimi vs DeepSeek vs Qwen vs GLM:AIコーディングモデルの比較

4人全員がそれを作るのを見てください

運営方法

結果

私たちが気づいたこと

自分で同じテストを行ってください