ホーム ブログ

Kimi vs DeepSeek vs Qwen vs GLM:AIコーディングモデルの比較

4方向コーディングテスト:Kimi K2.7 Code、DeepSeek V4 Pro、Qwen 3.7 Max、GLM 5.2。それぞれが1つのHTMLファイルからセルフプレイ可能なBreakoutゲームをレンダリングします。

Jun 24, 2026

EmpirioLabs AI

4つのフロンティアコーディングモデルに同じ3つのゲームプロンプトを与え、構築させました。編集もリトライもなし。 キム・ク2.7 コードコード ムーンショットAIより、 DeepSeek V4 Pro, Qwen3.7 マックス アリババから、 GLM 5.2 それぞれ Z.ai セルフプレイ用のスネーク、セルフプレイのブレイクアウト、セルフプレイのポンを書き、それぞれライブラリのない独立したHTMLファイルでした。これら4つすべてが1つのOpenAI互換APIの背後でEmpirioLabs上で動作しています。

4人全員がそれを作るのを見てください

運営方法

各プロンプトは各モデルに1つのユーザーメッセージとして送られ、1ショットで、編集なしで返された通りにレンダリングされました。理屈の努力は最大に設定されていました。温度のオーバーライドもシステムプロンプトもありません。最大出力は32,000トークンでした。すべてのプロンプトは、CSSとJavaScriptがすべてインラインで、外部ライブラリもCDNもインポートもなしの、単一の自己完結型HTMLファイルとして自己プレイゲームを要求していました。

結果

4モデルすべてが初回のプロンプトで動作するシングルファイルゲームを返しました。こちらが最終HTMLファイルの各回答のサイズです。

テストキム・ク2.7 コードコードDeepSeek V4 ProQwen3.7 マックスGLM 5.2
セルフプレイスネーク374ライン744回線460行526行
セルフプレイング・ブレイクアウト295路線762行335ライン370行
セルフプレイポン240ライン640ライン258路線321行

私たちが気づいたこと

すべてのモデルは最初からプレイ可能なゲームをリリースしましたが、達成方法は非常に異なりました。DeepSeek V4 Proは3つのタスクすべてで圧倒的に多くのコードを書き、他のタスクの2行以上を多く書いていました。Kimi K2.7コードが最も簡潔でした。Qwen3.7 MaxとGLM 5.2はその間に着陸しました。線数が多いからといって良いとか悪いわけではないので、重要なのは各ゲームの映像やプレイ感です。私たちは勝者を発表するつもりはありません。自分の働き方に合った成果を選びましょう。

自分で同じテストを行ってください

これら4つすべてがOpenAI互換のチャットコンピリオメントAPIに対応しているため、比較は一行だけの変更です。ポイント base_url at https://api.empiriolabs.ai/v1 モデルIDを設定してください。

curl https://api.empiriolabs.ai/v1/chat/completions \ -h "Authorization: Bearer $EMPIRIOLABS_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "kimi-k2-7-code", "messages": [{"role": "user", "content": "Self-playing Snake gameを単一のHTMLファイルとして構築、ライブラリなし。"}] }''

スワップ 「モデル」 から deepseek-v4-pro, qwen3-7-max、または お問い合わせ そしてもう一度実行してください。すべてのフロンティアモデルは同じAPIの背後にあるため、コードを変更せずに自分のプロンプトで比較できます。また、4つすべてを並べて走らせることも可能です プレイグラウンドお問い合わせ.

よくある質問

どのコーディングモデルがテストされましたか?

Moonshot AIのKimi K2.7コード、DeepSeek V4 Pro、AlibabaのQwen 3.7 Max、Z.ai のGLM 5.2です。これら4つすべてが1つのOpenAI互換APIを通じてEmpirioLabs上で動作します。

その3つの課題は何だったのでしょうか?

セルフプレイのスネーク、セルフプレイのブレイクアウト、セルフプレイのポンなど、それぞれ外部ライブラリを持たない単一の自己完結型HTMLファイルで、ユーザーの入力なしで自動でプレイします。

編集や再挑戦はありましたか?

いいえ。各モデルはプロンプトごとに1ショットずつ割り当てられ、動作するかどうかに関わらず、返された通りにレンダリングしました。

どのモデルが最も多くコードを書いたのでしょうか?

DeepSeek V4 Proは3つのタスクすべてで最も多くの行を書き込み、Kimi K2.7 Codeは最も少ない行を書きました。ライン数はサイズの指標であり、質の指標ではないので、各ゲームのプレイ感をぜひクリップで確認してください。

モデルをどうやって切り替えればいいですか?

弦を一本変えて。これら4つすべてがOpenAIチャットコンプリートAPIに対応しています。 https://api.empiriolabs.ai/v1モデルIDを設定し、リクエストの他の部分は変更せずに保存します。

試してみて

遊び場を開く お問い合わせ すべてのモデルを閲覧 お問い合わせ 料金について

より良いエンドポイントを使う準備はできていますか?

当社のモデルをご覧いただくか、ビジネスの問い合わせ、カスタム展開、その他何でもご連絡ください。