
Kling 3.0 Turbo
Kling AIテキスト・ツー・ビデオと image-to-video を同期ネイティブ・オーディオ、720p または 1080p で 3 から 15 秒、アスペクト比とプロンプト・コントロールで合成しました。
テキスト、画像、音声、動画、3Dなど、モデルの全カタログを閲覧できます。
モデルカタログ
テキスト、画像、動画、音声、3D、検索、エージェントエンドポイントをpay-as-you-go価格で閲覧できます。インタラクティブなカタログはEmpirioLabsから現在の利用可能性を読み込み、これらのモデルドキュメントはクライアントJavaScriptなしでもクロール可能です。
xAIimage-to-videoプロンプトガイド付きのモーション、ネイティブ音声、480pまたは720p出力、最大15秒のクリップを備えています。
テキスト、画像、音声、または映像入力からシネマティッククリップを生成するためのマルチモーダルビデオ生成。
高解像度のクリエイティブ、ブランド、商品ビジュアルのための統一画像生成と編集。
テキスト、画像、動画、コーディング、ツール、1Mコンテキストワークフロー向けのコスト効率の高いビジョン言語モデル。
コーディング、生産性、長期エージェント、深い思考、ツール使用のための旗艦的な長期コンテキストモデル。
コーディング、エージェント、長文脈解析、テキスト、画像、ビデオ入力のためのマルチモーダル推論。
強力なコーディングサポート、256Kのコンテキスト、画像や映像入力を備えたムーンショットマルチモーダル推論。
ツール呼び出し、構造化出力、キャッシュサポート、128K出力を伴う長いコンテキスト推論。
参照画像をテクスチャ付きのGLBアセットに変換するイメージから3Dへの生成。

Kling AIテキスト・ツー・ビデオと image-to-video を同期ネイティブ・オーディオ、720p または 1080p で 3 から 15 秒、アスペクト比とプロンプト・コントロールで合成しました。

Z.ai1Mトークンコンテクスト、128K出力、調整可能な推論努力、ネイティブWeb検索、ツールコールによるモデルの調整とコーディング。

Moonshot AIキム・ク2.7 コードは、256Kコンテキスト、常にオン推論、テキスト、画像、ビデオ入力のムーンショットのトリリオンパラメータのエージェントのコーディングモデルです。

Alibaba Cloudテキスト、画像、ビデオ、コーディング、ツール使用、GUI理解、および1Mコンテキストワークフローの費用対効果の高いQwen3.7 Vision-languageモデル。

Moonshot AIキム・ク2.7 Code Highspeed は、Moonshot のエージェントコーディングモデルのより高速なサービスで、256K のコンテキスト、常にオンの推論、および画像とビデオの入力によります。

MiniMaxMiniMax M3は、テキスト、画像、ビデオ入力でコーディング、エージェント、および長文解析用のマルチモーダル推論モデルです。

Z.ai1Mトークンコンテクスト、128K出力、調整可能な推論努力、ネイティブWeb検索、ツールコールによるモデルの調整とコーディング。

Moonshot AIキム・ク2.7 コードは、256Kコンテキスト、常にオン推論、テキスト、画像、ビデオ入力のムーンショットのトリリオンパラメータのエージェントのコーディングモデルです。

Alibaba Cloudテキスト、画像、ビデオ、コーディング、ツール使用、GUI理解、および1Mコンテキストワークフローの費用対効果の高いQwen3.7 Vision-languageモデル。

Moonshot AIキム・ク2.7 Code Highspeed は、Moonshot のエージェントコーディングモデルのより高速なサービスで、256K のコンテキスト、常にオンの推論、および画像とビデオの入力によります。

MiniMaxMiniMax M3は、テキスト、画像、ビデオ入力でコーディング、エージェント、および長文解析用のマルチモーダル推論モデルです。

Alibaba Cloudキューン3.7 Max は、コーディング、生産性、ロングランニングのエージェント、ディープ思考、ツール、および 1M トークンのコンテキストのための主観的なテキストモデルです。

Black Forest LabsApache ライセンス 4B FLUX.2 text-to-image 、リファレンス画像編集、クリエイティブワークフローサポートによるKleinイメージ生成と編集モデル。

Amazon画像生成と編集モデルは、テキストや画像入力から画像を作成および変更し、インペレーション、バーチャルトライオン、スタイル制御を行います。

Tencentオープンソース text-to-image モデルをマルチモーダル・ミクチャー・オブ・エキスパート・アーキテクチャーに、フォトレアルティスティック・ディテールと強力な多言語テキスト・レンダリング。

DeepSeekJanus Pro 7BモデルのAutoregressiveフレームワークは、複数のモジュールの理解とイメージ生成を1つのアーキテクチャで統一します。

Alibaba Cloud高度な複雑な Chinese/English テキストレンダリング、現実的なテクスチャ、マルチ画像の融合による画像生成と編集モデルを統合しました。

ByteDanceレンダリング、高解像および一貫した編集およびブランドの視覚の作成の前のプロンプトによる理由の統一されたmultimodalイメージ モデル。

Kling AIテキスト・ツー・ビデオと image-to-video を同期ネイティブ・オーディオ、720p または 1080p で 3 から 15 秒、アスペクト比とプロンプト・コントロールで合成しました。

Amazonビデオ生成モデルは、テキストとオプションの画像プロンプトから最大2分のマルチショットビデオを生成し、品質と一貫性を向上させます。

Alibaba Cloudテキスト・ツー・ビデオ、画像・ツー・ビデオ、リファレンス・ツー・ビデオ、ビデオ編集モードをハイ・ファイ、モーション・スムース出力で提供するビデオモデル。

Tencent8.3B-parameter ネイティブ 720p 出力(1080p まで増量可能)、強力なモーションコヒーレンス、最大 10 秒までのバイリンガル プロンプトの理解。

Kling AIテキスト・ツー・ビデオ、画像・ツー・ビデオ、リファレンス・ツー・ビデオ、編集、ネイティブ・サウンド、マルチ・シーン・トランジションによるビデオ・モデル。

Kling AI標準720pとプロ1080pティアで、参照映像から文字にモーションを転送するKling 3.0モデル。

ACE-Steptext-to-song および lyric-guided オーディオ用のオープンソースの音楽生成モデル、制御可能な曲反復のための高速な 8 ステップ XL ターボ推論。

Inworldサブ130ms TTFB 音声合成は、15 カ国語で 271 以上の音声、表現力のある音声、低レイテンシの音声エージェントのリアルタイム SSE ストリーミングに対応しています。

Inworld豊富な表現力豊かなプロッディ、15言語の271以上の音声、単語ごとのタイムスタンプによるリアルタイムのSSEストリーミング

Google低レイテンシ text-to-speech は、シングルとマルチスピーカーの音声と制御可能なスタイル、アクセント、およびプロダクションアプリのエクスプレストーンです。

Google23以上の言語で表現力豊かなマルチスピーカーボイスで、ポッドキャスト、オーディオブック、カスタマーサポートの高品質TSプレビュー。

Google新しいオーディオタグを備えた高度に制御可能なTSは、正確なスタイル、トーン、ペース、そしてナレーション、アシスタント、ボイスアプリを横断して配信します。

Deepgram多言語対応のNova-3モデルを用いた音声テキスト転写と、プロダクションワークロード向けの高度なカスタマイズ設定。

OpenAIWhisper-1 speech-to-text トランスクリプションは、多言語の監視された音声で訓練され、ファイルごとに25 MBのアップロード制限があります。

OpenAI制御されたセルフホストのウィスパー大型v3ターボトランスクリプションと多言語ASR、翻訳、VAD、タイムスタンプ、字幕、ホットワード、デコーダーコントロールが露出しました。

Exa自然言語の質問へのクイックLLMスタイルの回答, インライン引用とソースリンクで新鮮なExaのWeb検索結果に接地.

Exaウェブを探索する非同期研究タスクは、ソースを収集し、検索結果を合成し、詳細な質問のための引用された回答を返す。

Exaこのページの検索、類似ページの取得、クローリング、専用のコード検索などのWeb検索エンジンが、AIエージェントのオープンウェブを横断します。

Linkup初期結果が不足しているときにクエリを維持し、標準モードよりもより包括的な回答を返す反復AI検索。

Linkup詳細な概要と回答でAIを活用したWeb検索、Deep Searchよりも高速化 OpenAI SimpleQAのベンチマークで#1をランク付け。

PerplexityClaude Opus 4.6 の推論、最大深さ、高められた用具のアクセスおよび広範な源の適用範囲によって動力を与えられる構造等級の研究。

MicrosoftTRELLIS.2 イメージツー-3Dモデルで、リファレンスイメージを解像度、シード、メッシュ、テクスチャ、エクスポートコントロールでテクスチャーされたGLBアセットに変えます。

Alibaba Cloud選択可能な出力寸法(64–2048)で埋め込まれる複数のテキスト。 入力あたり最大8,192トークン。

Alibaba Cloudスピードに最適化されたマルチモーダル埋め込み - Vision-Plus と同じ形状、3× 安い image/video トークン。

Alibaba Cloudテキスト、画像、およびビデオ入力用の独立したベクトルを制作するマルチモーダル埋め込み。

Alibaba CloudSemantic文書のリランサー。 クエリごとに最大500名まで並べ替え、100以上の言語に対応し、カスタムソート命令を受け付けます。