
Kling 3.0 Turbo
Kling AIText-to-video和 image-to-video 带有同步的本土音频,在720p或1080p时为3至15秒,具有宽比和即时控制.
浏览涵盖文本、图像、音频、视频、3D等多种模型的完整目录。
车型目录
浏览文本、图片、视频、音频、3D、搜索和代理端点,价格pay-as-you-go。交互式目录从EmpirioLabs加载当前可用性,这些模型文档无需客户端JavaScript即可爬取。
XAIimage-to-video提示引导动作、原生音频、480p或720p输出,以及最长15秒的片段。
多模态视频生成,用于从文本、图像、音频或视频输入中生成电影片段。
统一的图像生成与编辑,支持高分辨率创意、品牌和产品视觉效果。
适用于文本、图像、视频、编码、工具及100万上下文工作流程的经济高效视觉语言模型。
旗舰长上下文模型,涵盖编码、生产力、长期运行代理、深度思考和工具使用。
多模态推理用于编码、代理、长上下文分析以及文本、图像和视频输入。
Moonshot多模态推理,强有力的编码支持,256K上下文,以及图像和视频输入。
长上下文推理,包含工具调用、结构化输出、缓存支持和128K输出。
图像到三维生成,将参考图像转换为带纹理的GLB资产。

Kling AIText-to-video和 image-to-video 带有同步的本土音频,在720p或1080p时为3至15秒,具有宽比和即时控制.

Z.ai1M令牌上下文的理性和编码模型,128K输出,可调整的推理努力,本土网络搜索,以及工具调用.

Moonshot AIKimi K2.7 (韩语) 代码是Monshot的万亿参数的代理编码模型,其上下文为256K,总是进行推理,以及文字,图像,和视频输入.

Alibaba Cloud成本效益高的Qwen3.7视觉语言模型用于文本,图像,视频,编码,工具使用,GUI理解,以及1M-context工作流程.

Moonshot AIKimi K2.7 (韩语) 代码高速(Code Highpy)是月光的代理编码模型中服务速度更快的一级,其上下文为256K,总是进行推理,图像和视频输入.

MiniMaxMiniMax M3是一种多模式推理模型,用于编码,代理,以及带有文本,图像,视频输入的长文本分析.

Z.ai1M令牌上下文的理性和编码模型,128K输出,可调整的推理努力,本土网络搜索,以及工具调用.

Moonshot AIKimi K2.7 (韩语) 代码是Monshot的万亿参数的代理编码模型,其上下文为256K,总是进行推理,以及文字,图像,和视频输入.

Alibaba Cloud成本效益高的Qwen3.7视觉语言模型用于文本,图像,视频,编码,工具使用,GUI理解,以及1M-context工作流程.

Moonshot AIKimi K2.7 (韩语) 代码高速(Code Highpy)是月光的代理编码模型中服务速度更快的一级,其上下文为256K,总是进行推理,图像和视频输入.

MiniMaxMiniMax M3是一种多模式推理模型,用于编码,代理,以及带有文本,图像,视频输入的长文本分析.

Alibaba Cloud问题3.7 Max是一个旗舰文本模型,用于编码,生产力,长期代理,深思,工具,和1M-token上下文.

Black Forest Labs阿帕奇牌4B FLUX.2 Klein 图像生成和编辑模式带有 text-to-image,参考图像编辑,以及创意工作流程支持.

Amazon图像生成和编辑模型从文本或图像输入中创建和修改图像,并带有涂装,虚拟尝试,样式控制.

TencentOpen-source text-to-image 型号为多式混合实验架构,具有光现实性细节和强多语言文本渲染.

DeepSeekJanus Pro 7B模型上的自动递减框架,统一了一种架构中的多式联运理解和图像生成.

Alibaba Cloud统一的图像生成和编辑模型,具有类引导复合体 Chinese/English 文本渲染,现实的纹理,以及多图像聚变.

ByteDance统一的多式联运图像模型,在渲染前通过提示说明理由,产生高分辨率和一致的编辑和品牌视觉.

Kling AIText-to-video和 image-to-video 带有同步的本土音频,在720p或1080p时为3至15秒,具有宽比和即时控制.

Amazon视频生成模型从文本和可选图像中产生最多2分钟的多镜头视频,其质量和一致性都有提高。

Alibaba Cloud视频模式提供Text-to-Video,Image-to-Video,Reference-to-Video,以及视频编辑模式,具有高真实度,运动流畅的输出.

Tencent8.3B参数的视频模型,原生输出720p(可扩展至1080p),强运动一致性,双语快速理解可达10s.

Kling AI以标准或Pro模式制作的视频模型有Text至Video,Image至Video,Reference-toVideo,编辑,原声,以及多景过渡.

Kling AIKling 3.0 模型,从参考视频中将运动从参考图像转移到字符上,具有标准720p和Pro 1080p级.

ACE-Step开源音乐生成模式用于 text-to-song 和lyric-guided音频,快速8步XL Turbo推论用于可控歌曲迭代.

Inworldsub-130ms TTFB语音合成,配有271+语音,跨越15种语言,表现性prosody,以及用于低纬度语音代理的实时SSE流.

Inworld广播质量语音合成,具有丰富的表达式音标,271+语音跨越15种语言,实时SSE流传每字时间戳.

Google低纬度 text-to-speech 使用单声道和多声道语音,并具有可控风格,口音,以及制作应用的表达语调.

Google高质量TTS预览播客,音频书,以及客户支持,具有23+语言的表达式多语言语音.

Google高度可控的TTS带有新的音频标记,用于精确的风格,音调,速度,以及跨叙述,助手,语音应用程序的发送.

Deepgram使用Nova-3模式进行语音对文字的转录,提供多种语言支持和先进的定制的制作工作量设置。

OpenAIWhisper-1 speech-to-text 在多语种监督音频上训练的转录,每个文件有25 MB上传限制.

OpenAI自控主机Whisper Large v3 Turbo 转录多语种ASR,翻译,VAD,时间戳,字幕,热字,解码器控制曝光.

Exa对一个自然语言问题的快速 LLM 风格的回答,基于新的 Exa 网络搜索结果,并带有内含引用和源链接.

Exa同步研究任务,探索网络,收集来源,综合发现,返回引用答案进行深入查询.

Exa搜索页面的网络搜索引擎,检索相似的页面,爬行,以及专用代码搜索通过开放的网络搜索AI代理.

Linkup迭代AI搜索在初始结果不足时不断查询,返回比标准模式更全面的答案.

LinkupAI有动力的网络搜索有详细的综述和答案,比"深度搜索"更快. OpenAI SimpleQA基准上的排名#1.

Perplexity机构级研究由克劳德·奥普斯4.6推理提供动力,具有最大深度,增强工具访问,以及广泛的源覆盖.

MicrosoftTRELLIS.2 图像到-3D模型,将参考图像转化为有文本的GLB资产,具有分辨率,种子,网格,纹理和导出控制.

Alibaba Cloud多语言文本嵌入可选择输出维度(64–2048). 每个输入最高可达8,192个令牌.

Alibaba Cloud速度优化多模式嵌入 - - 与Vision-Plus相同形状,3×更便宜 image/video 符牌.

Alibaba Cloud多模式嵌入生成文本、图像和视频输入的独立矢量。

Alibaba Cloud语义文档重排. 每个查询按相关性排序最多500名考生,支持100+语言,接受自定义排序指令.