
Kling 3.0 Turbo
Kling AIText-to-video and image-to-video 와 동기화된 네이티브 오디오, 720p 또는 1080p 에 3 받는 사람 15 초, 종횡비와 신속한 제어.
텍스트, 이미지, 오디오, 비디오, 3D 등 다양한 모델 전체 카탈로그를 둘러보세요.
모델 카탈로그
텍스트, 이미지, 비디오, 오디오, 3D, 검색, 에이전트 엔드포인트를 pay-as-you-go 가격으로 둘러보세요. 인터랙티브 카탈로그는 EmpirioLabs에서 현재 이용 가능 데이터를 불러오며, 이 모델 문서들은 클라이언트 자바스크립트 없이도 크롤링이 가능합니다.
xAI는 프롬프트 유도 동작, 네이티브 오디오, 480p 또는 720p 출력, 최대 15초 클립을 지원image-to-video.
텍스트, 이미지, 오디오 또는 비디오 입력에서 시네마틱 클립을 위한 멀티모달 비디오 생성.
고해상도 크리에이티브, 브랜드, 제품 비주얼을 위한 통합 이미지 생성 및 편집.
텍스트, 이미지, 비디오, 코딩, 도구 및 1M 컨텍스트 워크플로우를 위한 비용 효율적인 비전 언어 모델입니다.
코딩, 생산성, 장기 실행 에이전트, 깊은 사고, 도구 사용을 위한 대표적인 장기 컨텍스트 모델입니다.
코딩, 에이전트, 장기 맥락 분석, 텍스트, 이미지, 비디오 입력에 대한 다중 모달 추론.
강력한 코딩 지원, 256K 맥락, 이미지 및 비디오 입력이 포함된 문샷 멀티모달 추론.
도구 호출, 구조화된 출력, 캐시 지원, 128K 출력이 포함된 긴 맥락 추론.
참조 이미지를 텍스처가 있는 GLB 에셋으로 변환하는 이미지-3D 생성.

Kling AIText-to-video and image-to-video 와 동기화된 네이티브 오디오, 720p 또는 1080p 에 3 받는 사람 15 초, 종횡비와 신속한 제어.

Z.aiReasoning 및 코딩 모델 1M 토큰 컨텍스트, 128K 출력, 조정 가능한 이유 노력, 기본 웹 검색 및 도구 호출.

Moonshot AI김이 K2.7 Code is Moonshot's 조 모수 Agentic coding model with 256K context, always-on reasoning, and text, image, and video input.

Alibaba Cloud텍스트, 이미지, 비디오, 코딩, 도구 사용, GUI 이해 및 1M-context 워크플로우에 대한 비용 효율적인 Qwen3.7 비전 언어 모델.

Moonshot AI김이 K2.7 Code Highspeed는 256K 컨텍스트와 함께 Moonshot의 에이전트 코딩 모델의 더 빠른 보호 계층이며, 항상 이유 및 이미지 및 비디오 입력.

MiniMaxMiniMax M3는 텍스트, 이미지 및 비디오 입력을 사용하여 코딩, 에이전트 및 긴 텍스트 분석을위한 멀티 모달 이유 모델입니다.

Z.aiReasoning 및 코딩 모델 1M 토큰 컨텍스트, 128K 출력, 조정 가능한 이유 노력, 기본 웹 검색 및 도구 호출.

Moonshot AI김이 K2.7 Code is Moonshot's 조 모수 Agentic coding model with 256K context, always-on reasoning, and text, image, and video input.

Alibaba Cloud텍스트, 이미지, 비디오, 코딩, 도구 사용, GUI 이해 및 1M-context 워크플로우에 대한 비용 효율적인 Qwen3.7 비전 언어 모델.

Moonshot AI김이 K2.7 Code Highspeed는 256K 컨텍스트와 함께 Moonshot의 에이전트 코딩 모델의 더 빠른 보호 계층이며, 항상 이유 및 이미지 및 비디오 입력.

MiniMaxMiniMax M3는 텍스트, 이미지 및 비디오 입력을 사용하여 코딩, 에이전트 및 긴 텍스트 분석을위한 멀티 모달 이유 모델입니다.

Alibaba Cloud스카이프 8.49.0.49 Max는 코딩, 생산성, 긴 실행 에이전트, 깊은 생각, 도구 및 1M-token 컨텍스트에 대한 주력 텍스트 모델입니다.

Black Forest Labs아파치 라이선스 4B FLUX.2 Klein 이미지 생성 및 편집 모델 text-to-image, 참고 이미지 편집 및 크리에이티브 워크플로우 지원.

Amazon이미지 생성 및 편집 모델 생성 및 텍스트 또는 이미지 입력에서 이미지를 수정, inpainting, virtual try-on, style controls.

Tencent오픈 소스 text-to-image 모델은 photorealistic 디테일과 강력한 다국어 텍스트 렌더링을 갖춘 멀티모탈 믹스필드의 전문가 아키텍처입니다.

DeepSeekJanus Pro 7B 모델의 Autoregressive Framework는 하나의 아키텍처에서 다중 이해와 이미지 생성을 통합합니다.

Alibaba Cloudclass-leading complex Chinese/English 텍스트 렌더링, 현실적인 질감 및 멀티 이미지 융합을 갖춘 통합 이미지 생성 및 편집 모델.

ByteDance렌더링하기 전에 프롬프트를 통해 원인을 인식하고 고해상도 및 일관성있는 편집 및 브랜드의 시각을 생산하는 통합 멀티 모드 이미지 모델.

Kling AIText-to-video and image-to-video 와 동기화된 네이티브 오디오, 720p 또는 1080p 에 3 받는 사람 15 초, 종횡비와 신속한 제어.

Amazon비디오 생성 모델은 텍스트 및 옵션 이미지에서 최대 2 분의 멀티 샷 비디오를 생산하여 품질을 개선하고 일관성을 보장합니다.

Alibaba CloudText-to-Video, Image-to-Video, Reference-to-Video 및 Video Edit 모드를 제공하는 비디오 모델은 높은-fidelity, Motion-smooth 출력을 제공합니다.

Tencent8.3B-parameter 비디오 모델 기본 720p 출력 (1080p로 확장 가능), 강력한 모션 일관성 및 이중 언어 신속한 10s까지 이해.

Kling AIText-to-Video, Image-to-Video, Reference-to-Video, Edit, native sound, multi-scene transition로 표준 또는 Pro 모드에서 비디오 모델.

Kling AI표준 720p 및 Pro 1080p 계층과 참조 이미지의 문자에 참조 비디오에서 모션을 전송하는 Kling 3.0 모델.

ACE-Steptext-to-song 및 lyric-guided 오디오에 대한 오픈 소스 음악 생성 모델, 제어 가능한 노래를 위한 빠른 8단계 XL Turbo inference와 함께.

InworldSub-130ms TTFB 음성 합성 15개국어 271개 이상의 음성, 고속 프로세싱, 실시간 SSE 스트리밍, 저속 음성 에이전트.

Inworld15개 언어의 271개 이상의 음성, 271개 이상의 음성, 실시간 SSE 스트리밍, per-word 타임스탬프와 함께 방송 품질의 음성 합성.

Google단일 및 멀티 스피커 음성 및 제어 가능한 스타일, 악센트 및 표현식 톤을 가진 낮은 속도 text-to-speech.

Googlepodcasts, audiobooks 및 고객 지원을위한 고품질 TTS 미리보기, 23 + 언어의 표현식 멀티 스피커와 함께.

Googlenarration, 조수 및 음성 앱을 통해 정밀한 스타일, 음색, 속도 및 납품을 위한 새로운 오디오 태그를 가진 높게 지배할 수 있는 TTS.

DeepgramNova-3 모델과 다국어 지원 및 생산 작업 부하에 대한 고급 사용자 정의 설정을 사용하여 Speech-to-text transcription.

OpenAIWhisper-1 speech-to-text transcription은 다중 언어 감독 오디오에 훈련되었으며 파일당 25 MB 업로드 제한이 있습니다.

OpenAI다중 언어 ASR, 번역, VAD, 타임스탬프, 자막, hotwords 및 디코더 컨트롤을 사용하여 자체 호스팅 된 Whisper 대형 v3 Turbo transcription을 제어합니다.

Exa퀵 LLM 스타일은 신선한 Exa 웹 검색 결과 inline 인용 및 소스 링크에 기반을 둔 자연 언어 질문에 대한 답변을 제공합니다.

Exa웹을 탐구하는 비동기 연구 작업은 소스를 수집하고, 발견을 종합하고, 심층적 쿼리에 대한 인용 된 답변을 반환합니다.

Exa페이지를 찾는 웹 검색 엔진, 비슷한 페이지를 검색, 크롤링, 및 AI 에이전트를위한 열린 웹에서 전용 코드 검색.

Linkup초기 결과가 충분할 때 쿼리를 유지하는 Iterative AI 검색은 표준 모드보다 더 포괄적 인 답변을 반환합니다.

Linkup상세 개요 및 답변으로 AI-powered 웹 검색, Deep Search보다 빠른. OpenAI SimpleQA 벤치 마크에 # 1 순위.

PerplexityClaude Opus 4.6 reasoning에 의해 구동되는 Institutional 급료 연구, 최대 깊이와 더불어, 강화된 공구 접근 및 광대한 근원 적용.

MicrosoftTRELLIS.2 이미지-to-3D 모델은 해상도, 종자, 메쉬, 질감, 수출 컨트롤을 가진 텍스처 GLB 자산으로 참조 이미지를 전환합니다.

Alibaba Cloud선택할 수 있는 산출 차원 (64–2048)로 끼워넣는 다 언어 원본. 입력 당 최대 8,192 토큰.

Alibaba CloudSpeed-optimised multimodal embedding - Vision-Plus와 동일한 모양, 3× 싼 image/video 토큰.

Alibaba CloudMultimodal embedding 텍스트, 이미지 및 비디오 입력을위한 독립적 인 벡터를 생산합니다.

Alibaba CloudSemantic 문서 reranker. relevance에 의해 쿼리 당 최대 500 명의 후보자를 정렬하고 100 개 이상의 언어를 지원하며 사용자 정의 정렬 명령을받습니다.