
Kling 3.0 Turbo
Kling AIटेक्स्ट-टू-वीडियो और image-to-video सिंक्रनाइज़ किए गए मूल ऑडियो के साथ, 3 से 15 सेकंड के लिए 720p या 1080p पर, पहलू अनुपात और शीघ्र नियंत्रण के साथ।
टेक्स्ट, छवि, ऑडियो, वीडियो, 3डी और अन्य मॉडलों की पूरी सूची ब्राउज़ करें।
मॉडल कैटलॉग
pay-as-you-go मूल्य निर्धारण के साथ टेक्स्ट, छवि, वीडियो, ऑडियो, 3डी, खोज और एजेंट एंडपॉइंट ब्राउज़ करें। इंटरैक्टिव कैटलॉग EmpirioLabs से वर्तमान उपलब्धता को लोड करता है, और ये मॉडल डॉक्स क्लाइंट जावास्क्रिप्ट के बिना क्रॉल करने योग्य हैं।
xAI image-to-video प्रॉम्प्ट-गाइडेड मोशन, नेटिव ऑडियो, 480p या 720p आउटपुट और 15 सेकंड तक क्लिप के साथ।
पाठ, छवि, ऑडियो या वीडियो इनपुट से सिनेमाई क्लिप के लिए मल्टीमॉडल वीडियो जनरेशन।
उच्च-रिज़ॉल्यूशन रचनात्मक, ब्रांड और उत्पाद दृश्यों के लिए एकीकृत छवि निर्माण और संपादन।
पाठ, छवि, वीडियो, कोडिंग, उपकरण और 1M-संदर्भ वर्कफ़्लो के लिए लागत प्रभावी दृष्टि-भाषा मॉडल।
कोडिंग, उत्पादकता, लंबे समय तक चलने वाले एजेंटों, गहरी सोच और उपकरण उपयोग के लिए प्रमुख लंबा-संदर्भ मॉडल।
कोडिंग, एजेंटों, लंबे संदर्भ विश्लेषण, और पाठ, छवि और वीडियो इनपुट के लिए मल्टीमॉडल तर्क।
मजबूत कोडिंग समर्थन, 256K संदर्भ और छवि और वीडियो इनपुट के साथ मूनशॉट मल्टीमॉडल रीजनिंग।
टूल कॉलिंग, संरचित आउटपुट, कैश समर्थन और 128K आउटपुट के साथ लंबे संदर्भ वाले तर्क।
इमेज-टू-3डी पीढ़ी जो एक संदर्भ छवि को बनावट वाली जीएलबी संपत्ति में बदल देती है।

Kling AIटेक्स्ट-टू-वीडियो और image-to-video सिंक्रनाइज़ किए गए मूल ऑडियो के साथ, 3 से 15 सेकंड के लिए 720p या 1080p पर, पहलू अनुपात और शीघ्र नियंत्रण के साथ।

Z.aiएक 1M टोकन संदर्भ, 128K आउटपुट, समायोज्य तर्क प्रयास, मूल वेब खोज और टूल कॉल के साथ रीजनिंग और कोडिंग मॉडल।

Moonshot AIKimi K2.7 कोड 256K संदर्भ, हमेशा तर्क और पाठ, छवि और वीडियो इनपुट के साथ Moonshot के ट्रिलियन पैरामीटर एजेंटिक कोडिंग मॉडल है।

Alibaba Cloudपाठ, छवि, वीडियो, कोडिंग, टूल उपयोग, GUI समझ और 1M-context वर्कफ़्लो के लिए लागत प्रभावी Qwen3.7 दृष्टि-भाषा मॉडल।

Moonshot AIKimi K2.7 कोड हाईस्पीड मूनशॉट के एजेंटिक कोडिंग मॉडल का तेज़-सर्विंग टियर है, जिसमें 256K संदर्भ, हमेशा तर्क और छवि और वीडियो इनपुट शामिल हैं।

MiniMaxमिनिमम एम 3 टेक्स्ट, इमेज और वीडियो इनपुट के साथ कोडिंग, एजेंट और लंबे-context विश्लेषण के लिए एक बहुमॉडल तर्क मॉडल है।

Z.aiएक 1M टोकन संदर्भ, 128K आउटपुट, समायोज्य तर्क प्रयास, मूल वेब खोज और टूल कॉल के साथ रीजनिंग और कोडिंग मॉडल।

Moonshot AIKimi K2.7 कोड 256K संदर्भ, हमेशा तर्क और पाठ, छवि और वीडियो इनपुट के साथ Moonshot के ट्रिलियन पैरामीटर एजेंटिक कोडिंग मॉडल है।

Alibaba Cloudपाठ, छवि, वीडियो, कोडिंग, टूल उपयोग, GUI समझ और 1M-context वर्कफ़्लो के लिए लागत प्रभावी Qwen3.7 दृष्टि-भाषा मॉडल।

Moonshot AIKimi K2.7 कोड हाईस्पीड मूनशॉट के एजेंटिक कोडिंग मॉडल का तेज़-सर्विंग टियर है, जिसमें 256K संदर्भ, हमेशा तर्क और छवि और वीडियो इनपुट शामिल हैं।

MiniMaxमिनिमम एम 3 टेक्स्ट, इमेज और वीडियो इनपुट के साथ कोडिंग, एजेंट और लंबे-context विश्लेषण के लिए एक बहुमॉडल तर्क मॉडल है।

Alibaba CloudQwen3.7 मैक्स कोडिंग, उत्पादकता, लंबे समय तक चलने वाले एजेंटों, गहरी सोच, उपकरण और 1M-token संदर्भ के लिए एक प्रमुख पाठ मॉडल है।

Black Forest Labsअपाचे लाइसेंस 4B FLUX.2 Klein छवि उत्पादन और संपादन मॉडल text-to-image, संदर्भ-छवि संपादन और रचनात्मक कार्यप्रवाह समर्थन के साथ।

Amazonछवि पीढ़ी और संपादन मॉडल बनाने और पाठ या छवि आदानों से छवियों को संशोधित करने के साथ, inpainting, आभासी कोशिश पर, और शैली नियंत्रण।

TencentOpen-source text-to-image मॉडल ऑन a multimodal mixture-of-Experts आर्किटेक्चर with photorealistic details and strong multilingual text rendering.

DeepSeekजनस प्रो 7 बी मॉडल पर ऑटोरिग्रेटिव फ्रेमवर्क जो एक आर्किटेक्चर में बहुमॉडल समझ और छवि पीढ़ी को एकीकृत करता है।

Alibaba Cloudक्लास-लीडिंग कॉम्प्लेक्स Chinese/English टेक्स्ट रेंडरिंग, यथार्थवादी बनावट और बहु-छवि फ्यूजन के साथ एकीकृत छवि पीढ़ी और संपादन मॉडल।

ByteDanceएकीकृत बहुमॉडल छवि मॉडल जो प्रस्तुत करने से पहले संकेत के माध्यम से कारण बनता है, उच्च संकल्प और सुसंगत संपादन और ब्रांड दृश्यों का उत्पादन करता है।

Kling AIटेक्स्ट-टू-वीडियो और image-to-video सिंक्रनाइज़ किए गए मूल ऑडियो के साथ, 3 से 15 सेकंड के लिए 720p या 1080p पर, पहलू अनुपात और शीघ्र नियंत्रण के साथ।

Amazonवीडियो जनरेशन मॉडल ने पाठ से 2-मिनट मल्टी-शॉट वीडियो का उत्पादन किया और बेहतर गुणवत्ता और स्थिरता के साथ वैकल्पिक छवि संकेत।

Alibaba Cloudवीडियो मॉडल टेक्स्ट-टू-वीडियो, इमेज-टू-वीडियो, रेफरेंस-टू-वीडियो और वीडियो एडिट मोड को उच्च-fidelity, मोशन-स्मूथ आउटपुट के साथ पेश करता है।

Tencentमूल 720p आउटपुट (1080p) के साथ 8.3B-parameter वीडियो मॉडल, मजबूत गति सुसंगतता, और 10s तक द्विभाषी शीघ्र समझ।

Kling AIटेक्स्ट-टू-वीडियो, इमेज-टू-वीडियो, रेफरेंस-टू-वीडियो, संपादन, मूल ध्वनि और मल्टी-सीन संक्रमण के साथ मानक या प्रो मोड में वीडियो मॉडल।

Kling AIKling 3.0 मॉडल जो एक संदर्भ छवि से एक चरित्र पर एक संदर्भ वीडियो से गति को स्थानांतरित करता है, मानक 720p और प्रो 1080p स्तरों के साथ।

ACE-Steptext-to-song और lyric-guided ऑडियो के लिए ओपन सोर्स म्यूजिक जेनरेशन मॉडल, नियंत्रणीय गीत पुनरावृत्ति के लिए फास्ट 8-स्टेप एक्स्ट्रा लार्ज टर्बो inference के साथ।

Inworld15 भाषाओं में 271+ आवाजों के साथ उप-130ms TTFB आवाज संश्लेषण, अभिव्यक्त प्रोसोडी और निचले विलंबता आवाज एजेंटों के लिए वास्तविक समय SSE स्ट्रीमिंग।

Inworldअमीर अभिव्यंजक प्रोडोडी के साथ ब्रॉडकास्ट-गुणवत्ता वाली आवाज संश्लेषण, 15 भाषाओं में 271+ आवाजें, और वास्तविक समय में SSE प्रति-वर्ड टाइमस्टैम्प के साथ स्ट्रीमिंग।

Googleलो-लेटेंसी text-to-speech सिंगल- और मल्टी-स्पीकर वॉयस और कंट्रोलेबल स्टाइल, एक्सेंट और एक्स्प्रेसिव टोन के साथ उत्पादन ऐप के लिए।

Googleपॉडकास्ट, ऑडियोबुक और ग्राहक समर्थन के लिए उच्च गुणवत्ता वाले टीटीएस पूर्वावलोकन, जिसमें 23+ भाषाओं में एक्सप्रेसिव मल्टी-स्पीकर आवाज शामिल है।

Googleसटीक शैली, स्वर, गति और वितरण के लिए नए ऑडियो टैग के साथ अत्यधिक नियंत्रणीय टीटीएस कथा, सहायकों और आवाज ऐप में।

Deepgramबहु भाषा समर्थन और उत्पादन कार्यभार के लिए उन्नत अनुकूलन सेटिंग्स के साथ Nova-3 मॉडल का उपयोग करते हुए भाषण से पाठ ट्रांसक्रिप्शन।

OpenAIWhisper-1 speech-to-text ट्रांसक्रिप्शन बहुभाषी निगरानी ऑडियो पर प्रशिक्षित किया गया है, जिसमें प्रति फ़ाइल 25 MB अपलोड की सीमा है।

OpenAIनियंत्रित स्व-होस्टेड व्हिस्पर बड़े v3 टर्बो ट्रांसक्रिप्शन बहुभाषी ASR, अनुवाद, VAD, टाइमटाम्प्स, उपशीर्षक, हॉटवर्ड और डिकोडर नियंत्रण के साथ उजागर किया गया।

Exaत्वरित LLM-शैली एक प्राकृतिक भाषा के सवाल का जवाब, ताजा Exa वेब खोज परिणाम इनलाइन उद्धरण और स्रोत लिंक के साथ जमीन पर आधारित है।

Exaअतुल्यकालिक अनुसंधान कार्य जो वेब की पड़ताल करता है, स्रोतों को इकट्ठा करता है, निष्कर्षों को संश्लेषित करता है और गहन प्रश्नों के लिए उद्धृत जवाब देता है।

Exaपृष्ठों को खोजने के लिए वेब सर्च इंजन, एआई एजेंटों के लिए खुले वेब पर समान पृष्ठों, क्रॉलिंग और समर्पित कोड खोज को पुनर्प्राप्त करना।

LinkupIterative AI खोज जो प्रारंभिक परिणाम अपर्याप्त होने पर क्वेरी रखता है, मानक मोड की तुलना में अधिक व्यापक उत्तर लौटाता है।

Linkupविस्तृत अवलोकन और उत्तरों के साथ AI-powered वेब खोज, डीप सर्च से तेज़। OpenAI SimpleQA बेंचमार्क पर #1 रैंक।

Perplexityक्लाउड ओपस 4.6 तर्क द्वारा संचालित संस्थागत ग्रेड अनुसंधान, अधिकतम गहराई, बढ़ाया उपकरण पहुंच और व्यापक स्रोत कवरेज के साथ।

MicrosoftTRELLIS.2 छवि-से-3D मॉडल जो रिज़ॉल्यूशन, बीज, जाल, बनावट और निर्यात नियंत्रण के साथ एक textured GLB परिसंपत्ति में एक संदर्भ छवि बदल जाता है।

Alibaba Cloudचयन करने योग्य आउटपुट आयाम (64-2048) के साथ बहुभाषी टेक्स्ट एम्बेडिंग। प्रति इनपुट 8,192 टोकन तक।

Alibaba Cloudस्पीड-ऑप्टिमाइज्ड मल्टीमॉडल एम्बेडिंग - विजन-प्लस के समान आकार, 3 × सस्ता image/video tokens।

Alibaba Cloudमल्टीमॉडल एम्बेडिंग पाठ, छवि और वीडियो इनपुट के लिए स्वतंत्र वेक्टर का उत्पादन करते हैं।

Alibaba CloudSemantic दस्तावेज़ reranker। प्रासंगिकता द्वारा प्रति क्वेरी 500 उम्मीदवारों को क्रमबद्ध करें, 100+ भाषाओं का समर्थन करता है, और एक कस्टम सॉर्टिंग निर्देश स्वीकार करता है।

GPTZeroडीप-लर्निंग डिटेक्टर जो एआई बनाम मानव, पूरी तरह से मानव, एआई, या मिश्रित रूप में वर्गीकृत सामग्री द्वारा उत्पन्न होने वाले पाठ के कुछ हिस्सों को ध्वजांकित करता है।

Manusस्वायत्त एआई एजेंट जो सबटास्क, कॉल टूल और एपीआई में एक उच्च स्तरीय संकेत बदलता है, और मैनुअल ऑर्केस्ट्रेशन के बिना end-to-end परिणाम वितरित करता है।
हमारे मॉडलों का अन्वेषण करें, या व्यावसायिक पूछताछ, कस्टम परिनियोजन, या किसी भी अन्य चीज़ के बारे में हमसे संपर्क करें।