डिफ़्यूज़न मॉडल: परिभाषा और अर्थ — AI विकी

एक प्रकार का जननात्मक मॉडल जो शुद्ध शोर से शुरू करके धीरे-धीरे इसे हटाकर चित्र (या वीडियो, ऑडियो) बनाता है जब तक एक संगत आउटपुट दिखाई देता है। मॉडल वास्तविक डेटा में शोर जोड़ने की प्रक्रिया को उल्टा करना सीखता है। स्टेबल डिफ्यूजन, DALL-E 3 और मिडजर्नी सभी इस दृष्टिकोण के विभिन्न संस्करणों का उपयोग करते हैं।

यह क्यों मायने रखता है

डिफ्यूजन मॉडल्स ने 2022 के आसपास जेनरेटिव एडवर्सरियल नेटवर्क्स (GANs) के स्थान पर ले लिया और छवि उत्पादन के मुख्य तकनीक के रूप में बन गए। वे अधिक विविध और नियंत्रित करने योग्य आउटपुट उत्पन्न करते हैं और आज के लगभग हर छवि और वीडियो AI उपकरण के मुख्य संरचना हैं।

गहन अध्ययन

Core विचार धोखेबाज़ रूप से सरल है। एक वास्तविक छवि लें, इसे step by step Gaussian noise जोड़ें जब तक यह शुद्ध static नहीं बन जाती, फिर एक न्यूरल नेटवर्क को हर step को reverse करने के लिए प्रशिक्षित करें। Generation समय पर, आप random noise के साथ शुरू करते हैं और सीखी गई denoising प्रक्रिया को आगे चलाते हैं। मॉडल कभी एक shot में शुरुआत से एक छवि उत्पन्न नहीं करता — यह दर्जनों या सैकड़ों iterative refinement steps के माध्यम से एक को sculpts करता है, हर एक noisy mess को कुछ coherent के थोड़ा और क़रीब nudging करते हुए। यह iterative प्रकृति दृष्टिकोण की ताक़त और कमज़ोरी दोनों है: यह remarkably उच्च-quality outputs उत्पन्न करता है, लेकिन हर छवि को network के माध्यम से कई forward passes की आवश्यकता होती है, जो single-pass architectures की तुलना में generation को धीमा बनाता है।

Latent space में काम करना

व्यवहार में, आधुनिक diffusion मॉडल सीधे pixel space में काम नहीं करते। Latent diffusion (Stable Diffusion में "Stable") एक pretrained autoencoder का उपयोग करके छवियों को बहुत छोटे latent representation में compress करता है, फिर वहाँ diffusion प्रक्रिया चलाता है। यही है जो high-resolution generation को व्यावहारिक बनाया — pixel space में 512x512 छवि को diffusing करने के लिए प्रति step 786,432 मानों पर operate करने की आवश्यकता होती है, जबकि latent space इसे 64x64x4, या लगभग 16,384 मानों तक compress कर सकता है। autoencoder अंत में pixels पर वापस mapping संभालता है। DALL-E 3, Midjourney, Flux, और अनिवार्य रूप से आज हर प्रतिस्पर्धी image generator latent diffusion के किसी रूप का उपयोग करता है।

Output को steer करना

Conditioning है कैसे आप output को steer करते हैं। Text-to-image मॉडल एक text encoder (आम तौर पर CLIP या T5) का उपयोग करके आपके prompt को encode करते हैं, फिर हर step पर cross-attention के माध्यम से उन embeddings को denoising network में inject करते हैं। Classifier-free guidance (CFG) वह trick है जो इसे अच्छी तरह काम करवाती है — प्रशिक्षण के दौरान, मॉडल कभी-कभी conditioning signal को drop करता है ताकि यह unconditional generation भी सीखे। Inference पर, आप conditioned और unconditioned predictions दोनों की गणना करते हैं, फिर unconditioned वाले से दूर extrapolate करते हैं। उच्च CFG scales का अर्थ है कि मॉडल आपके prompt का अधिक literally पालन करता है, लेकिन बहुत दूर push करें और आपको oversaturated, artifact-heavy छवियाँ मिलती हैं। यह वही "guidance scale" slider है जिसे आप हर diffusion UI में देखते हैं।

denoising network का आर्किटेक्चर स्वयं तेज़ी से विकसित हो रहा है। मूल U-Net backbone (medical image segmentation से उधार लिया गया एक convolutional आर्किटेक्चर) Stable Diffusion 1.x और 2.x के माध्यम से हावी रहा। लेकिन क्षेत्र Transformer-आधारित denoisers — Diffusion Transformers, या DiTs — की ओर लगातार बढ़ रहा है। Sora, Stable Diffusion 3, और Flux सभी DiT variants का उपयोग करते हैं। Shift समझ में आता है: Transformers variable-length sequences को संभालते हैं और compute के साथ अधिक पूर्वानुमेय रूप से scale होते हैं। वीडियो generation के लिए, sequence बस frames की एक श्रृंखला बन जाता है, और attention temporal एकरूपता को सीधे model कर सकता है।

तेज़, याद नहीं किया गया

एक आम ग़लतफ़हमी यह है कि diffusion मॉडल प्रशिक्षण छवियों को "store" या "retrieve" करते हैं। वे नहीं करते। मॉडल एक सांख्यिकीय denoising function सीखता है — तकनीकी रूप से, डेटा distribution का gradient। Memorization अत्यधिक duplicated प्रशिक्षण डेटा के साथ हो सकता है, लेकिन यह एक failure mode है, mechanism नहीं। एक और व्यावहारिक gotcha: denoising steps की संख्या quality और गति पर एक विशाल प्रभाव डालती है। DDIM और DPM-Solver जैसी तकनीकों ने आवश्यक steps को हज़ारों से 20-50 तक कम किया, और distillation methods (SDXL Turbo, Latent Consistency Models) ने इसे और भी 1-4 steps तक धकेला है, हालाँकि कुछ quality trade-offs के साथ। यह अभी सीमा है — diffusion को real-time और interactive उपयोग के लिए पर्याप्त तेज़ बनाना उस quality को बलिदान किए बिना जिसने इसे पहली जगह में हावी बनाया।

डिफ़्यूज़न मॉडल

यह क्यों मायने रखता है

गहन अध्ययन

Latent space में काम करना

Output को steer करना

तेज़, याद नहीं किया गया

संबंधित अवधारणाएँ