न्यूरल नेटवर्क: परिभाषा और अर्थ — AI विकी

एक गणना प्रणाली जो जैविक मस्तिष्क से अनुप्रेरित होती है, जो कई परतों के जुड़े हुए "न्यूरॉन" (गणितीय फ़ंक्शन) से बना होता है जो डेटा से पैटर्न सीखते हैं। जानकारी परतों के माध्यम से प्रवाहित होती है, प्रगतिशील रूप से बदलती रहती है जब तक नेटवर्क एक आउटपुट नहीं उत्पन्न करता है। प्रत्येक आधुनिक AI मॉडल किसी न किसी तरह का न्यूरल नेटवर्क होता है।

यह क्यों मायने रखता है

न्यूरल नेटवर्क्स AI के पीछे वाला "हाउ" हैं। इसके बारे में समझना कि ये गणित (मैजिक नहीं, न ही दिमाग) हैं, यह यह समझ में आता है कि AI क्या कर सकता है और क्या नहीं। ये पैटर्न मैचर्स हैं — अत्यधिक सक्षम, लेकिन फिर भी पैटर्न मैचर्स ही हैं।

गहन अध्ययन

एक न्यूरल नेटवर्क, मूल रूप से, nonlinear functions के साथ interspersed matrix multiplications की एक chain है। हर "neuron" अपने inputs का एक weighted sum लेता है, एक bias term जोड़ता है, और परिणाम को एक activation function (ReLU, GELU, sigmoid, और अन्य) के माध्यम से पास करता है। हज़ारों इन neurons को layers में stack करें, दर्जनों layers गहरा stack करें, और आपको astonishingly complex functions सीखने में सक्षम एक नेटवर्क मिलता है — faces पहचानने से लेकर gadya उत्पन्न करने तक proteins folding तक। जादू किसी भी individual neuron में नहीं है (जो trivially सरल math है) बल्कि composition में: layers layers पर बनते हैं, हर एक input डेटा के progressively अधिक abstract representations सीखते हुए।

Training कैसे काम करती है

एक न्यूरल नेटवर्क को training का अर्थ है उन सभी weights और biases के लिए सही मान ढूँढ़ना — अक्सर अरबों। यह backpropagation और gradient descent के माध्यम से होता है। आप नेटवर्क को एक input feed करते हैं, इसके output की वांछित उत्तर से तुलना करते हैं, गणना करते हैं कि यह कितना ग़लत था (loss), फिर हर layer के माध्यम से पीछे काम करते हैं यह गणना करते हुए कि हर weight ने उस त्रुटि में कैसे योगदान दिया। हर weight को थोड़ा उस दिशा में nudged किया जाता है जो loss को कम करती है। इसे अपने पूरे dataset में अरबों बार दोहराएँ, और नेटवर्क उन weights पर converges करता है जो उपयोगी outputs उत्पन्न करते हैं। प्रक्रिया conceptually सीधी है, लेकिन इसे scale पर काम करवाने के लिए सावधानीपूर्वक इंजीनियरिंग चाहिए: learning rate schedules, batch normalization, weight initialization रणनीतियाँ, और बहुत सारी GPU memory।

2012 तक का रास्ता

इतिहास मायने रखता है यह समझने के लिए कि हम आज कहाँ हैं। न्यूरल नेटवर्क पहली बार 1940s में प्रस्तावित किए गए थे और 1960s में उनका एक heyday था (perceptrons), उसके बाद एक लंबा "AI winter" आया जब वे favor से बाहर हो गए। आधुनिक resurgence 2012 के आसपास शुरू हुआ, जब AlexNet नामक एक deep convolutional न्यूरल नेटवर्क ने एक margin से ImageNet प्रतियोगिता को crushed किया जिसने क्षेत्र को shock किया। जो बदला वह theory नहीं थी — backpropagation 1980s से आसपास था — बल्कि hardware (GPUs ने massive parallelism affordable बनाया) और डेटा (internet ने पहले की किसी भी चीज़ से orders of magnitude बड़े प्रशिक्षण sets प्रदान किए)। तब से हर major AI breakthrough, AlphaGo से GPT-4 से Sora तक, किसी न किसी variety का एक न्यूरल नेटवर्क रहा है।

Architecture Zoo

आज, "neural network" शब्द architectures के एक sprawling family को कवर करता है, हर एक अलग समस्याओं के लिए suited। Convolutional न्यूरल नेटवर्क (CNNs) spatial संरचना का exploiting करके image कार्यों पर हावी हैं। Recurrent न्यूरल नेटवर्क (RNNs) और उनके LSTM variants Transformers द्वारा उन्हें replace करने से पहले sequential डेटा के लिए go-to थे। Transformers, self-attention पर निर्मित, virtually सभी आधुनिक LLMs को powers करते हैं। Mamba जैसे state-space मॉडल (SSMs) Transformer की quadratic लागत के बजाय linear-time complexity के साथ long sequences के लिए एक विकल्प प्रदान करते हैं। Graph न्यूरल नेटवर्क molecular structures और social networks को handle करते हैं। Diffusion मॉडल (एक noising प्रक्रिया को reverse करने के लिए प्रशिक्षित न्यूरल नेटवर्क का एक प्रकार) images और video उत्पन्न करते हैं। आप जो architecture चुनते हैं वह आकार देता है कि आपका मॉडल efficiently क्या सीख सकता है, और अपनी समस्या के लिए ग़लत वाला चुनना अधिक डेटा या compute होने से अधिक मायने रख सकता है।

वास्तव में एक मस्तिष्क नहीं

एक persistent ग़लतफ़हमी यह है कि न्यूरल नेटवर्क "मस्तिष्क की तरह" काम करते हैं। वे really नहीं करते। जैविक neurons timed electrical spikes के साथ communicate करते हैं, recurrent loops बनाते हैं, भौतिक रूप से rewire करते हैं, और silicon के बिल्कुल असमान timescales और energy budgets पर operate करते हैं। Artificial न्यूरल नेटवर्क ने जुड़े हुए nodes की metaphor उधार ली और फिर लगभग पूरी तरह से diverge हो गए। आज गंभीर AI शोध करने वाला कोई भी बेहतर Transformers design करने के लिए neuroscience papers नहीं देखता। मस्तिष्क सादृश्य एक पाँच-second intuition के लिए उपयोगी है ("यह उदाहरणों से सीखता है") लेकिन कुछ भी गहरे के लिए misleading है। न्यूरल नेटवर्क वास्तव में क्या हैं — gradient descent द्वारा प्रशिक्षित differentiable function approximators — दोनों कम romantic है और समझने के लिए अधिक precisely useful है।

न्यूरल नेटवर्क