इसके core पर, एक LLM एक function है जो tokens का एक sequence लेता है और अगले token पर एक probability distribution output करता है। यही पूरी trick है। प्रशिक्षण के दौरान, मॉडल text के trillions tokens देखता है और आगे क्या आता है इसकी भविष्यवाणी करने में बेहतर होने के लिए अपने अरबों parameters को adjust करता है। जब आप Claude या GPT के साथ chat करते हैं, मॉडल एक समय में एक token उत्पन्न करता है, हर बार अपने स्वयं के पिछले output को input के रूप में वापस feed करता है। यह autoregressive प्रक्रिया यही कारण है कि आप प्रतिक्रियाओं को शब्द-दर-शब्द streaming में देखते हैं — मॉडल genuinely नहीं जानता कि यह आगे क्या कहेगा जब तक यह वहाँ नहीं पहुँचता।
अधिकांश आधुनिक LLMs Transformer architecture पर निर्मित हैं, जो 2017 में Google शोधकर्ताओं द्वारा पेश किया गया। Transformer का key innovation attention mechanism है, जो मॉडल को input में हर दूसरे token को देखने देता है जब यह तय करता है कि एक दिए गए token का क्या अर्थ है। यह उस समस्या को हल करता है जिसने पहले के architectures (RNNs, LSTMs) को plagued किया: वे long-range dependencies के साथ संघर्ष करते थे क्योंकि जानकारी को हर मध्यवर्ती step के माध्यम से sequentially flow करना था। Attention एक मॉडल को paragraph पाँच में "it" को paragraph एक में "the database server" से सीधे जोड़ने देता है, चाहे बीच में कितना भी text बैठा हो। Mamba जैसे कुछ नए architectures attention के बजाय state-space मॉडलों का उपयोग करते हैं, long sequences पर बहुत बेहतर efficiency के लिए कुछ flexibility का व्यापार करते हुए, लेकिन Transformers सबसे बड़े मॉडलों के लिए dominant paradigm बने हुए हैं।
LLM में "Large" वास्तविक काम कर रहा है। Scale उन तरीक़ों से मायने रखता है जिनकी शोधकर्ताओं ने पूरी तरह से अपेक्षा नहीं की थी। एक 1-billion-parameter मॉडल basic grammar और सरल facts को handle कर सकता है। एक 70-billion-parameter मॉडल working code लिख सकता है और multi-step problems के माध्यम से reason कर सकता है। सबसे बड़े मॉडल (parameters के सैकड़ों अरब, trillions tokens पर प्रशिक्षित) emergent क्षमताओं का प्रदर्शन करते हैं — skills जो धीरे-धीरे सुधरने के बजाय scale पर अचानक प्रकट होती हैं। Chain-of-thought reasoning, multilingual transfer, और in-context learning सभी क्षमताएँ हैं जो केवल तब विश्वसनीय रूप से दिखाई देती हैं जब मॉडल कुछ size thresholds पार करते हैं। यह scaling व्यवहार "scaling laws" द्वारा वर्णित है जो मॉडल size, dataset size, और compute budget को surprisingly पूर्वानुमेय तरीक़ों से performance से संबंधित करते हैं।
Pre-training के बाद, raw LLMs बात करने के लिए विशेष रूप से उपयोगी नहीं हैं — वे बस text को complete करना चाहते हैं, इसलिए वे आपके प्रश्न का उत्तर देने के बजाय अधिक प्रश्नों के साथ जारी रख सकते हैं। यहाँ alignment आता है। RLHF (मानव feedback से reinforcement learning) और constitutional AI जैसी तकनीकें मॉडल को helpful, harmless, और honest होने के लिए train करती हैं केवल एक text predictor होने के बजाय। यह एक base मॉडल (जैसे raw Llama) और एक chat मॉडल (जैसे Claude या ChatGPT) के बीच का अंतर है। base मॉडल के पास ज्ञान है; alignment इसे बातचीत में उस ज्ञान का उपयोग कैसे करना है सिखाता है।
एक व्यावहारिक gotcha जो कई developers को पकड़ता है: LLMs उस तरह से चीज़ें "नहीं जानते" जिस तरह एक database जानता है। उन्होंने प्रशिक्षण डेटा से statistical patterns को encoded किया है, जिसका अर्थ है कि वे confidently उन चीज़ों को state कर सकते हैं जो subtly या पूरी तरह से ग़लत हैं — hallucination। उनके पास एक knowledge cutoff तिथि भी है और tools दिए जाने तक real-time जानकारी access नहीं कर सकते। सबसे अच्छे practitioners LLMs को बहुत capable लेकिन unreliable collaborators के रूप में मानते हैं: drafting, brainstorming, और code generation के लिए महान, लेकिन factual दावों के लिए verification की आवश्यकता होती है। Retrieval-augmented generation (RAG), structured output parsing, और tool use वे इंजीनियरिंग patterns हैं जो LLM-powered applications को production में विश्वसनीय बनाते हैं।