Temperature को समझने के लिए, आपको यह जानने की आवश्यकता है कि एक मॉडल के एक token output करने से ठीक पहले क्या होता है। मॉडल raw scores का एक vector उत्पन्न करता है (जिसे logits कहा जाता है) — इसकी शब्दावली में हर token के लिए एक score, जो 32,000 से 128,000 entries हो सकती है। फिर इन logits को temperature मान से divided किया जाता है और एक softmax function के माध्यम से fed किया जाता है, जो उन्हें एक probability distribution में convert करता है। जब temperature 1.0 है, softmax raw logits पर as-is operates करता है। जब temperature 0.5 है, logits softmax से पहले प्रभावी रूप से दोगुने होते हैं, जो probability distribution को sharper बनाता है — सबसे संभावित token को probability का और भी बड़ा हिस्सा मिलता है। जब temperature 2.0 है, logits आधे हो जाते हैं, जो distribution को flatten करता है और कम संभावित tokens को चुने जाने का बेहतर मौका देता है।
Temperature 0 एक विशेष मामला है जिसे अधिकांश API providers greedy decoding के रूप में लागू करते हैं — हमेशा एकल highest-probability token चुनें, कोई sampling शामिल नहीं। यह आउटपुट को deterministic (या लगभग ऐसा; कुछ providers tiny floating-point noise जोड़ते हैं) बनाता है। यह सही विकल्प है जब आप reproducible परिणाम चाहते हैं: structured डेटा निकालना, classification कार्य, factual Q&A, या कुछ भी जहाँ "creativity" एक liability है। एक सामान्य production pattern सभी automated pipelines के लिए temperature 0 का उपयोग करना और उच्च temperatures को user-facing creative features के लिए reserve करना है।
Temperature top-p (nucleus sampling) नामक एक अन्य sampling parameter के साथ ऐसे तरीकों से interact करता है जो लोगों को trip up करते हैं। Top-p token चयन को tokens के सबसे छोटे set तक सीमित करता है जिनकी cumulative probability threshold p को पार करती है। 0.9 पर top-p के साथ temperature को 0.7 पर setting करना temperature 1.0 के साथ top-p 0.7 से अलग है, भले ही दोनों का लक्ष्य "मध्यम randomness" है। अधिकांश practitioners एक या दूसरे को adjust करने की recommend करते हैं, दोनों एक साथ नहीं, क्योंकि interaction के बारे में reason करना कठिन है। Anthropic का API Claude के लिए default temperature 1.0 के साथ top-p 1.0 पर है। OpenAI GPT मॉडलों के लिए default temperature 1.0 के साथ top-p 1.0 पर है। यदि आप एक बार में दोनों को tweaking कर रहे हैं, तो आप शायद चीज़ों को overcomplicate कर रहे हैं।
सही temperature कार्य पर निर्भर करता है, और "0.7 हर चीज़ के लिए अच्छा है" सलाह एक oversimplification है। कोड generation के लिए, अधिकांश developers पाते हैं कि 0–0.3 सबसे विश्वसनीय परिणाम उत्पन्न करता है। conversational सहायकों के लिए, 0.5–0.8 rails से उतरे बिना natural-sounding विविधता देता है। creative writing, brainstorming, या विविध विकल्प उत्पन्न करने के लिए, 0.9–1.2 अच्छा काम करता है। 1.5 से ऊपर जाना तेज़ी से incoherent आउटपुट उत्पन्न करता है जो व्यवहार में शायद ही कभी उपयोगी होता है। कुछ मॉडल तकनीकी रूप से 2.0 से ऊपर temperatures का समर्थन करते हैं, लेकिन output quality तेज़ी से degrades होती है — यह creative text के बजाय random token soup जैसा दिखना शुरू कर देता है।
एक सूक्ष्म लेकिन महत्वपूर्ण बिंदु: temperature token-स्तर randomness को प्रभावित करता है, idea-स्तर creativity को नहीं। एक उच्च temperature किसी भी सार्थक अर्थ में मॉडल को "अधिक creatively सोचने" नहीं देता — यह इसे unexpected शब्दों को चुनने की अधिक संभावना बनाता है। कभी-कभी यह genuinely novel combinations उत्पन्न करता है। अन्य समय यह बस grammatical errors, non-sequiturs, या hallucinations उत्पन्न करता है। यदि आप एक समस्या के लिए genuinely अलग दृष्टिकोण चाहते हैं, तो आप अक्सर एक ही prompt को moderate temperature (कहें 0.8) पर कई बार चलाने और परिणामों की तुलना करने से बेहतर हैं, बजाय temperature को 1.5 तक cranking करने और सर्वश्रेष्ठ की उम्मीद करने के। यह self-consistency और best-of-N sampling जैसी तकनीकों के पीछे का सिद्धांत है, जो विविधता और quality दोनों प्राप्त करने के लिए कई samples के साथ moderate temperature का उपयोग करती हैं।