पूर्वाग्रह: परिभाषा और अर्थ — AI विकी

AI आउटपुट में व्यवस्थित पैटर्न जो ट्रेनिंग डेटा में मौजूद सामाजिक भेदभाव को प्रतिबिम्बित या बढ़ाते हैं। भेदभाव टेक्स्ट जेनरेशन, इमेज क्रिएशन, रिक्रूटमेंट टूल्स और कहीं भी मॉडल निर्णय लेते हैं जो लोगों के अलग-अलग प्रभाव डालते हैं, वहां सामना कर सकता है।

यह क्यों मायने रखता है

यदि ट्रेनिंग डेटा कहता है कि नर्स महिलाएं होती हैं और इंजीनियर पुरुष होते हैं, तो मॉडल उसे बरकरार रखेगा। बायस हमेशा स्पष्ट नहीं होता — यह शब्द संबंध, डिफ़ॉल्ट मान्यताओं और जो दर्शाया जाता है उसमें छिपा होता है।

गहन अध्ययन

AI सिस्टम में Bias कई sources से आता है, और प्रशिक्षण डेटा बस सबसे obvious है। हाँ, यदि आपका corpus कुछ demographics या viewpoints का over-represent करता है, तो मॉडल इसे प्रतिबिंबित करेगा। लेकिन bias labeling के माध्यम से भी प्रवेश करता है (प्रशिक्षण उदाहरणों को rate करने वाले मानव अपनी अपनी assumptions लाते हैं), evaluation के माध्यम से (benchmarks जो English fluency का परीक्षण करते हैं लेकिन Yoruba नहीं), deployment context के माध्यम से (एक resume screener जो एक कंपनी के historically skewed hiring डेटा पर प्रशिक्षित है), और यहाँ तक कि loss function के माध्यम से (engagement के लिए optimizing sensational या divisive सामग्री को amplify कर सकता है)। इन distinct vectors को समझना मायने रखता है क्योंकि हर एक को एक अलग mitigation रणनीति की आवश्यकता होती है।

जो छिपा है उसे मापना

bias को मापने और कम करने के तकनीकी दृष्टिकोण considerably matured हुए हैं। WEAT (Word Embedding Association Test) जैसे word embedding परीक्षणों ने 2017 की शुरुआत में दिखाया कि word2vec और GloVe embeddings ने "male" को "career" के साथ और "female" को "family" के साथ ऐसे तरीक़ों से associated किया जो psychology से Implicit Association Test को mirror करते थे। आधुनिक LLMs के लिए, evaluation कठिन है। शोधकर्ता stereotyping के लिए probe करने के लिए BBQ (Bias Benchmark for QA), WinoBias, और RealToxicityPrompts जैसे benchmarks का उपयोग करते हैं, लेकिन ये केवल उन biases को पकड़ते हैं जिनका परीक्षण करने के बारे में किसी ने सोचा। Red teaming और adversarial evaluation कुछ gaps भरते हैं, लेकिन संभावित biases की long tail प्रभावी रूप से अनंत है।

Overcorrection Trap

Debiasing तकनीकें वास्तविक trade-offs के साथ आती हैं जिन्हें practitioners को समझने की आवश्यकता है। Data-स्तर के interventions — rebalancing, underrepresented समूहों को augmenting, toxic सामग्री को filtering — मदद कर सकते हैं लेकिन वैध सांस्कृतिक context को erasing या artificially sanitized distributions बनाने का जोखिम भी उठाते हैं। Bias-specific preference pairs पर contrastive learning या DPO जैसे model-स्तर के interventions stereotyping को कम कर सकते हैं लेकिन कभी-कभी overcorrect करते हैं, ऐसे outputs उत्पन्न करते हैं जो awkwardly evasive हैं या जो प्रासंगिक होने पर वास्तविक statistical अंतरों को acknowledge करने से इनकार करते हैं (एक medical मॉडल को पता होना चाहिए कि sickle cell disease की prevalence ancestry से भिन्न होती है)। 2024 की शुरुआत में Google का Gemini image generation विवाद — ethnically विविध Nazi soldiers उत्पन्न करना — overcorrection के ग़लत होने का एक vivid उदाहरण था। लक्ष्य मॉडलों को यह pretend करवाना नहीं है कि अंतर मौजूद नहीं हैं; यह उन्हें समूह सदस्यता के आधार पर व्यक्तियों के बारे में अनुचित assumptions बनाने से रोकना है।

English से परे

Bias के सबसे महत्वपूर्ण और सबसे कम चर्चा वाले रूपों में से एक है भाषा और सांस्कृतिक bias। अधिकांश frontier मॉडल मुख्य रूप से English text पर प्रशिक्षित हैं, Western सांस्कृतिक assumptions baked in के साथ। एक मॉडल से "normal" family structures, professional etiquette, या यहाँ तक कि "polite" बातचीत क्या है इसके बारे में पूछें, और आपको वे उत्तर मिलेंगे जो American या Western European की ओर skew करते हैं। यह arabों non-English speakers को प्रभावित करता है जो इन सिस्टमों के साथ interact करते हैं। BLOOM और Aya जैसे multilingual मॉडलों ने प्रगति की है, लेकिन English और lower-resource भाषाओं के बीच performance gap substantial बना हुआ है, और यह केवल fluency के बारे में नहीं है — यह इस बारे में है कि क्या मॉडल उन भाषाओं में सांस्कृतिक context को समझता है।

Managing, Eliminating नहीं

इन मॉडलों के ऊपर निर्माण करने वाले developers के लिए, व्यावहारिक वास्तविकता यह है कि bias कुछ ऐसा है जिसे आप manage करते हैं, कुछ ऐसा नहीं जिसे आप eliminate करते हैं। आप अपने specific use case के लिए relevant evaluation criteria चुनते हैं, उनके विरुद्ध मापते हैं, और स्वीकार्य trade-offs के बारे में deliberate निर्णय लेते हैं। एक creative writing assistant और एक hiring tool के पास बहुत अलग bias profiles और बहुत अलग stakes हैं। सबसे ख़राब दृष्टिकोण यह मान लेना है कि base मॉडल "पहले से ही debiased" है और evaluation को पूरी तरह से skip कर देना है — हर deployment context bias को नुक़सान पहुँचाने के नए अवसर पेश करता है, और responsible move यह है कि आपके उपयोगकर्ता आपके लिए इसे ढूँढ़ने से पहले इसके लिए परीक्षण करें।

पूर्वाग्रह