क्या OpenAI का नया ‘IndQA’ बेंचमार्क Ind LLMs को अंतर पाटने में मदद कर सकता है?

Published on

November 5, 2025

Posted by

Om V Angaitkar

Categories:

Hindi – Tech

DOT & KEY Vitamin C + E Super Bright Sunscreen Spf…

(43511287)

₹387.00 (as of January 20, 2026 12:34 GMT +05:30 – More infoProduct prices and availability are accurate as of the date/time indicated and are subject to change. Any price and availability information displayed on [relevant Amazon Site(s), as applicable] at the time of purchase will apply to the purchase of this product.)

इंड एलएलएम ब्रिज – जैसा कि भारत अपने स्वयं के इंडिक भाषा मॉडल बनाने के लिए दौड़ रहा है, ओपनएआई ने एक नया बेंचमार्क मूल्यांकन पेश किया है, जो कहता है, न केवल एक मॉडल की भाषाई क्षमता का परीक्षण करता है बल्कि सभी डोमेन में भारतीय सांस्कृतिक संदर्भ की समझ का भी परीक्षण करता है। IndQA के रूप में जाना जाता है, बेंचमार्क परीक्षण में 12 भाषाओं और 10 सांस्कृतिक डोमेन में 2,278 प्रश्न शामिल हैं, जो पूरे भारत के 261 विशेषज्ञों के साथ साझेदारी में संकलित किए गए हैं, OpenAI ने सोमवार, 3 नवंबर को एक ब्लॉग पोस्ट में कहा। प्रश्न वास्तुकला और डिजाइन, कला और संस्कृति, रोजमर्रा की जिंदगी, भोजन और व्यंजन, इतिहास, कानून और नैतिकता, साहित्य और भाषा विज्ञान, मीडिया और मनोरंजन, धर्म और आध्यात्मिकता, और खेल और मनोरंजन जैसे विभिन्न विषयों पर आधारित हैं।

वे मूल रूप से बंगाली, अंग्रेजी, हिंदी, हिंग्लिश, कन्नड़, मराठी, उड़िया, तेलुगु, गुजराती, मलयालम, पंजाबी और तमिल में लिखे गए हैं। इस विज्ञापन के नीचे कहानी जारी है, ओपनएआई ने कहा, “बातचीत में कोड-स्विचिंग की व्यापकता को देखते हुए हमने विशेष रूप से हिंग्लिश को जोड़ा है।”

भारतीय भाषाओं और संस्कृतियों के इर्द-गिर्द एक बेंचमार्क बनाने पर एआई स्टार्टअप का ध्यान महत्वपूर्ण है, क्योंकि भारत संयुक्त राज्य अमेरिका के बाद चैटजीपीटी के लिए दूसरा सबसे बड़ा बाजार बनकर उभरा है। 4 नवंबर को, OpenAI ने बेंगलुरु में अपने DevDay एक्सचेंज डेवलपर सम्मेलन की मेजबानी की, जहां इसने कई भारत-विशिष्ट घोषणाएं कीं। कंपनी भारत में सीमित प्रचार अवधि के दौरान साइन अप करने वाले उपयोगकर्ताओं के लिए एक वर्ष के लिए अपनी चैटजीपीटी गो सदस्यता योजना भी मुफ्त कर रही है।

ओपनएआई ने कहा, “भारत में लगभग एक अरब लोग हैं जो अपनी प्राथमिक भाषा के रूप में अंग्रेजी का उपयोग नहीं करते हैं, 22 आधिकारिक भाषाएं (50 मिलियन से अधिक वक्ताओं के साथ कम से कम सात सहित) और चैटजीपीटी का दूसरा सबसे बड़ा बाजार है।” इसमें कहा गया है, “हालांकि हमारा उद्देश्य अन्य भाषाओं और क्षेत्रों के लिए समान मानक बनाना है, लेकिन भारत एक स्पष्ट शुरुआती बिंदु है।” IndQA बेंचमार्क कैसे काम करता है बेंचमार्क परीक्षण के भाग के रूप में, AI मॉडल से भारतीय भाषा में सांस्कृतिक रूप से आधारित संकेत के रूप में प्रश्न पूछे जाते हैं।

प्रत्येक प्रश्न ऑडिटेबिलिटी के लिए एक अंग्रेजी अनुवाद और एक आदर्श उत्तर के साथ आता है जो विशेषज्ञ की अपेक्षाओं को दर्शाता है। इस विज्ञापन के नीचे कहानी जारी है मॉडल की प्रतिक्रिया को उस विशिष्ट प्रश्न के लिए डोमेन विशेषज्ञों द्वारा लिखे गए मानदंडों के अनुसार वर्गीकृत किया गया है।

यह मानदंड बताता है कि एक आदर्श उत्तर में क्या शामिल होना चाहिए या क्या नहीं होना चाहिए, और रूब्रिक-आधारित दृष्टिकोण में प्रत्येक को उसके महत्व के आधार पर एक भारित बिंदु मान दिया जाता है। अंत में, एक एआई मॉडल ग्रेडर जांच करता है कि क्या प्रत्येक मानदंड पूरा हुआ है और कुल संभावित अंकों से विभाजित मानदंडों के लिए अंकों के योग की गणना करके एक अंतिम स्कोर तैयार करता है। निश्चित रूप से, IndQA को एलएलएम लीडरबोर्ड के रूप में डिज़ाइन नहीं किया गया है जो मॉडलों को उनके स्कोर के आधार पर रैंक करता है।

इसके अतिरिक्त, किसी मॉडल के क्रॉस-भाषा स्कोर का उपयोग यह बताने के लिए नहीं किया जा सकता है कि यह, उदाहरण के लिए, हिंदी की तुलना में कन्नड़ में बेहतर है। इसके बजाय, ओपनएआई के अनुसार, स्कोर एक मॉडल परिवार या कॉन्फ़िगरेशन के भीतर समय के साथ सुधार को मापने के लिए हैं। सांस्कृतिक बारीकियों को पकड़ने के लिए इसे कैसे डिज़ाइन किया गया था, ओपनएआई ने कहा कि क्षेत्रीय और सांस्कृतिक संदर्भ से जुड़े कठिन, तर्क-केंद्रित प्रश्नों का मसौदा तैयार करने का कार्य दस अलग-अलग डोमेन के विशेषज्ञों को आउटसोर्स किया गया था।

261 विशेषज्ञों के इस समूह में पत्रकार, भाषाविद्, विद्वान, कलाकार और उद्योग व्यवसायी शामिल थे, जिनमें एक पुरस्कार विजेता तेलुगु अभिनेता, एक मलयालम कवि, एक पंजाबी संगीत संगीतकार और एक अंतरराष्ट्रीय शतरंज ग्रैंडमास्टर सहित अन्य शामिल थे। कहानी इस विज्ञापन के नीचे जारी है अपने अगले चरण में, OpenAI ने अपने स्वयं के AI मॉडल जैसे GPT‑4o, o3, और GPT‑4 के विरुद्ध परीक्षण करके प्रश्नों को फ़िल्टर किया।

5. “हमने केवल वे प्रश्न रखे जहां इनमें से अधिकांश मॉडल प्रगति के लिए गुंजाइश बनाए रखते हुए स्वीकार्य उत्तर देने में विफल रहे,” इसमें कहा गया है। अंत में, विशेषज्ञों ने आदर्श उत्तर और उनके अंग्रेजी अनुवाद जोड़े जिसके बाद सहकर्मी समीक्षा और पुनरावृत्तीय सुधार किए गए।

क्योंकि परीक्षण प्रश्न इस आधार पर चुने गए थे कि ओपनएआई के अपने मॉडल कहां संघर्ष कर रहे थे, कंपनी ने कहा कि उसके मॉडल अन्य मॉडलों की तुलना में नुकसान में हो सकते हैं। क्या IndQA, इंडिक एलएलएम के लिए समान अवसर प्रदान कर सकता है? इंडिक भाषाओं के लिए बनाए गए बड़े भाषा मॉडल (एलएलएम) वैश्विक एआई हथियारों की दौड़ में भारत से अलग भूमिका निभा सकते हैं।

हालाँकि, इंडिक एलएलएम को विकसित करने में दो प्रमुख चुनौतियों का सामना करना पड़ता है: उच्च गुणवत्ता वाले डेटासेट की कमी और इंडिक एलएलएम का मूल्यांकन करने के लिए स्थानीय बेंचमार्क की अनुपस्थिति। पिछले कुछ वर्षों से, एआई मॉडल की प्रगति को मुख्य रूप से एमएमएमएलयू और एमजीएसएम जैसे परिचित, बहुभाषी बेंचमार्क के एक सेट के माध्यम से ट्रैक किया गया है। लेकिन इन बेंचमार्क की आलोचना की गई है क्योंकि वे स्थानीय संदर्भ, संस्कृति, इतिहास और जहां वे रहते हैं वहां के लोगों के लिए मायने रखने वाली चीजों की एआई मॉडल की समझ को पकड़ने में विफल रहते हैं।

इस विज्ञापन के नीचे कहानी जारी है। इसके अलावा, मौजूदा भाषा मानदंड मुख्य रूप से एक मॉडल के अनुवाद या बहुविकल्पीय कार्यों पर केंद्रित हैं। सर्वम जैसे भारतीय एआई स्टार्टअप ने बार-बार इंडिक भाषाओं के लिए मानकीकृत बेंचमार्क की अनुपस्थिति को वैश्विक समकक्षों के साथ प्रतिस्पर्धा करने में एक बड़ी बाधा के रूप में पहचाना है।

चूंकि मौजूदा बेंचमार्क मुख्य रूप से अंग्रेजी और यूरोपीय भाषाओं पर केंद्रित हैं, इसलिए वे संभावित रूप से भारत में एआई को अपनाने में बाधा डाल सकते हैं, जहां एआई-संचालित वाक् पहचान के लिए कई उच्चारणों के प्रसंस्करण और स्थानीय भाषाओं के साथ अंग्रेजी के मिश्रण की आवश्यकता होती है। यह भी पढ़ें | Google ने I/O कनेक्ट में भारतीय डेवलपर्स के लिए नए LLM और IndicGenBench AI टूल पेश किए हैं। पश्चिमी संगठनों द्वारा बनाए गए LLM लीडरबोर्ड पर भी पक्षपात का आरोप लगाया गया है।

हाल ही में, गुरुग्राम स्थित शून्य लैब्स ने दावा किया कि उसका स्पीच मॉडल पिंगला एनवीडिया के मॉडल से अधिक स्कोर करने के बावजूद हगिंग फेस के ओपनएएसआर लीडरबोर्ड में शीर्ष पर नहीं था। “हमारे भाषण मॉडल, पिंगला ने 3.1% (शब्द त्रुटि दर) WER बनाम एनवीडिया 5 के साथ महत्वपूर्ण परिणाम पोस्ट किए।

6%. प्रत्येक मीट्रिक के अनुसार, इसे सीधे शीर्ष पर जाना चाहिए था।

इसके बजाय, यह एक ब्लैक बॉक्स प्रक्रिया में फंस गया है, जहां प्रतियोगियों के पास चाबियां हैं,” शून्य लैब्स की सह-संस्थापक और सीईओ रितु मेहरोत्रा ने लिंक्डइन पर एक पोस्ट में कहा। इस विज्ञापन के नीचे कहानी जारी है, ”यह सिर्फ निराशाजनक नहीं है – यह एक चेतावनी है।

यदि “ओपन” एआई को उन्हीं ट्रिलियन-डॉलर खिलाड़ियों द्वारा गेट किया जा सकता है जो चुनौती देने का दावा करते हैं, तो सिस्टम वास्तव में किसके लिए बनाया गया है? उसने जोड़ा।