क्या OpenAI का नया ‘IndQA’ बेंचमार्क Ind LLMs को अंतर पाटने में मदद कर सकता है?

Published on

Posted by

Categories:


इंड एलएलएम ब्रिज – जैसा कि भारत अपने स्वयं के इंडिक भाषा मॉडल बनाने के लिए दौड़ रहा है, ओपनएआई ने एक नया बेंचमार्क मूल्यांकन पेश किया है, जो कहता है, न केवल एक मॉडल की भाषाई क्षमता का परीक्षण करता है बल्कि सभी डोमेन में भारतीय सांस्कृतिक संदर्भ की समझ का भी परीक्षण करता है। IndQA के रूप में जाना जाता है, बेंचमार्क परीक्षण में 12 भाषाओं और 10 सांस्कृतिक डोमेन में 2,278 प्रश्न शामिल हैं, जो पूरे भारत के 261 विशेषज्ञों के साथ साझेदारी में संकलित किए गए हैं, OpenAI ने सोमवार, 3 नवंबर को एक ब्लॉग पोस्ट में कहा। प्रश्न वास्तुकला और डिजाइन, कला और संस्कृति, रोजमर्रा की जिंदगी, भोजन और व्यंजन, इतिहास, कानून और नैतिकता, साहित्य और भाषा विज्ञान, मीडिया और मनोरंजन, धर्म और आध्यात्मिकता, और खेल और मनोरंजन जैसे विभिन्न विषयों पर आधारित हैं।

वे मूल रूप से बंगाली, अंग्रेजी, हिंदी, हिंग्लिश, कन्नड़, मराठी, उड़िया, तेलुगु, गुजराती, मलयालम, पंजाबी और तमिल में लिखे गए हैं। इस विज्ञापन के नीचे कहानी जारी है, ओपनएआई ने कहा, “बातचीत में कोड-स्विचिंग की व्यापकता को देखते हुए हमने विशेष रूप से हिंग्लिश को जोड़ा है।”

भारतीय भाषाओं और संस्कृतियों के इर्द-गिर्द एक बेंचमार्क बनाने पर एआई स्टार्टअप का ध्यान महत्वपूर्ण है, क्योंकि भारत संयुक्त राज्य अमेरिका के बाद चैटजीपीटी के लिए दूसरा सबसे बड़ा बाजार बनकर उभरा है। 4 नवंबर को, OpenAI ने बेंगलुरु में अपने DevDay एक्सचेंज डेवलपर सम्मेलन की मेजबानी की, जहां इसने कई भारत-विशिष्ट घोषणाएं कीं। कंपनी भारत में सीमित प्रचार अवधि के दौरान साइन अप करने वाले उपयोगकर्ताओं के लिए एक वर्ष के लिए अपनी चैटजीपीटी गो सदस्यता योजना भी मुफ्त कर रही है।

ओपनएआई ने कहा, “भारत में लगभग एक अरब लोग हैं जो अपनी प्राथमिक भाषा के रूप में अंग्रेजी का उपयोग नहीं करते हैं, 22 आधिकारिक भाषाएं (50 मिलियन से अधिक वक्ताओं के साथ कम से कम सात सहित) और चैटजीपीटी का दूसरा सबसे बड़ा बाजार है।” इसमें कहा गया है, “हालांकि हमारा उद्देश्य अन्य भाषाओं और क्षेत्रों के लिए समान मानक बनाना है, लेकिन भारत एक स्पष्ट शुरुआती बिंदु है।” IndQA बेंचमार्क कैसे काम करता है बेंचमार्क परीक्षण के भाग के रूप में, AI मॉडल से भारतीय भाषा में सांस्कृतिक रूप से आधारित संकेत के रूप में प्रश्न पूछे जाते हैं।

प्रत्येक प्रश्न ऑडिटेबिलिटी के लिए एक अंग्रेजी अनुवाद और एक आदर्श उत्तर के साथ आता है जो विशेषज्ञ की अपेक्षाओं को दर्शाता है। इस विज्ञापन के नीचे कहानी जारी है मॉडल की प्रतिक्रिया को उस विशिष्ट प्रश्न के लिए डोमेन विशेषज्ञों द्वारा लिखे गए मानदंडों के अनुसार वर्गीकृत किया गया है।

यह मानदंड बताता है कि एक आदर्श उत्तर में क्या शामिल होना चाहिए या क्या नहीं होना चाहिए, और रूब्रिक-आधारित दृष्टिकोण में प्रत्येक को उसके महत्व के आधार पर एक भारित बिंदु मान दिया जाता है। अंत में, एक एआई मॉडल ग्रेडर जांच करता है कि क्या प्रत्येक मानदंड पूरा हुआ है और कुल संभावित अंकों से विभाजित मानदंडों के लिए अंकों के योग की गणना करके एक अंतिम स्कोर तैयार करता है। निश्चित रूप से, IndQA को एलएलएम लीडरबोर्ड के रूप में डिज़ाइन नहीं किया गया है जो मॉडलों को उनके स्कोर के आधार पर रैंक करता है।

इसके अतिरिक्त, किसी मॉडल के क्रॉस-भाषा स्कोर का उपयोग यह बताने के लिए नहीं किया जा सकता है कि यह, उदाहरण के लिए, हिंदी की तुलना में कन्नड़ में बेहतर है। इसके बजाय, ओपनएआई के अनुसार, स्कोर एक मॉडल परिवार या कॉन्फ़िगरेशन के भीतर समय के साथ सुधार को मापने के लिए हैं। सांस्कृतिक बारीकियों को पकड़ने के लिए इसे कैसे डिज़ाइन किया गया था, ओपनएआई ने कहा कि क्षेत्रीय और सांस्कृतिक संदर्भ से जुड़े कठिन, तर्क-केंद्रित प्रश्नों का मसौदा तैयार करने का कार्य दस अलग-अलग डोमेन के विशेषज्ञों को आउटसोर्स किया गया था।

261 विशेषज्ञों के इस समूह में पत्रकार, भाषाविद्, विद्वान, कलाकार और उद्योग व्यवसायी शामिल थे, जिनमें एक पुरस्कार विजेता तेलुगु अभिनेता, एक मलयालम कवि, एक पंजाबी संगीत संगीतकार और एक अंतरराष्ट्रीय शतरंज ग्रैंडमास्टर सहित अन्य शामिल थे। कहानी इस विज्ञापन के नीचे जारी है अपने अगले चरण में, OpenAI ने अपने स्वयं के AI मॉडल जैसे GPT‑4o, o3, और GPT‑4 के विरुद्ध परीक्षण करके प्रश्नों को फ़िल्टर किया।

5. “हमने केवल वे प्रश्न रखे जहां इनमें से अधिकांश मॉडल प्रगति के लिए गुंजाइश बनाए रखते हुए स्वीकार्य उत्तर देने में विफल रहे,” इसमें कहा गया है। अंत में, विशेषज्ञों ने आदर्श उत्तर और उनके अंग्रेजी अनुवाद जोड़े जिसके बाद सहकर्मी समीक्षा और पुनरावृत्तीय सुधार किए गए।

क्योंकि परीक्षण प्रश्न इस आधार पर चुने गए थे कि ओपनएआई के अपने मॉडल कहां संघर्ष कर रहे थे, कंपनी ने कहा कि उसके मॉडल अन्य मॉडलों की तुलना में नुकसान में हो सकते हैं। क्या IndQA, इंडिक एलएलएम के लिए समान अवसर प्रदान कर सकता है? इंडिक भाषाओं के लिए बनाए गए बड़े भाषा मॉडल (एलएलएम) वैश्विक एआई हथियारों की दौड़ में भारत से अलग भूमिका निभा सकते हैं।

हालाँकि, इंडिक एलएलएम को विकसित करने में दो प्रमुख चुनौतियों का सामना करना पड़ता है: उच्च गुणवत्ता वाले डेटासेट की कमी और इंडिक एलएलएम का मूल्यांकन करने के लिए स्थानीय बेंचमार्क की अनुपस्थिति। पिछले कुछ वर्षों से, एआई मॉडल की प्रगति को मुख्य रूप से एमएमएमएलयू और एमजीएसएम जैसे परिचित, बहुभाषी बेंचमार्क के एक सेट के माध्यम से ट्रैक किया गया है। लेकिन इन बेंचमार्क की आलोचना की गई है क्योंकि वे स्थानीय संदर्भ, संस्कृति, इतिहास और जहां वे रहते हैं वहां के लोगों के लिए मायने रखने वाली चीजों की एआई मॉडल की समझ को पकड़ने में विफल रहते हैं।

इस विज्ञापन के नीचे कहानी जारी है। इसके अलावा, मौजूदा भाषा मानदंड मुख्य रूप से एक मॉडल के अनुवाद या बहुविकल्पीय कार्यों पर केंद्रित हैं। सर्वम जैसे भारतीय एआई स्टार्टअप ने बार-बार इंडिक भाषाओं के लिए मानकीकृत बेंचमार्क की अनुपस्थिति को वैश्विक समकक्षों के साथ प्रतिस्पर्धा करने में एक बड़ी बाधा के रूप में पहचाना है।

चूंकि मौजूदा बेंचमार्क मुख्य रूप से अंग्रेजी और यूरोपीय भाषाओं पर केंद्रित हैं, इसलिए वे संभावित रूप से भारत में एआई को अपनाने में बाधा डाल सकते हैं, जहां एआई-संचालित वाक् पहचान के लिए कई उच्चारणों के प्रसंस्करण और स्थानीय भाषाओं के साथ अंग्रेजी के मिश्रण की आवश्यकता होती है। यह भी पढ़ें | Google ने I/O कनेक्ट में भारतीय डेवलपर्स के लिए नए LLM और IndicGenBench AI टूल पेश किए हैं। पश्चिमी संगठनों द्वारा बनाए गए LLM लीडरबोर्ड पर भी पक्षपात का आरोप लगाया गया है।

हाल ही में, गुरुग्राम स्थित शून्य लैब्स ने दावा किया कि उसका स्पीच मॉडल पिंगला एनवीडिया के मॉडल से अधिक स्कोर करने के बावजूद हगिंग फेस के ओपनएएसआर लीडरबोर्ड में शीर्ष पर नहीं था। “हमारे भाषण मॉडल, पिंगला ने 3.1% (शब्द त्रुटि दर) WER बनाम एनवीडिया 5 के साथ महत्वपूर्ण परिणाम पोस्ट किए।

6%. प्रत्येक मीट्रिक के अनुसार, इसे सीधे शीर्ष पर जाना चाहिए था।

इसके बजाय, यह एक ब्लैक बॉक्स प्रक्रिया में फंस गया है, जहां प्रतियोगियों के पास चाबियां हैं,” शून्य लैब्स की सह-संस्थापक और सीईओ रितु मेहरोत्रा ​​ने लिंक्डइन पर एक पोस्ट में कहा। इस विज्ञापन के नीचे कहानी जारी है, ”यह सिर्फ निराशाजनक नहीं है – यह एक चेतावनी है।

यदि “ओपन” एआई को उन्हीं ट्रिलियन-डॉलर खिलाड़ियों द्वारा गेट किया जा सकता है जो चुनौती देने का दावा करते हैं, तो सिस्टम वास्तव में किसके लिए बनाया गया है? उसने जोड़ा।