OpenAI चे नवीन ‘IndQA’ बेंचमार्क Ind LLM ला अंतर भरून काढण्यास मदत करू शकेल का?

Published on

Posted by

Categories:


Ind LLMs ब्रिज – भारताने स्वत:चे भारतीय भाषा मॉडेल तयार करण्याची शर्यत सुरू केली असताना, OpenAI ने एक नवीन बेंचमार्क मूल्यमापन सादर केले आहे, ज्यामध्ये असे म्हटले आहे की, केवळ मॉडेलच्या भाषिक क्षमतेचीच चाचणी करत नाही तर संपूर्ण डोमेनवरील भारतीय सांस्कृतिक संदर्भातील तिचे आकलन देखील होते. IndQA म्हणून ओळखल्या जाणाऱ्या, बेंचमार्क चाचणीमध्ये 12 भाषा आणि 10 सांस्कृतिक डोमेनमधील 2,278 प्रश्नांचा समावेश आहे, जे भारतभरातील 261 तज्ञांच्या भागीदारीत संकलित केले आहे, OpenAI ने सोमवार, 3 नोव्हेंबर रोजी एका ब्लॉग पोस्टमध्ये म्हटले आहे. हे प्रश्न आर्किटेक्चर आणि डिझाईन, कला आणि संस्कृती, इतिहास आणि संस्कृती, एव्हरीथ लाइफ, एव्हरीथ लाइफ, कला आणि संस्कृती यासारख्या विविध विषयांवर आहेत. भाषाशास्त्र, मीडिया आणि मनोरंजन, धर्म आणि अध्यात्म आणि क्रीडा आणि मनोरंजन.

ते मूळ बंगाली, इंग्रजी, हिंदी, हिंग्लिश, कन्नड, मराठी, ओडिया, तेलगू, गुजराती, मल्याळम, पंजाबी आणि तमिळ भाषेत लिहिलेले आहेत. या जाहिरातीच्या खाली कथा पुढे चालू ठेवते “आम्ही संभाषणांमध्ये कोड-स्विचिंगची व्याप्ती लक्षात घेऊन विशेषतः हिंग्लिश जोडले आहे,” OpenAI ने सांगितले.

भारतीय भाषा आणि संस्कृतींभोवती बेंचमार्क तयार करण्यावर AI स्टार्टअपचा फोकस लक्षणीय आहे कारण भारत ChatGPT साठी युनायटेड स्टेट्स नंतर दुसरी सर्वात मोठी बाजारपेठ म्हणून उदयास आला आहे. 4 नोव्हेंबर रोजी, OpenAI ने बेंगळुरू येथे देवडे एक्सचेंज डेव्हलपर कॉन्फरन्सचे आयोजन केले होते जिथे त्यांनी अनेक भारत-विशिष्ट घोषणा केल्या. मर्यादित प्रमोशनल कालावधीत साइन अप करणाऱ्या भारतातील वापरकर्त्यांसाठी कंपनी चॅटजीपीटी गो सबस्क्रिप्शन प्लॅन एका वर्षासाठी मोफत देत आहे.

“भारतात सुमारे एक अब्ज लोक आहेत जे त्यांची प्राथमिक भाषा म्हणून इंग्रजी वापरत नाहीत, 22 अधिकृत भाषा (50 दशलक्ष भाषिकांसह किमान सात सह) आणि ChatGPT ची दुसरी सर्वात मोठी बाजारपेठ आहे,” OpenAI ने सांगितले. “इतर भाषा आणि प्रदेशांसाठी समान बेंचमार्क तयार करणे हे आमचे उद्दिष्ट असले तरी, भारत हा एक सुस्पष्ट प्रारंभ बिंदू आहे,” असे त्यात म्हटले आहे. IndQA बेंचमार्क कसे कार्य करते बेंचमार्क चाचणीचा भाग म्हणून, AI मॉडेल्सना भारतीय भाषेत सांस्कृतिकदृष्ट्या आधारभूत प्रॉम्प्टच्या स्वरूपात प्रश्न विचारले जातात.

प्रत्येक प्रश्न ऑडिटेबिलिटीसाठी इंग्रजी भाषांतर आणि तज्ञांच्या अपेक्षा प्रतिबिंबित करणारे एक आदर्श उत्तर देखील देतो. या जाहिरातीच्या खाली कथा सुरू आहे मॉडेलचा प्रतिसाद त्या विशिष्ट प्रश्नासाठी डोमेन तज्ञांनी लिहिलेल्या निकषांनुसार श्रेणीबद्ध केला आहे.

हा निकष आदर्श उत्तरामध्ये काय समाविष्ट करावे किंवा टाळावे हे स्पष्ट करते आणि प्रत्येकाला रुब्रिक-आधारित दृष्टिकोनातील महत्त्वाच्या आधारावर भारित बिंदू मूल्य दिले जाते. शेवटी, एआय मॉडेल ग्रेडर प्रत्येक निकष पूर्ण झाला आहे की नाही हे तपासतो आणि एकूण संभाव्य गुणांनी भागलेल्या निकषांसाठी गुणांची बेरीज मोजून अंतिम स्कोअर तयार करतो. निश्चितपणे, IndQA ची रचना LLM लीडरबोर्ड म्हणून केली गेली नाही जी मॉडेल्सना त्यांच्या स्कोअरवर आधारित रँक करते.

याव्यतिरिक्त, मॉडेलचे क्रॉस-लँग्वेज स्कोअर हे सांगण्यासाठी वापरले जाऊ शकत नाही की ते हिंदीपेक्षा कन्नडमध्ये चांगले आहे. त्याऐवजी, स्कोअर हे OpenAI नुसार मॉडेल फॅमिली किंवा कॉन्फिगरेशनमध्ये कालांतराने सुधारणा मोजण्यासाठी असतात. सांस्कृतिक सूक्ष्मता कॅप्चर करण्यासाठी त्याची रचना कशी केली गेली, प्रादेशिक आणि सांस्कृतिक संदर्भाशी संबंधित कठीण, तर्क-केंद्रित प्रश्नांचा मसुदा तयार करण्याचे काम दहा वेगवेगळ्या डोमेनमधील तज्ञांना आउटसोर्स केले गेले, OpenAI ने सांगितले.

261 तज्ञांच्या या गटात पत्रकार, भाषाशास्त्रज्ञ, विद्वान, कलाकार आणि उद्योग अभ्यासकांचा समावेश होता, ज्यात पुरस्कार विजेते तेलगू अभिनेता, मल्याळम कवी, पंजाबी संगीतकार आणि आंतरराष्ट्रीय बुद्धिबळ ग्रँडमास्टर यांचा समावेश होता. या जाहिरातीच्या खाली स्टोरी सुरू आहे त्याच्या पुढील चरणात, OpenAI ने GPT-4o, o3 आणि GPT-4 सारख्या स्वतःच्या AI मॉडेल्सवर चाचणी करून प्रश्न फिल्टर केले.

5. “आम्ही फक्त तेच प्रश्न ठेवले जेथे यापैकी बहुतेक मॉडेल्स स्वीकारार्ह उत्तरे देऊ शकले नाहीत, प्रगतीसाठी हेडरूम जतन केले,” असे त्यात म्हटले आहे. शेवटी, तज्ञांनी आदर्श उत्तरे आणि त्यांचे इंग्रजी भाषांतर जोडले ज्यानंतर समवयस्क पुनरावलोकन आणि पुनरावृत्ती निराकरणे झाली.

ओपनएआयचे स्वतःचे मॉडेल कोठे संघर्ष करत आहेत यावर आधारित चाचणी प्रश्न निवडले गेले असल्याने, कंपनीने म्हटले आहे की इतर मॉडेल्सच्या तुलनेत तिचे मॉडेल गैरसोयीत असू शकतात. IndQA इंडिक एलएलएमसाठी खेळाचे क्षेत्र समतल करू शकते का? भारतीय भाषांसाठी बनवलेले मोठे लँग्वेज मॉडेल (LLM) जागतिक AI शस्त्रास्त्रांच्या शर्यतीत भारतापेक्षा वेगळे ठरू शकतात.

तथापि, इंडिक एलएलएम विकसित करण्यासमोर दोन प्रमुख आव्हाने आहेत: उच्च-गुणवत्तेच्या डेटासेटचा अभाव आणि इंडिक एलएलएमचे मूल्यांकन करण्यासाठी स्थानिक बेंचमार्कची अनुपस्थिती. गेल्या काही वर्षांपासून, AI मॉडेल्सच्या प्रगतीचा मागोवा प्रामुख्याने MMMLU आणि MGSM सारख्या परिचित, बहुभाषिक बेंचमार्कच्या संचाद्वारे घेतला जातो. परंतु या बेंचमार्कवर टीका केली गेली आहे कारण ते स्थानिक संदर्भ, संस्कृती, इतिहास आणि ते जिथे राहतात त्या लोकांसाठी महत्त्वाच्या असलेल्या गोष्टींबद्दल AI मॉडेलचे आकलन कॅप्चर करण्यात ते अयशस्वी ठरतात.

या जाहिरातीच्या खाली कथा पुढे चालू राहते, शिवाय, विद्यमान भाषेचे बेंचमार्क प्रामुख्याने मॉडेलच्या भाषांतरावर किंवा एकाधिक-निवडीच्या कार्यांवर केंद्रित असतात. सर्वम सारख्या भारतीय AI स्टार्टअप्सनी वारंवार भारतीय भाषांसाठी मानकीकृत बेंचमार्कची अनुपस्थिती जागतिक समकक्षांशी स्पर्धा करण्यासाठी एक प्रमुख अडथळा म्हणून ओळखले आहे.

विद्यमान बेंचमार्क मुख्यत्वे इंग्रजी आणि युरोपीय भाषांवर केंद्रित असल्याने, ते भारतामध्ये AI दत्तक घेण्यास अडथळा आणू शकतात जेथे AI-सक्षम उच्चार ओळखण्यासाठी अनेक उच्चारांवर प्रक्रिया करणे आणि स्थानिक भाषांमध्ये इंग्रजीचे मिश्रण करणे आवश्यक आहे. तसेच वाचा | Google ने भारतीय विकासकांसाठी नवीन LLMs आणि IndicGenBench AI टूल सादर केले I/O Connect LLM लीडरबोर्डवर पाश्चात्य संस्थांद्वारे राखले गेलेले पक्षपातीपणाचा आरोप देखील केला गेला आहे.

अलीकडे, गुरुग्राम-आधारित शुन्या लॅब्सने दावा केला आहे की त्यांचे भाषण मॉडेल पिंगला हगिंग फेसच्या ओपनएएसआर लीडरबोर्डमध्ये Nvidia च्या मॉडेलपेक्षा जास्त गुण मिळवूनही शीर्षस्थानी नाही. “आमचे भाषण मॉडेल, पिंगला, ने 3. 1% (शब्द त्रुटी दर) WER विरुद्ध Nvidia’s 5 सह यशस्वी परिणाम पोस्ट केले.

६%. प्रत्येक मेट्रिकनुसार, ते थेट शीर्षस्थानी गेले पाहिजे.

त्याऐवजी, ते एका ब्लॅक बॉक्स प्रक्रियेत अडकले आहे जिथे स्पर्धकांनी चाव्या धरल्या आहेत,” रितू मेहरोत्रा, सह-संस्थापक आणि शुन्या लॅब्सचे सीईओ, लिंक्डइनवरील एका पोस्टमध्ये म्हणाले. या जाहिरातीच्या खाली कथा पुढे सांगते “हे फक्त निराशाजनक नाही – ही एक चेतावणी आहे.

जर “ओपन” AI ला आव्हान देण्याचा दावा करते त्याच ट्रिलियन-डॉलर खेळाडूंद्वारे गेट केले जाऊ शकते, तर ही प्रणाली खरोखर कोणासाठी तयार केली गेली आहे?” तिने जोडले.