OpenAI இன் புதிய ‘IndQA’ பெஞ்ச்மார்க், Ind LLMs இடைவெளியைக் குறைக்க உதவுமா?

Published on

Posted by

Categories:


Ind LLMs பிரிட்ஜ் – இந்தியா தனது சொந்த இந்திய மொழி மாதிரிகளை உருவாக்க பந்தயத்தில் ஈடுபட்டுள்ள நிலையில், OpenAI ஒரு புதிய அளவுகோல் மதிப்பீட்டை அறிமுகப்படுத்தியுள்ளது, இது ஒரு மாதிரியின் மொழியியல் திறனை மட்டுமல்ல, டொமைன்கள் முழுவதும் இந்திய கலாச்சார சூழலை அதன் பிடியையும் சோதிக்கிறது. IndQA என அழைக்கப்படும், பெஞ்ச்மார்க் சோதனையானது 12 மொழிகள் மற்றும் 10 கலாச்சார களங்களில் 2,278 கேள்விகளை உள்ளடக்கியது, இது இந்தியா முழுவதிலும் இருந்து 261 நிபுணர்களுடன் இணைந்து தொகுக்கப்பட்டுள்ளது, நவம்பர் 3 திங்கட்கிழமை ஒரு வலைப்பதிவு இடுகையில் இந்த கேள்விகள் கட்டிடக்கலை & வடிவமைப்பு, கலை & கலாச்சாரம், அன்றாட வாழ்க்கை, வாழ்க்கை மற்றும் கலாச்சாரம், அன்றாட வாழ்க்கை, வாழ்க்கை மற்றும் கலாச்சாரம் போன்ற பல்வேறு தலைப்புகளில் உள்ளன. இலக்கியம் & மொழியியல், ஊடகம் & பொழுதுபோக்கு, மதம் & ஆன்மீகம் மற்றும் விளையாட்டு & பொழுதுபோக்கு.

அவை பெங்காலி, ஆங்கிலம், ஹிந்தி, ஹிங்கிலிஷ், கன்னடம், மராத்தி, ஒடியா, தெலுங்கு, குஜராத்தி, மலையாளம், பஞ்சாபி மற்றும் தமிழ் மொழிகளில் எழுதப்பட்டுள்ளன. இந்த விளம்பரத்திற்குக் கீழே கதை தொடர்கிறது “உரையாடல்களில் குறியீடு மாறுதலின் பரவலைக் கருத்தில் கொண்டு நாங்கள் குறிப்பாக ஹிங்கிலிஷைச் சேர்த்துள்ளோம்” என்று OpenAI தெரிவித்துள்ளது.

அமெரிக்காவிற்கு அடுத்தபடியாக ChatGPTக்கான இரண்டாவது பெரிய சந்தையாக இந்தியா உருவெடுத்திருப்பதால், இந்திய மொழிகள் மற்றும் கலாச்சாரங்களைச் சுற்றி ஒரு அளவுகோலை உருவாக்குவதில் AI ஸ்டார்ட்அப் கவனம் செலுத்துவது குறிப்பிடத்தக்கது. நவம்பர் 4 அன்று, ஓபன்ஏஐ தனது தேவ்டே எக்ஸ்சேஞ்ச் டெவலப்பர் மாநாட்டை பெங்களூரில் நடத்தியது, அங்கு பல இந்தியா சார்ந்த அறிவிப்புகளை வெளியிட்டது. நிறுவனம் தனது ChatGPT Go சந்தா திட்டத்தை இந்தியாவில் உள்ள பயனர்களுக்கு ஒரு வருடத்திற்கு இலவசமாக வழங்குகிறது.

“இந்தியாவில் ஆங்கிலத்தை முதன்மை மொழியாகப் பயன்படுத்தாத ஒரு பில்லியன் மக்கள் உள்ளனர், 22 அதிகாரப்பூர்வ மொழிகள் (குறைந்தபட்சம் 50 மில்லியனுக்கும் அதிகமான பேசுபவர்களைக் கொண்ட ஏழு மொழிகள் உட்பட) மற்றும் ChatGPT இன் இரண்டாவது பெரிய சந்தையாகும்” என்று OpenAI தெரிவித்துள்ளது. “பிற மொழிகள் மற்றும் பிராந்தியங்களுக்கு ஒரே மாதிரியான அளவுகோல்களை உருவாக்குவதே எங்கள் நோக்கம் என்றாலும், இந்தியா ஒரு வெளிப்படையான தொடக்க புள்ளியாகும்,” என்று அது மேலும் கூறியது. IndQA பெஞ்ச்மார்க் எப்படி வேலை செய்கிறது பெஞ்ச்மார்க் சோதனையின் ஒரு பகுதியாக, AI மாதிரிகள் இந்திய மொழியில் கலாச்சார அடிப்படையிலான ப்ராம்ட் வடிவத்தில் கேள்விகள் கேட்கப்படுகின்றன.

ஒவ்வொரு கேள்வியும் தணிக்கைக்கான ஆங்கில மொழிபெயர்ப்பு மற்றும் நிபுணர்களின் எதிர்பார்ப்புகளைப் பிரதிபலிக்கும் சிறந்த பதிலுடன் வருகிறது. இந்த விளம்பரத்திற்குக் கீழே கதை தொடர்கிறது. குறிப்பிட்ட கேள்விக்கான டொமைன் நிபுணர்களால் எழுதப்பட்ட அளவுகோல்களுக்கு எதிராக மாதிரியின் பதில் தரப்படுத்தப்பட்டுள்ளது.

இந்த அளவுகோல் ஒரு சிறந்த பதிலில் எதைச் சேர்க்க வேண்டும் அல்லது தவிர்க்க வேண்டும் என்பதைக் குறிப்பிடுகிறது, மேலும் ஒவ்வொருவருக்கும் ரூப்ரிக் அடிப்படையிலான அணுகுமுறையில் அதன் முக்கியத்துவத்தின் அடிப்படையில் எடையிடப்பட்ட புள்ளி மதிப்பு வழங்கப்படுகிறது. முடிவில், ஒரு AI மாதிரி கிரேடர் ஒவ்வொரு அளவுகோலும் பூர்த்தி செய்யப்படுகிறதா என்பதைச் சரிபார்த்து, மொத்த சாத்தியமான புள்ளிகளால் வகுக்கப்படும் அளவுகோல்களுக்கான புள்ளிகளின் கூட்டுத்தொகையைக் கணக்கிடுவதன் மூலம் இறுதி மதிப்பெண்ணை உருவாக்குகிறார். நிச்சயமாக, IndQA ஆனது LLM லீடர்போர்டாக வடிவமைக்கப்படவில்லை, இது மாதிரிகளை அவற்றின் மதிப்பெண்களின் அடிப்படையில் தரவரிசைப்படுத்துகிறது.

கூடுதலாக, ஒரு மாதிரியின் குறுக்கு மொழி மதிப்பெண்களைப் பயன்படுத்த முடியாது, உதாரணமாக, ஹிந்தியை விட கன்னடத்தில் சிறந்தது. அதற்கு பதிலாக, OpenAI இன் படி, ஒரு மாதிரி குடும்பம் அல்லது உள்ளமைவுக்குள் காலப்போக்கில் முன்னேற்றத்தை அளவிட மதிப்பெண்கள் குறிக்கப்படுகின்றன. கலாச்சார நுணுக்கத்தைப் பிடிக்க இது எவ்வாறு வடிவமைக்கப்பட்டுள்ளது, பிராந்திய மற்றும் கலாச்சார சூழலுடன் தொடர்புடைய கடினமான, பகுத்தறிவு-மையப்படுத்தப்பட்ட கேள்விகளை உருவாக்கும் பணி பத்து வெவ்வேறு களங்களில் உள்ள நிபுணர்களிடம் அவுட்சோர்ஸ் செய்யப்பட்டது, OpenAI தெரிவித்துள்ளது.

261 நிபுணர்களைக் கொண்ட இந்தக் குழுவில் பத்திரிகையாளர்கள், மொழியியலாளர்கள், அறிஞர்கள், கலைஞர்கள் மற்றும் தொழில் வல்லுநர்கள் இருந்தனர், இதில் விருது பெற்ற தெலுங்கு நடிகர், மலையாளக் கவிஞர், பஞ்சாபி இசையமைப்பாளர் மற்றும் சர்வதேச செஸ் கிராண்ட்மாஸ்டர் ஆகியோர் அடங்குவர். இந்த விளம்பரத்திற்கு கீழே கதை தொடர்கிறது, அதன் அடுத்த கட்டத்தில், GPT‑4o, o3 மற்றும் GPT‑4 போன்ற அதன் சொந்த AI மாதிரிகளுக்கு எதிராக கேள்விகளை சோதிப்பதன் மூலம் OpenAI கேள்விகளை வடிகட்டியது.

5. “இந்த மாதிரிகளில் பெரும்பாலானவை ஏற்றுக்கொள்ளக்கூடிய பதில்களை உருவாக்கத் தவறிய கேள்விகளை மட்டுமே நாங்கள் வைத்திருக்கிறோம், முன்னேற்றத்திற்கான தலையணையைப் பாதுகாக்கிறோம்,” என்று அது கூறியது. இறுதியாக, வல்லுநர்கள் சிறந்த பதில்களையும் அவற்றின் ஆங்கில மொழிபெயர்ப்புகளையும் சேர்த்தனர், அதைத் தொடர்ந்து சக மதிப்பாய்வு மற்றும் மீண்டும் திருத்தங்கள் செய்யப்பட்டன.

OpenAI இன் சொந்த மாடல்கள் போராடிய இடத்தின் அடிப்படையில் சோதனை கேள்விகள் தேர்ந்தெடுக்கப்பட்டதால், மற்ற மாடல்களுடன் ஒப்பிடும்போது அதன் மாடல்கள் பாதகமாக இருக்கலாம் என்று நிறுவனம் கூறியது. IndQA இந்திய LLMகளுக்கான விளையாட்டுக் களத்தை சமன் செய்ய முடியுமா? இந்திய மொழிகளுக்காக உருவாக்கப்பட்ட பெரிய மொழி மாதிரிகள் (எல்எல்எம்கள்) உலகளாவிய AI ஆயுதப் போட்டியில் இந்தியாவிலிருந்து வேறுபடுத்தியாகச் செயல்படும்.

இருப்பினும், இண்டிக் எல்எல்எம்களை உருவாக்குவது இரண்டு முக்கிய சவால்களை எதிர்கொள்கிறது: உயர்தர தரவுத்தொகுப்புகள் இல்லாமை மற்றும் இந்திய எல்எல்எம்களை மதிப்பிடுவதற்கான உள்ளூர் வரையறைகள் இல்லாதது. கடந்த சில ஆண்டுகளாக, AI மாதிரிகளின் முன்னேற்றம் முதன்மையாக MMMLU மற்றும் MGSM போன்ற பரிச்சயமான, பன்மொழி அளவுகோல்களின் மூலம் கண்காணிக்கப்படுகிறது. ஆனால், உள்ளூர் சூழல், கலாச்சாரம், வரலாறு மற்றும் அவர்கள் வசிக்கும் மக்களுக்கு முக்கியமான விஷயங்களைப் பற்றிய AI மாதிரியின் புரிதலைப் பிடிக்கத் தவறியதால் இந்த அளவுகோல்கள் விமர்சிக்கப்பட்டுள்ளன.

இந்த விளம்பரத்திற்குக் கீழே கதை தொடர்கிறது மேலும், ஏற்கனவே உள்ள மொழி வரையறைகள் முதன்மையாக ஒரு மாதிரியின் மொழிபெயர்ப்பு அல்லது பல தேர்வுப் பணிகளில் கவனம் செலுத்துகின்றன. சர்வம் போன்ற இந்திய AI ஸ்டார்ட்அப்கள், இந்திய மொழிகளுக்கான தரப்படுத்தப்பட்ட அளவுகோல்கள் இல்லாததை, உலகளாவிய சகாக்களுடன் போட்டியிட ஒரு பெரிய தடையாக மீண்டும் மீண்டும் அடையாளம் கண்டுள்ளன.

தற்போதுள்ள வரையறைகள் முக்கியமாக ஆங்கிலம் மற்றும் ஐரோப்பிய மொழிகளில் கவனம் செலுத்துவதால், AI-இயக்கப்படும் பேச்சு அங்கீகாரத்திற்கு பல உச்சரிப்புகளைச் செயலாக்குதல் மற்றும் உள்ளூர் மொழிகளுடன் ஆங்கிலத்தை கலக்குதல் தேவைப்படும் இடத்தில் அவை இந்தியாவில் AI ஏற்றுக்கொள்ளப்படுவதைத் தடுக்கலாம். இதையும் படியுங்கள் | மேற்கத்திய நிறுவனங்களால் பராமரிக்கப்படும் I/O Connect LLM லீடர்போர்டுகளில் இந்திய டெவலப்பர்களுக்காக புதிய LLMகள் மற்றும் IndicGenBench AI கருவியை Google அறிமுகப்படுத்துகிறது.

சமீபத்தில், குருகிராமில் உள்ள ஷுன்யா லேப்ஸ், அதன் பேச்சு மாதிரியான பிங்கலா, என்விடியாவின் மாடலை விட அதிக மதிப்பெண் பெற்றிருந்தாலும் ஹக்கிங் ஃபேஸின் OpenASR லீடர்போர்டில் முதலிடத்தில் இல்லை என்று கூறியது. “எங்கள் பேச்சு மாதிரியான பிங்கலா, 3. 1% (வார்த்தை பிழை விகிதம்) WER vs Nvidia’s 5 உடன் திருப்புமுனை முடிவுகளை வெளியிட்டது.

6% ஒவ்வொரு அளவீட்டிலும், அது நேராக மேலே சென்றிருக்க வேண்டும்.

அதற்குப் பதிலாக, போட்டியாளர்கள் சாவியை வைத்திருக்கும் கருப்புப் பெட்டிச் செயல்பாட்டில் இது சிக்கியுள்ளது,” என்று ஷுன்யா லேப்ஸின் இணை நிறுவனரும் தலைமை நிர்வாக அதிகாரியுமான ரிது மெஹ்ரோத்ரா லிங்க்ட்இனில் ஒரு இடுகையில் கூறினார். இந்த விளம்பரத்திற்குக் கீழே கதை தொடர்கிறது “இது ஏமாற்றமளிக்கவில்லை – இது ஒரு எச்சரிக்கை.

“திறந்த” AI ஐ சவால் செய்வதாகக் கூறும் அதே டிரில்லியன் டாலர் பிளேயர்களால் நுழைய முடியும் என்றால், உண்மையில் யாருக்காக உருவாக்கப்பட்டுள்ளது?” அவள் சேர்த்தாள்.