OpenAI యొక్క కొత్త ‘IndQA’ బెంచ్‌మార్క్ Ind LLMలకు అంతరాన్ని తగ్గించడంలో సహాయపడుతుందా?

Published on

Posted by

Categories:


Ind LLMల వంతెన – భారతదేశం తన స్వంత ఇండిక్ లాంగ్వేజ్ మోడల్‌లను నిర్మించడానికి పోటీ పడుతుండగా, OpenAI కొత్త బెంచ్‌మార్క్ మూల్యాంకనాన్ని ప్రవేశపెట్టింది, ఇది మోడల్ యొక్క భాషా సామర్థ్యాన్ని మాత్రమే కాకుండా డొమైన్‌లలో భారతీయ సాంస్కృతిక సందర్భంపై దాని పట్టును కూడా పరీక్షిస్తుంది. IndQA అని పిలవబడే, బెంచ్‌మార్క్ పరీక్షలో 12 భాషలు మరియు 10 సాంస్కృతిక డొమైన్‌లలో 2,278 ప్రశ్నలు ఉంటాయి, భారతదేశం అంతటా 261 మంది నిపుణుల భాగస్వామ్యంతో సంకలనం చేయబడింది, నవంబర్ 3, సోమవారం నాడు ఒక బ్లాగ్ పోస్ట్‌లో ఈ ప్రశ్నలు ఆర్కిటెక్చర్ & డిజైన్, ఆర్ట్స్ & కల్చర్, ఎవ్రీడే లైఫ్, ఎవ్రీడే లైఫ్, ఎవ్రీడే లైఫ్, వంటి వివిధ అంశాలపై విస్తరించాయి. సాహిత్యం & భాషాశాస్త్రం, మీడియా & వినోదం, మతం & ఆధ్యాత్మికత, మరియు క్రీడలు & వినోదం.

అవి బెంగాలీ, ఇంగ్లీష్, హిందీ, హింగ్లీష్, కన్నడ, మరాఠీ, ఒడియా, తెలుగు, గుజరాతీ, మలయాళం, పంజాబీ మరియు తమిళంలో స్థానికంగా వ్రాయబడ్డాయి. ఈ ప్రకటన క్రింద కథ కొనసాగుతుంది “సంభాషణలలో కోడ్-స్విచింగ్ యొక్క ప్రాబల్యం కారణంగా మేము ప్రత్యేకంగా హింగ్లీష్‌ని జోడించాము” అని OpenAI తెలిపింది.

యునైటెడ్ స్టేట్స్ తర్వాత చాట్‌జిపిటికి భారతదేశం రెండవ అతిపెద్ద మార్కెట్‌గా ఉద్భవించినందున భారతీయ భాషలు మరియు సంస్కృతుల చుట్టూ బెంచ్‌మార్క్‌ను నిర్మించడంపై AI స్టార్టప్ దృష్టి సారించింది. నవంబర్ 4న, OpenAI బెంగళూరులో తన దేవ్‌డే ఎక్స్ఛేంజ్ డెవలపర్ కాన్ఫరెన్స్‌ను నిర్వహించింది, అక్కడ అది అనేక భారతదేశానికి సంబంధించిన ప్రకటనలను చేసింది. పరిమిత ప్రమోషనల్ వ్యవధిలో సైన్ అప్ చేసే భారతదేశంలోని వినియోగదారులకు కంపెనీ తన ChatGPT గో సబ్‌స్క్రిప్షన్ ప్లాన్‌ను ఒక సంవత్సరం పాటు ఉచితంగా అందిస్తోంది.

“భారతదేశంలో దాదాపు ఒక బిలియన్ ప్రజలు ఇంగ్లీషును తమ ప్రాథమిక భాషగా ఉపయోగించరు, 22 అధికారిక భాషలు (కనీసం ఏడు 50 మిలియన్లకు పైగా మాట్లాడేవారు) మరియు ChatGPT యొక్క రెండవ అతిపెద్ద మార్కెట్” అని OpenAI తెలిపింది. “ఇతర భాషలు మరియు ప్రాంతాలకు ఇలాంటి బెంచ్‌మార్క్‌లను సృష్టించడం మా లక్ష్యం అయితే, భారతదేశం స్పష్టమైన ప్రారంభ స్థానం” అని అది జోడించింది. IndQA బెంచ్‌మార్క్ ఎలా పనిచేస్తుంది బెంచ్‌మార్క్ పరీక్షలో భాగంగా, AI మోడల్‌లను భారతీయ భాషలో సాంస్కృతికంగా గ్రౌన్దేడ్ ప్రాంప్ట్ రూపంలో ప్రశ్నలు అడుగుతారు.

ప్రతి ప్రశ్నకు ఆడిటబిలిటీ కోసం ఆంగ్ల అనువాదం మరియు నిపుణుల అంచనాలను ప్రతిబింబించే ఆదర్శవంతమైన సమాధానం కూడా వస్తుంది. కథనం ఈ ప్రకటన దిగువన కొనసాగుతుంది మోడల్ ప్రతిస్పందన నిర్దిష్ట ప్రశ్నకు డొమైన్ నిపుణులు వ్రాసిన ప్రమాణాలకు అనుగుణంగా గ్రేడ్ చేయబడింది.

ఈ ప్రమాణం ఆదర్శవంతమైన సమాధానంలో ఏమి చేర్చాలి లేదా నివారించాలి అని వివరిస్తుంది మరియు ప్రతిదానికి రూబ్రిక్-ఆధారిత విధానంలో దాని ప్రాముఖ్యత ఆధారంగా వెయిటెడ్ పాయింట్ విలువ ఇవ్వబడుతుంది. ముగింపులో, AI మోడల్ గ్రేడర్ ప్రతి ప్రమాణానికి అనుగుణంగా ఉందో లేదో తనిఖీ చేస్తుంది మరియు మొత్తం సాధ్యం పాయింట్లతో భాగించబడిన ప్రమాణాల కోసం పాయింట్ల మొత్తాన్ని లెక్కించడం ద్వారా తుది స్కోర్‌ను రూపొందిస్తుంది. ఖచ్చితంగా చెప్పాలంటే, మోడల్‌లకు వాటి స్కోర్‌ల ఆధారంగా ర్యాంక్ ఇచ్చే LLM లీడర్‌బోర్డ్‌గా IndQA రూపొందించబడలేదు.

అదనంగా, మోడల్ యొక్క క్రాస్-లాంగ్వేజ్ స్కోర్‌లు అది హిందీ కంటే కన్నడలో మెరుగ్గా ఉందని పేర్కొనడానికి ఉపయోగించబడదు. బదులుగా, OpenAI ప్రకారం మోడల్ కుటుంబం లేదా కాన్ఫిగరేషన్‌లో కాలక్రమేణా మెరుగుదలని కొలవడానికి స్కోర్‌లు ఉద్దేశించబడ్డాయి. సాంస్కృతిక సూక్ష్మభేదాన్ని సంగ్రహించడానికి ఇది ఎలా రూపొందించబడింది? ప్రాంతీయ మరియు సాంస్కృతిక సందర్భంతో ముడిపడి ఉన్న కష్టమైన, తార్కిక-కేంద్రీకృత ప్రశ్నలను రూపొందించే పనిని పది వేర్వేరు డొమైన్‌లలోని నిపుణులకు అవుట్‌సోర్స్ చేయడం జరిగిందని OpenAI తెలిపింది.

261 మంది నిపుణులతో కూడిన ఈ బృందంలో జర్నలిస్టులు, భాషావేత్తలు, పండితులు, కళాకారులు మరియు పరిశ్రమ అభ్యాసకులు ఉన్నారు, వీరిలో అవార్డు గెలుచుకున్న తెలుగు నటుడు, మలయాళ కవి, పంజాబీ సంగీత స్వరకర్త మరియు అంతర్జాతీయ చెస్ గ్రాండ్‌మాస్టర్ ఉన్నారు. ఈ ప్రకటన దిగువన కథనం కొనసాగుతుంది, దాని తదుపరి దశలో, OpenAI ప్రశ్నలను GPT‑4o, o3 మరియు GPT‑4 వంటి దాని స్వంత AI మోడల్‌లకు వ్యతిరేకంగా పరీక్షించడం ద్వారా వాటిని ఫిల్టర్ చేసింది.

5. “ఈ మోడళ్లలో ఎక్కువ భాగం ఆమోదయోగ్యమైన సమాధానాలను అందించడంలో విఫలమైన ప్రశ్నలను మాత్రమే మేము ఉంచాము, పురోగతి కోసం హెడ్‌రూమ్‌ను సంరక్షించాము” అని అది పేర్కొంది. చివరగా, నిపుణులు ఆదర్శ సమాధానాలను జోడించారు మరియు వారి ఆంగ్ల అనువాదాలను పీర్ సమీక్ష మరియు పునరావృత పరిష్కారాలు అనుసరించాయి.

OpenAI యొక్క స్వంత మోడల్‌లు ఎక్కడ ఇబ్బంది పడ్డాయనే దాని ఆధారంగా పరీక్ష ప్రశ్నలు ఎంపిక చేయబడినందున, ఇతర మోడల్‌లతో పోలిస్తే దాని మోడల్‌లు ప్రతికూలంగా ఉండవచ్చని కంపెనీ తెలిపింది. IndQA ఇండిక్ LLMల కోసం మైదానాన్ని సమం చేయగలదా? భారతీయ భాషల కోసం రూపొందించబడిన పెద్ద భాషా నమూనాలు (LLMలు) గ్లోబల్ AI ఆయుధాల రేసులో భారతదేశం నుండి విభిన్నంగా ఉపయోగపడతాయి.

అయినప్పటికీ, ఇండిక్ LLMలను అభివృద్ధి చేయడం రెండు కీలక సవాళ్లను ఎదుర్కొంటుంది: అధిక-నాణ్యత డేటాసెట్‌లు లేకపోవడం మరియు ఇండిక్ LLMలను మూల్యాంకనం చేయడానికి స్థానిక బెంచ్‌మార్క్‌లు లేకపోవడం. గత కొన్ని సంవత్సరాలుగా, AI నమూనాల పురోగతి ప్రాథమికంగా MMMLU మరియు MGSM వంటి సుపరిచితమైన, బహుభాషా బెంచ్‌మార్క్‌ల సెట్ ద్వారా ట్రాక్ చేయబడింది. కానీ ఈ బెంచ్‌మార్క్‌లు విమర్శించబడ్డాయి ఎందుకంటే అవి స్థానిక సందర్భం, సంస్కృతి, చరిత్ర మరియు వారు నివసించే వ్యక్తులకు సంబంధించిన విషయాలపై AI మోడల్ యొక్క అవగాహనను సంగ్రహించడంలో విఫలమయ్యాయి.

ఈ ప్రకటన దిగువన కథనం కొనసాగుతుంది ఇంకా, ఇప్పటికే ఉన్న భాషా ప్రమాణాలు ప్రాథమికంగా మోడల్ అనువాదం లేదా బహుళ-ఎంపిక పనులపై దృష్టి సారించాయి. సర్వం వంటి భారతీయ AI స్టార్టప్‌లు గ్లోబల్ కౌంటర్‌పార్ట్‌లతో పోటీ పడటానికి భారతీయ భాషలకు ప్రామాణికమైన బెంచ్‌మార్క్‌లు లేకపోవడాన్ని ఒక ప్రధాన అవరోధంగా పదే పదే గుర్తించాయి.

ఇప్పటికే ఉన్న బెంచ్‌మార్క్‌లు ప్రధానంగా ఇంగ్లీష్ మరియు యూరోపియన్ భాషలపై దృష్టి కేంద్రీకరించినందున, అవి భారతదేశంలో AI స్వీకరణకు ఆటంకం కలిగిస్తాయి, ఇక్కడ AI-శక్తితో కూడిన ప్రసంగ గుర్తింపుకు బహుళ స్వరాలు ప్రాసెస్ చేయడం మరియు స్థానిక భాషలతో ఆంగ్లాన్ని కలపడం అవసరం. ఇది కూడా చదవండి | Google I/O Connect LLM లీడర్‌బోర్డ్‌లలో భారతీయ డెవలపర్‌ల కోసం కొత్త LLMలు మరియు IndicGenBench AI సాధనాన్ని పరిచయం చేసింది, పాశ్చాత్య సంస్థలచే నిర్వహించబడే పక్షపాతం కూడా ఆరోపించబడింది.

ఇటీవల, గురుగ్రామ్‌కు చెందిన శూన్య ల్యాబ్స్, ఎన్విడియా మోడల్ కంటే ఎక్కువ స్కోర్ చేసినప్పటికీ, హగ్గింగ్ ఫేస్ ఓపెన్‌ఏఎస్ఆర్ లీడర్‌బోర్డ్‌లో పింగలా స్పీచ్ మోడల్ అగ్రస్థానంలో లేదని పేర్కొంది. “మా స్పీచ్ మోడల్, పింగళ, 3. 1% (వర్డ్ ఎర్రర్ రేట్) WER vs Nvidia 5తో పురోగతి ఫలితాలను పోస్ట్ చేసింది.

6% ప్రతి కొలమానం ప్రకారం, అది నేరుగా పైకి వెళ్లి ఉండాలి.

బదులుగా, ఇది బ్లాక్ బాక్స్ ప్రక్రియలో చిక్కుకుంది, ఇక్కడ పోటీదారులు కీలను పట్టుకుంటారు,” అని శూన్య ల్యాబ్స్ సహ వ్యవస్థాపకుడు మరియు CEO రీతు మెహ్రోత్రా లింక్డ్‌ఇన్‌లో ఒక పోస్ట్‌లో తెలిపారు. ఈ ప్రకటన క్రింద కథ కొనసాగుతుంది “ఇది కేవలం నిరాశపరిచేది కాదు – ఇది ఒక హెచ్చరిక.

“ఓపెన్” AIని అదే ట్రిలియన్-డాలర్ ప్లేయర్‌లు సవాలు చేయగలిగితే, ఆ వ్యవస్థ నిజంగా ఎవరి కోసం నిర్మించబడింది?” ఆమె జోడించింది.