Ind LLMల వంతెన – భారతదేశం తన స్వంత ఇండిక్ లాంగ్వేజ్ మోడల్లను నిర్మించడానికి పోటీ పడుతుండగా, OpenAI కొత్త బెంచ్మార్క్ మూల్యాంకనాన్ని ప్రవేశపెట్టింది, ఇది మోడల్ యొక్క భాషా సామర్థ్యాన్ని మాత్రమే కాకుండా డొమైన్లలో భారతీయ సాంస్కృతిక సందర్భంపై దాని పట్టును కూడా పరీక్షిస్తుంది. IndQA అని పిలవబడే, బెంచ్మార్క్ పరీక్షలో 12 భాషలు మరియు 10 సాంస్కృతిక డొమైన్లలో 2,278 ప్రశ్నలు ఉంటాయి, భారతదేశం అంతటా 261 మంది నిపుణుల భాగస్వామ్యంతో సంకలనం చేయబడింది, నవంబర్ 3, సోమవారం నాడు ఒక బ్లాగ్ పోస్ట్లో ఈ ప్రశ్నలు ఆర్కిటెక్చర్ & డిజైన్, ఆర్ట్స్ & కల్చర్, ఎవ్రీడే లైఫ్, ఎవ్రీడే లైఫ్, ఎవ్రీడే లైఫ్, వంటి వివిధ అంశాలపై విస్తరించాయి. సాహిత్యం & భాషాశాస్త్రం, మీడియా & వినోదం, మతం & ఆధ్యాత్మికత, మరియు క్రీడలు & వినోదం.
అవి బెంగాలీ, ఇంగ్లీష్, హిందీ, హింగ్లీష్, కన్నడ, మరాఠీ, ఒడియా, తెలుగు, గుజరాతీ, మలయాళం, పంజాబీ మరియు తమిళంలో స్థానికంగా వ్రాయబడ్డాయి. ఈ ప్రకటన క్రింద కథ కొనసాగుతుంది “సంభాషణలలో కోడ్-స్విచింగ్ యొక్క ప్రాబల్యం కారణంగా మేము ప్రత్యేకంగా హింగ్లీష్ని జోడించాము” అని OpenAI తెలిపింది.
యునైటెడ్ స్టేట్స్ తర్వాత చాట్జిపిటికి భారతదేశం రెండవ అతిపెద్ద మార్కెట్గా ఉద్భవించినందున భారతీయ భాషలు మరియు సంస్కృతుల చుట్టూ బెంచ్మార్క్ను నిర్మించడంపై AI స్టార్టప్ దృష్టి సారించింది. నవంబర్ 4న, OpenAI బెంగళూరులో తన దేవ్డే ఎక్స్ఛేంజ్ డెవలపర్ కాన్ఫరెన్స్ను నిర్వహించింది, అక్కడ అది అనేక భారతదేశానికి సంబంధించిన ప్రకటనలను చేసింది. పరిమిత ప్రమోషనల్ వ్యవధిలో సైన్ అప్ చేసే భారతదేశంలోని వినియోగదారులకు కంపెనీ తన ChatGPT గో సబ్స్క్రిప్షన్ ప్లాన్ను ఒక సంవత్సరం పాటు ఉచితంగా అందిస్తోంది.
“భారతదేశంలో దాదాపు ఒక బిలియన్ ప్రజలు ఇంగ్లీషును తమ ప్రాథమిక భాషగా ఉపయోగించరు, 22 అధికారిక భాషలు (కనీసం ఏడు 50 మిలియన్లకు పైగా మాట్లాడేవారు) మరియు ChatGPT యొక్క రెండవ అతిపెద్ద మార్కెట్” అని OpenAI తెలిపింది. “ఇతర భాషలు మరియు ప్రాంతాలకు ఇలాంటి బెంచ్మార్క్లను సృష్టించడం మా లక్ష్యం అయితే, భారతదేశం స్పష్టమైన ప్రారంభ స్థానం” అని అది జోడించింది. IndQA బెంచ్మార్క్ ఎలా పనిచేస్తుంది బెంచ్మార్క్ పరీక్షలో భాగంగా, AI మోడల్లను భారతీయ భాషలో సాంస్కృతికంగా గ్రౌన్దేడ్ ప్రాంప్ట్ రూపంలో ప్రశ్నలు అడుగుతారు.
ప్రతి ప్రశ్నకు ఆడిటబిలిటీ కోసం ఆంగ్ల అనువాదం మరియు నిపుణుల అంచనాలను ప్రతిబింబించే ఆదర్శవంతమైన సమాధానం కూడా వస్తుంది. కథనం ఈ ప్రకటన దిగువన కొనసాగుతుంది మోడల్ ప్రతిస్పందన నిర్దిష్ట ప్రశ్నకు డొమైన్ నిపుణులు వ్రాసిన ప్రమాణాలకు అనుగుణంగా గ్రేడ్ చేయబడింది.
ఈ ప్రమాణం ఆదర్శవంతమైన సమాధానంలో ఏమి చేర్చాలి లేదా నివారించాలి అని వివరిస్తుంది మరియు ప్రతిదానికి రూబ్రిక్-ఆధారిత విధానంలో దాని ప్రాముఖ్యత ఆధారంగా వెయిటెడ్ పాయింట్ విలువ ఇవ్వబడుతుంది. ముగింపులో, AI మోడల్ గ్రేడర్ ప్రతి ప్రమాణానికి అనుగుణంగా ఉందో లేదో తనిఖీ చేస్తుంది మరియు మొత్తం సాధ్యం పాయింట్లతో భాగించబడిన ప్రమాణాల కోసం పాయింట్ల మొత్తాన్ని లెక్కించడం ద్వారా తుది స్కోర్ను రూపొందిస్తుంది. ఖచ్చితంగా చెప్పాలంటే, మోడల్లకు వాటి స్కోర్ల ఆధారంగా ర్యాంక్ ఇచ్చే LLM లీడర్బోర్డ్గా IndQA రూపొందించబడలేదు.
అదనంగా, మోడల్ యొక్క క్రాస్-లాంగ్వేజ్ స్కోర్లు అది హిందీ కంటే కన్నడలో మెరుగ్గా ఉందని పేర్కొనడానికి ఉపయోగించబడదు. బదులుగా, OpenAI ప్రకారం మోడల్ కుటుంబం లేదా కాన్ఫిగరేషన్లో కాలక్రమేణా మెరుగుదలని కొలవడానికి స్కోర్లు ఉద్దేశించబడ్డాయి. సాంస్కృతిక సూక్ష్మభేదాన్ని సంగ్రహించడానికి ఇది ఎలా రూపొందించబడింది? ప్రాంతీయ మరియు సాంస్కృతిక సందర్భంతో ముడిపడి ఉన్న కష్టమైన, తార్కిక-కేంద్రీకృత ప్రశ్నలను రూపొందించే పనిని పది వేర్వేరు డొమైన్లలోని నిపుణులకు అవుట్సోర్స్ చేయడం జరిగిందని OpenAI తెలిపింది.
261 మంది నిపుణులతో కూడిన ఈ బృందంలో జర్నలిస్టులు, భాషావేత్తలు, పండితులు, కళాకారులు మరియు పరిశ్రమ అభ్యాసకులు ఉన్నారు, వీరిలో అవార్డు గెలుచుకున్న తెలుగు నటుడు, మలయాళ కవి, పంజాబీ సంగీత స్వరకర్త మరియు అంతర్జాతీయ చెస్ గ్రాండ్మాస్టర్ ఉన్నారు. ఈ ప్రకటన దిగువన కథనం కొనసాగుతుంది, దాని తదుపరి దశలో, OpenAI ప్రశ్నలను GPT‑4o, o3 మరియు GPT‑4 వంటి దాని స్వంత AI మోడల్లకు వ్యతిరేకంగా పరీక్షించడం ద్వారా వాటిని ఫిల్టర్ చేసింది.
5. “ఈ మోడళ్లలో ఎక్కువ భాగం ఆమోదయోగ్యమైన సమాధానాలను అందించడంలో విఫలమైన ప్రశ్నలను మాత్రమే మేము ఉంచాము, పురోగతి కోసం హెడ్రూమ్ను సంరక్షించాము” అని అది పేర్కొంది. చివరగా, నిపుణులు ఆదర్శ సమాధానాలను జోడించారు మరియు వారి ఆంగ్ల అనువాదాలను పీర్ సమీక్ష మరియు పునరావృత పరిష్కారాలు అనుసరించాయి.
OpenAI యొక్క స్వంత మోడల్లు ఎక్కడ ఇబ్బంది పడ్డాయనే దాని ఆధారంగా పరీక్ష ప్రశ్నలు ఎంపిక చేయబడినందున, ఇతర మోడల్లతో పోలిస్తే దాని మోడల్లు ప్రతికూలంగా ఉండవచ్చని కంపెనీ తెలిపింది. IndQA ఇండిక్ LLMల కోసం మైదానాన్ని సమం చేయగలదా? భారతీయ భాషల కోసం రూపొందించబడిన పెద్ద భాషా నమూనాలు (LLMలు) గ్లోబల్ AI ఆయుధాల రేసులో భారతదేశం నుండి విభిన్నంగా ఉపయోగపడతాయి.
అయినప్పటికీ, ఇండిక్ LLMలను అభివృద్ధి చేయడం రెండు కీలక సవాళ్లను ఎదుర్కొంటుంది: అధిక-నాణ్యత డేటాసెట్లు లేకపోవడం మరియు ఇండిక్ LLMలను మూల్యాంకనం చేయడానికి స్థానిక బెంచ్మార్క్లు లేకపోవడం. గత కొన్ని సంవత్సరాలుగా, AI నమూనాల పురోగతి ప్రాథమికంగా MMMLU మరియు MGSM వంటి సుపరిచితమైన, బహుభాషా బెంచ్మార్క్ల సెట్ ద్వారా ట్రాక్ చేయబడింది. కానీ ఈ బెంచ్మార్క్లు విమర్శించబడ్డాయి ఎందుకంటే అవి స్థానిక సందర్భం, సంస్కృతి, చరిత్ర మరియు వారు నివసించే వ్యక్తులకు సంబంధించిన విషయాలపై AI మోడల్ యొక్క అవగాహనను సంగ్రహించడంలో విఫలమయ్యాయి.
ఈ ప్రకటన దిగువన కథనం కొనసాగుతుంది ఇంకా, ఇప్పటికే ఉన్న భాషా ప్రమాణాలు ప్రాథమికంగా మోడల్ అనువాదం లేదా బహుళ-ఎంపిక పనులపై దృష్టి సారించాయి. సర్వం వంటి భారతీయ AI స్టార్టప్లు గ్లోబల్ కౌంటర్పార్ట్లతో పోటీ పడటానికి భారతీయ భాషలకు ప్రామాణికమైన బెంచ్మార్క్లు లేకపోవడాన్ని ఒక ప్రధాన అవరోధంగా పదే పదే గుర్తించాయి.
ఇప్పటికే ఉన్న బెంచ్మార్క్లు ప్రధానంగా ఇంగ్లీష్ మరియు యూరోపియన్ భాషలపై దృష్టి కేంద్రీకరించినందున, అవి భారతదేశంలో AI స్వీకరణకు ఆటంకం కలిగిస్తాయి, ఇక్కడ AI-శక్తితో కూడిన ప్రసంగ గుర్తింపుకు బహుళ స్వరాలు ప్రాసెస్ చేయడం మరియు స్థానిక భాషలతో ఆంగ్లాన్ని కలపడం అవసరం. ఇది కూడా చదవండి | Google I/O Connect LLM లీడర్బోర్డ్లలో భారతీయ డెవలపర్ల కోసం కొత్త LLMలు మరియు IndicGenBench AI సాధనాన్ని పరిచయం చేసింది, పాశ్చాత్య సంస్థలచే నిర్వహించబడే పక్షపాతం కూడా ఆరోపించబడింది.
ఇటీవల, గురుగ్రామ్కు చెందిన శూన్య ల్యాబ్స్, ఎన్విడియా మోడల్ కంటే ఎక్కువ స్కోర్ చేసినప్పటికీ, హగ్గింగ్ ఫేస్ ఓపెన్ఏఎస్ఆర్ లీడర్బోర్డ్లో పింగలా స్పీచ్ మోడల్ అగ్రస్థానంలో లేదని పేర్కొంది. “మా స్పీచ్ మోడల్, పింగళ, 3. 1% (వర్డ్ ఎర్రర్ రేట్) WER vs Nvidia 5తో పురోగతి ఫలితాలను పోస్ట్ చేసింది.
6% ప్రతి కొలమానం ప్రకారం, అది నేరుగా పైకి వెళ్లి ఉండాలి.
బదులుగా, ఇది బ్లాక్ బాక్స్ ప్రక్రియలో చిక్కుకుంది, ఇక్కడ పోటీదారులు కీలను పట్టుకుంటారు,” అని శూన్య ల్యాబ్స్ సహ వ్యవస్థాపకుడు మరియు CEO రీతు మెహ్రోత్రా లింక్డ్ఇన్లో ఒక పోస్ట్లో తెలిపారు. ఈ ప్రకటన క్రింద కథ కొనసాగుతుంది “ఇది కేవలం నిరాశపరిచేది కాదు – ఇది ఒక హెచ్చరిక.
“ఓపెన్” AIని అదే ట్రిలియన్-డాలర్ ప్లేయర్లు సవాలు చేయగలిగితే, ఆ వ్యవస్థ నిజంగా ఎవరి కోసం నిర్మించబడింది?” ఆమె జోడించింది.


