OpenAI యొక్క కొత్త ‘IndQA’ బెంచ్‌మార్క్ Ind LLMలకు అంతరాన్ని తగ్గించడంలో సహాయపడుతుందా?

Published on

November 5, 2025

Posted by

Om V Angaitkar

Categories:

Telugu – Tech

Xiaomi Power Bank 4i 20000mAh 33W Super Fast Charg…

(425107846)

₹2,199.00 (as of February 26, 2026 13:43 GMT +05:30 – More infoProduct prices and availability are accurate as of the date/time indicated and are subject to change. Any price and availability information displayed on [relevant Amazon Site(s), as applicable] at the time of purchase will apply to the purchase of this product.)

Ind LLMల వంతెన – భారతదేశం తన స్వంత ఇండిక్ లాంగ్వేజ్ మోడల్‌లను నిర్మించడానికి పోటీ పడుతుండగా, OpenAI కొత్త బెంచ్‌మార్క్ మూల్యాంకనాన్ని ప్రవేశపెట్టింది, ఇది మోడల్ యొక్క భాషా సామర్థ్యాన్ని మాత్రమే కాకుండా డొమైన్‌లలో భారతీయ సాంస్కృతిక సందర్భంపై దాని పట్టును కూడా పరీక్షిస్తుంది. IndQA అని పిలవబడే, బెంచ్‌మార్క్ పరీక్షలో 12 భాషలు మరియు 10 సాంస్కృతిక డొమైన్‌లలో 2,278 ప్రశ్నలు ఉంటాయి, భారతదేశం అంతటా 261 మంది నిపుణుల భాగస్వామ్యంతో సంకలనం చేయబడింది, నవంబర్ 3, సోమవారం నాడు ఒక బ్లాగ్ పోస్ట్‌లో ఈ ప్రశ్నలు ఆర్కిటెక్చర్ & డిజైన్, ఆర్ట్స్ & కల్చర్, ఎవ్రీడే లైఫ్, ఎవ్రీడే లైఫ్, ఎవ్రీడే లైఫ్, వంటి వివిధ అంశాలపై విస్తరించాయి. సాహిత్యం & భాషాశాస్త్రం, మీడియా & వినోదం, మతం & ఆధ్యాత్మికత, మరియు క్రీడలు & వినోదం.

అవి బెంగాలీ, ఇంగ్లీష్, హిందీ, హింగ్లీష్, కన్నడ, మరాఠీ, ఒడియా, తెలుగు, గుజరాతీ, మలయాళం, పంజాబీ మరియు తమిళంలో స్థానికంగా వ్రాయబడ్డాయి. ఈ ప్రకటన క్రింద కథ కొనసాగుతుంది “సంభాషణలలో కోడ్-స్విచింగ్ యొక్క ప్రాబల్యం కారణంగా మేము ప్రత్యేకంగా హింగ్లీష్‌ని జోడించాము” అని OpenAI తెలిపింది.

యునైటెడ్ స్టేట్స్ తర్వాత చాట్‌జిపిటికి భారతదేశం రెండవ అతిపెద్ద మార్కెట్‌గా ఉద్భవించినందున భారతీయ భాషలు మరియు సంస్కృతుల చుట్టూ బెంచ్‌మార్క్‌ను నిర్మించడంపై AI స్టార్టప్ దృష్టి సారించింది. నవంబర్ 4న, OpenAI బెంగళూరులో తన దేవ్‌డే ఎక్స్ఛేంజ్ డెవలపర్ కాన్ఫరెన్స్‌ను నిర్వహించింది, అక్కడ అది అనేక భారతదేశానికి సంబంధించిన ప్రకటనలను చేసింది. పరిమిత ప్రమోషనల్ వ్యవధిలో సైన్ అప్ చేసే భారతదేశంలోని వినియోగదారులకు కంపెనీ తన ChatGPT గో సబ్‌స్క్రిప్షన్ ప్లాన్‌ను ఒక సంవత్సరం పాటు ఉచితంగా అందిస్తోంది.

“భారతదేశంలో దాదాపు ఒక బిలియన్ ప్రజలు ఇంగ్లీషును తమ ప్రాథమిక భాషగా ఉపయోగించరు, 22 అధికారిక భాషలు (కనీసం ఏడు 50 మిలియన్లకు పైగా మాట్లాడేవారు) మరియు ChatGPT యొక్క రెండవ అతిపెద్ద మార్కెట్” అని OpenAI తెలిపింది. “ఇతర భాషలు మరియు ప్రాంతాలకు ఇలాంటి బెంచ్‌మార్క్‌లను సృష్టించడం మా లక్ష్యం అయితే, భారతదేశం స్పష్టమైన ప్రారంభ స్థానం” అని అది జోడించింది. IndQA బెంచ్‌మార్క్ ఎలా పనిచేస్తుంది బెంచ్‌మార్క్ పరీక్షలో భాగంగా, AI మోడల్‌లను భారతీయ భాషలో సాంస్కృతికంగా గ్రౌన్దేడ్ ప్రాంప్ట్ రూపంలో ప్రశ్నలు అడుగుతారు.

ప్రతి ప్రశ్నకు ఆడిటబిలిటీ కోసం ఆంగ్ల అనువాదం మరియు నిపుణుల అంచనాలను ప్రతిబింబించే ఆదర్శవంతమైన సమాధానం కూడా వస్తుంది. కథనం ఈ ప్రకటన దిగువన కొనసాగుతుంది మోడల్ ప్రతిస్పందన నిర్దిష్ట ప్రశ్నకు డొమైన్ నిపుణులు వ్రాసిన ప్రమాణాలకు అనుగుణంగా గ్రేడ్ చేయబడింది.

ఈ ప్రమాణం ఆదర్శవంతమైన సమాధానంలో ఏమి చేర్చాలి లేదా నివారించాలి అని వివరిస్తుంది మరియు ప్రతిదానికి రూబ్రిక్-ఆధారిత విధానంలో దాని ప్రాముఖ్యత ఆధారంగా వెయిటెడ్ పాయింట్ విలువ ఇవ్వబడుతుంది. ముగింపులో, AI మోడల్ గ్రేడర్ ప్రతి ప్రమాణానికి అనుగుణంగా ఉందో లేదో తనిఖీ చేస్తుంది మరియు మొత్తం సాధ్యం పాయింట్లతో భాగించబడిన ప్రమాణాల కోసం పాయింట్ల మొత్తాన్ని లెక్కించడం ద్వారా తుది స్కోర్‌ను రూపొందిస్తుంది. ఖచ్చితంగా చెప్పాలంటే, మోడల్‌లకు వాటి స్కోర్‌ల ఆధారంగా ర్యాంక్ ఇచ్చే LLM లీడర్‌బోర్డ్‌గా IndQA రూపొందించబడలేదు.

అదనంగా, మోడల్ యొక్క క్రాస్-లాంగ్వేజ్ స్కోర్‌లు అది హిందీ కంటే కన్నడలో మెరుగ్గా ఉందని పేర్కొనడానికి ఉపయోగించబడదు. బదులుగా, OpenAI ప్రకారం మోడల్ కుటుంబం లేదా కాన్ఫిగరేషన్‌లో కాలక్రమేణా మెరుగుదలని కొలవడానికి స్కోర్‌లు ఉద్దేశించబడ్డాయి. సాంస్కృతిక సూక్ష్మభేదాన్ని సంగ్రహించడానికి ఇది ఎలా రూపొందించబడింది? ప్రాంతీయ మరియు సాంస్కృతిక సందర్భంతో ముడిపడి ఉన్న కష్టమైన, తార్కిక-కేంద్రీకృత ప్రశ్నలను రూపొందించే పనిని పది వేర్వేరు డొమైన్‌లలోని నిపుణులకు అవుట్‌సోర్స్ చేయడం జరిగిందని OpenAI తెలిపింది.

261 మంది నిపుణులతో కూడిన ఈ బృందంలో జర్నలిస్టులు, భాషావేత్తలు, పండితులు, కళాకారులు మరియు పరిశ్రమ అభ్యాసకులు ఉన్నారు, వీరిలో అవార్డు గెలుచుకున్న తెలుగు నటుడు, మలయాళ కవి, పంజాబీ సంగీత స్వరకర్త మరియు అంతర్జాతీయ చెస్ గ్రాండ్‌మాస్టర్ ఉన్నారు. ఈ ప్రకటన దిగువన కథనం కొనసాగుతుంది, దాని తదుపరి దశలో, OpenAI ప్రశ్నలను GPT‑4o, o3 మరియు GPT‑4 వంటి దాని స్వంత AI మోడల్‌లకు వ్యతిరేకంగా పరీక్షించడం ద్వారా వాటిని ఫిల్టర్ చేసింది.

5. “ఈ మోడళ్లలో ఎక్కువ భాగం ఆమోదయోగ్యమైన సమాధానాలను అందించడంలో విఫలమైన ప్రశ్నలను మాత్రమే మేము ఉంచాము, పురోగతి కోసం హెడ్‌రూమ్‌ను సంరక్షించాము” అని అది పేర్కొంది. చివరగా, నిపుణులు ఆదర్శ సమాధానాలను జోడించారు మరియు వారి ఆంగ్ల అనువాదాలను పీర్ సమీక్ష మరియు పునరావృత పరిష్కారాలు అనుసరించాయి.

OpenAI యొక్క స్వంత మోడల్‌లు ఎక్కడ ఇబ్బంది పడ్డాయనే దాని ఆధారంగా పరీక్ష ప్రశ్నలు ఎంపిక చేయబడినందున, ఇతర మోడల్‌లతో పోలిస్తే దాని మోడల్‌లు ప్రతికూలంగా ఉండవచ్చని కంపెనీ తెలిపింది. IndQA ఇండిక్ LLMల కోసం మైదానాన్ని సమం చేయగలదా? భారతీయ భాషల కోసం రూపొందించబడిన పెద్ద భాషా నమూనాలు (LLMలు) గ్లోబల్ AI ఆయుధాల రేసులో భారతదేశం నుండి విభిన్నంగా ఉపయోగపడతాయి.

అయినప్పటికీ, ఇండిక్ LLMలను అభివృద్ధి చేయడం రెండు కీలక సవాళ్లను ఎదుర్కొంటుంది: అధిక-నాణ్యత డేటాసెట్‌లు లేకపోవడం మరియు ఇండిక్ LLMలను మూల్యాంకనం చేయడానికి స్థానిక బెంచ్‌మార్క్‌లు లేకపోవడం. గత కొన్ని సంవత్సరాలుగా, AI నమూనాల పురోగతి ప్రాథమికంగా MMMLU మరియు MGSM వంటి సుపరిచితమైన, బహుభాషా బెంచ్‌మార్క్‌ల సెట్ ద్వారా ట్రాక్ చేయబడింది. కానీ ఈ బెంచ్‌మార్క్‌లు విమర్శించబడ్డాయి ఎందుకంటే అవి స్థానిక సందర్భం, సంస్కృతి, చరిత్ర మరియు వారు నివసించే వ్యక్తులకు సంబంధించిన విషయాలపై AI మోడల్ యొక్క అవగాహనను సంగ్రహించడంలో విఫలమయ్యాయి.

ఈ ప్రకటన దిగువన కథనం కొనసాగుతుంది ఇంకా, ఇప్పటికే ఉన్న భాషా ప్రమాణాలు ప్రాథమికంగా మోడల్ అనువాదం లేదా బహుళ-ఎంపిక పనులపై దృష్టి సారించాయి. సర్వం వంటి భారతీయ AI స్టార్టప్‌లు గ్లోబల్ కౌంటర్‌పార్ట్‌లతో పోటీ పడటానికి భారతీయ భాషలకు ప్రామాణికమైన బెంచ్‌మార్క్‌లు లేకపోవడాన్ని ఒక ప్రధాన అవరోధంగా పదే పదే గుర్తించాయి.

ఇప్పటికే ఉన్న బెంచ్‌మార్క్‌లు ప్రధానంగా ఇంగ్లీష్ మరియు యూరోపియన్ భాషలపై దృష్టి కేంద్రీకరించినందున, అవి భారతదేశంలో AI స్వీకరణకు ఆటంకం కలిగిస్తాయి, ఇక్కడ AI-శక్తితో కూడిన ప్రసంగ గుర్తింపుకు బహుళ స్వరాలు ప్రాసెస్ చేయడం మరియు స్థానిక భాషలతో ఆంగ్లాన్ని కలపడం అవసరం. ఇది కూడా చదవండి | Google I/O Connect LLM లీడర్‌బోర్డ్‌లలో భారతీయ డెవలపర్‌ల కోసం కొత్త LLMలు మరియు IndicGenBench AI సాధనాన్ని పరిచయం చేసింది, పాశ్చాత్య సంస్థలచే నిర్వహించబడే పక్షపాతం కూడా ఆరోపించబడింది.

ఇటీవల, గురుగ్రామ్‌కు చెందిన శూన్య ల్యాబ్స్, ఎన్విడియా మోడల్ కంటే ఎక్కువ స్కోర్ చేసినప్పటికీ, హగ్గింగ్ ఫేస్ ఓపెన్‌ఏఎస్ఆర్ లీడర్‌బోర్డ్‌లో పింగలా స్పీచ్ మోడల్ అగ్రస్థానంలో లేదని పేర్కొంది. “మా స్పీచ్ మోడల్, పింగళ, 3. 1% (వర్డ్ ఎర్రర్ రేట్) WER vs Nvidia 5తో పురోగతి ఫలితాలను పోస్ట్ చేసింది.

6% ప్రతి కొలమానం ప్రకారం, అది నేరుగా పైకి వెళ్లి ఉండాలి.

బదులుగా, ఇది బ్లాక్ బాక్స్ ప్రక్రియలో చిక్కుకుంది, ఇక్కడ పోటీదారులు కీలను పట్టుకుంటారు,” అని శూన్య ల్యాబ్స్ సహ వ్యవస్థాపకుడు మరియు CEO రీతు మెహ్రోత్రా లింక్డ్‌ఇన్‌లో ఒక పోస్ట్‌లో తెలిపారు. ఈ ప్రకటన క్రింద కథ కొనసాగుతుంది “ఇది కేవలం నిరాశపరిచేది కాదు – ఇది ఒక హెచ్చరిక.

“ఓపెన్” AIని అదే ట్రిలియన్-డాలర్ ప్లేయర్‌లు సవాలు చేయగలిగితే, ఆ వ్యవస్థ నిజంగా ఎవరి కోసం నిర్మించబడింది?” ఆమె జోడించింది.