Ind LLMs ব্রিজ – যখন ভারত তার নিজস্ব ভারতীয় ভাষার মডেল তৈরির জন্য দৌড়াচ্ছে, ওপেনএআই একটি নতুন বেঞ্চমার্ক মূল্যায়ন প্রবর্তন করেছে যা বলে, এটি শুধুমাত্র একটি মডেলের ভাষাগত ক্ষমতা পরীক্ষা করে না বরং ডোমেন জুড়ে ভারতীয় সাংস্কৃতিক প্রেক্ষাপটের উপলব্ধিও পরীক্ষা করে। IndQA নামে পরিচিত, বেঞ্চমার্ক পরীক্ষায় 12টি ভাষা এবং 10টি সাংস্কৃতিক ডোমেন জুড়ে 2,278টি প্রশ্ন রয়েছে, যা সারা ভারত থেকে 261 জন বিশেষজ্ঞের সাথে অংশীদারিত্বে সংকলিত হয়েছে, OpenAI সোমবার, 3 নভেম্বর একটি ব্লগ পোস্টে বলেছে৷ প্রশ্নগুলি বিভিন্ন বিষয় যেমন আর্কিটেকচার এবং ডিজাইন, আর্টস অ্যান্ড কালচার, ফুড অ্যান্ড কালচার, এভরিটি লাইফ, ইতিহাস ও সাহিত্য, খাদ্য ও সংস্কৃতির মতো বিভিন্ন বিষয়ে বিস্তৃত। ভাষাবিজ্ঞান, মিডিয়া ও বিনোদন, ধর্ম ও আধ্যাত্মিকতা, এবং খেলাধুলা ও বিনোদন।
এগুলি বাংলা, ইংরেজি, হিন্দি, হিংলিশ, কন্নড়, মারাঠি, ওড়িয়া, তেলেগু, গুজরাটি, মালায়লাম, পাঞ্জাবি এবং তামিল ভাষায় স্থানীয়ভাবে লেখা হয়। গল্পটি এই বিজ্ঞাপনের নীচে চলতে থাকে “কথোপকথনে কোড-স্যুইচিংয়ের প্রবণতার কারণে আমরা বিশেষভাবে হিংলিশ যুক্ত করেছি,” OpenAI বলেছে।
ভারতীয় ভাষা এবং সংস্কৃতির চারপাশে একটি বেঞ্চমার্ক তৈরির উপর AI স্টার্টআপের ফোকাস তাৎপর্যপূর্ণ যে ভারত মার্কিন যুক্তরাষ্ট্রের পরে ChatGPT-এর জন্য দ্বিতীয় বৃহত্তম বাজার হিসাবে আবির্ভূত হয়েছে। 4 নভেম্বর, OpenAI বেঙ্গালুরুতে তার DevDay Exchange ডেভেলপার কনফারেন্সের আয়োজন করেছে যেখানে এটি বেশ কয়েকটি ভারত-নির্দিষ্ট ঘোষণা করেছে। সীমিত প্রচারের সময়কালে সাইন আপ করা ভারতের ব্যবহারকারীদের জন্য কোম্পানিটি তার ChatGPT Go সাবস্ক্রিপশন প্ল্যানকে এক বছরের জন্য বিনামূল্যে দিচ্ছে।
“ভারতে প্রায় এক বিলিয়ন লোক আছে যারা ইংরেজিকে তাদের প্রাথমিক ভাষা হিসেবে ব্যবহার করে না, 22টি অফিসিয়াল ভাষা (50 মিলিয়নেরও বেশি স্পিকার সহ কমপক্ষে সাতটি সহ) এবং এটি ChatGPT-এর দ্বিতীয় বৃহত্তম বাজার,” OpenAI বলেছে৷ “যদিও আমাদের লক্ষ্য হল অন্যান্য ভাষা এবং অঞ্চলের জন্য অনুরূপ মানদণ্ড তৈরি করা, ভারত একটি সুস্পষ্ট সূচনা বিন্দু,” এটি যোগ করেছে। কিভাবে IndQA বেঞ্চমার্ক কাজ করে বেঞ্চমার্ক পরীক্ষার অংশ হিসাবে, AI মডেলগুলিকে একটি ভারতীয় ভাষায় সাংস্কৃতিকভাবে গ্রাউন্ডেড প্রম্পট আকারে প্রশ্ন করা হয়।
প্রতিটি প্রশ্ন নিরীক্ষাযোগ্যতার জন্য একটি ইংরেজি অনুবাদের সাথে আসে এবং একটি আদর্শ উত্তর যা বিশেষজ্ঞের প্রত্যাশা প্রতিফলিত করে। গল্পটি এই বিজ্ঞাপনের নীচে চলতে থাকে মডেলের প্রতিক্রিয়া সেই নির্দিষ্ট প্রশ্নের জন্য ডোমেন বিশেষজ্ঞদের দ্বারা লিখিত মানদণ্ড অনুসারে গ্রেড করা হয়।
এই মানদণ্ডটি একটি আদর্শ উত্তরে কী অন্তর্ভুক্ত করা উচিত বা এড়ানো উচিত তা বানান করে এবং প্রতিটিকে একটি রুব্রিক-ভিত্তিক পদ্ধতির গুরুত্বের উপর ভিত্তি করে একটি ওজনযুক্ত পয়েন্ট মান দেওয়া হয়। শেষে, একজন AI মডেল গ্রেডার প্রতিটি মানদণ্ড পূরণ হয়েছে কিনা তা পরীক্ষা করে এবং মোট সম্ভাব্য পয়েন্ট দ্বারা বিভক্ত মানদণ্ডের জন্য সন্তুষ্ট পয়েন্টের যোগফল গণনা করে একটি চূড়ান্ত স্কোর তৈরি করে। নিশ্চিত হওয়ার জন্য, IndQA একটি LLM লিডারবোর্ড হিসাবে ডিজাইন করা হয়নি যা তাদের স্কোরের উপর ভিত্তি করে মডেলগুলিকে স্থান দেয়।
উপরন্তু, একটি মডেলের ক্রস-ল্যাঙ্গুয়েজ স্কোর ব্যবহার করা যাবে না যে এটি হিন্দির চেয়ে কন্নড় ভাষায় ভালো। পরিবর্তে, ওপেনএআই অনুসারে, স্কোরগুলি মডেল পরিবার বা কনফিগারেশনের মধ্যে সময়ের সাথে উন্নতি পরিমাপ করার জন্য। কীভাবে এটি সাংস্কৃতিক সূক্ষ্মতা ধরার জন্য ডিজাইন করা হয়েছিল, আঞ্চলিক এবং সাংস্কৃতিক প্রেক্ষাপটের সাথে আবদ্ধ কঠিন, যুক্তি-কেন্দ্রিক প্রশ্নের খসড়া তৈরির কাজটি দশটি ভিন্ন ডোমেনের বিশেষজ্ঞদের কাছে আউটসোর্স করা হয়েছিল, OpenAI বলেছে।
261 জন বিশেষজ্ঞের এই দলে সাংবাদিক, ভাষাবিদ, পণ্ডিত, শিল্পী এবং শিল্প অনুশীলনকারীদের অন্তর্ভুক্ত ছিল, যার মধ্যে একজন পুরস্কার বিজয়ী তেলেগু অভিনেতা, একজন মালয়ালম কবি, একজন পাঞ্জাবি সঙ্গীত রচয়িতা এবং একজন আন্তর্জাতিক দাবা গ্র্যান্ডমাস্টার রয়েছে। গল্পটি এই বিজ্ঞাপনের নীচে চলতে থাকে তার পরবর্তী ধাপে, OpenAI তাদের নিজস্ব AI মডেল যেমন GPT-4o, o3, এবং GPT-4 এর বিরুদ্ধে পরীক্ষা করে প্রশ্নগুলিকে ফিল্টার করে।
5. “আমরা শুধুমাত্র সেই প্রশ্নগুলি রেখেছিলাম যেখানে এই মডেলগুলির বেশিরভাগই গ্রহণযোগ্য উত্তর দিতে ব্যর্থ হয়েছিল, অগ্রগতির জন্য হেডরুম সংরক্ষণ করে,” এটি বলে। অবশেষে, বিশেষজ্ঞরা আদর্শ উত্তর এবং তাদের ইংরেজি অনুবাদ যোগ করেছেন যা পিয়ার রিভিউ এবং পুনরাবৃত্তিমূলক সংশোধন দ্বারা অনুসরণ করা হয়েছিল।
যেহেতু ওপেনএআই-এর নিজস্ব মডেলগুলি যেখানে লড়াই করেছে তার উপর ভিত্তি করে পরীক্ষার প্রশ্নগুলি বেছে নেওয়া হয়েছিল, কোম্পানি বলেছে যে অন্যান্য মডেলের তুলনায় এর মডেলগুলি একটি অসুবিধায় থাকতে পারে। IndQA কি ইন্ডিক এলএলএম-এর জন্য খেলার ক্ষেত্র সমান করতে পারে? ভারতীয় ভাষার জন্য নির্মিত বৃহৎ ভাষা মডেল (LLMs) বিশ্বব্যাপী এআই অস্ত্র প্রতিযোগিতায় ভারত থেকে একটি পার্থক্যকারী হিসাবে কাজ করতে পারে।
যাইহোক, Indic LLM-এর বিকাশ দুটি মূল চ্যালেঞ্জের মুখোমুখি: উচ্চ-মানের ডেটাসেটের অভাব এবং Indic LLM-এর মূল্যায়ন করার জন্য স্থানীয় বেঞ্চমার্কের অনুপস্থিতি। বিগত কয়েক বছর ধরে, AI মডেলগুলির অগ্রগতি প্রাথমিকভাবে MMMLU এবং MGSM-এর মতো পরিচিত, বহুভাষিক বেঞ্চমার্কের সেটের মাধ্যমে ট্র্যাক করা হয়েছে। কিন্তু এই মানদণ্ডগুলিকে সমালোচিত করা হয়েছে কারণ তারা স্থানীয় প্রেক্ষাপট, সংস্কৃতি, ইতিহাস এবং তারা যেখানে বসবাস করে এমন লোকেদের জন্য গুরুত্বপূর্ণ বিষয়গুলি সম্পর্কে একটি AI মডেলের বোঝার ক্যাপচার করতে ব্যর্থ হয়।
গল্পটি এই বিজ্ঞাপনের নীচে চলতে থাকে উপরন্তু, বিদ্যমান ভাষার বেঞ্চমার্কগুলি প্রাথমিকভাবে একটি মডেলের অনুবাদ বা একাধিক পছন্দের কাজগুলিতে ফোকাস করা হয়৷ সর্বম-এর মতো ভারতীয় এআই স্টার্টআপগুলি বারবার বৈশ্বিক প্রতিযোগীদের সঙ্গে প্রতিযোগিতায় বড় বাধা হিসেবে ভারতীয় ভাষার জন্য প্রমিত মানদণ্ডের অনুপস্থিতিকে চিহ্নিত করেছে।
যেহেতু বিদ্যমান বেঞ্চমার্কগুলি মূলত ইংরেজি এবং ইউরোপীয় ভাষার উপর দৃষ্টি নিবদ্ধ করে, তাই তারা সম্ভাব্যভাবে ভারতে AI গ্রহণে বাধা দিতে পারে যেখানে AI-চালিত বক্তৃতা স্বীকৃতির জন্য একাধিক উচ্চারণ প্রক্রিয়াকরণ এবং স্থানীয় ভাষার সাথে ইংরেজির মিশ্রণ প্রয়োজন। এছাড়াও পড়ুন | Google I/O Connect LLM লিডারবোর্ডে ভারতীয় ডেভেলপারদের জন্য নতুন LLM এবং IndicGenBench AI টুল প্রবর্তন করেছে পশ্চিমা সংস্থাগুলি দ্বারা রক্ষণাবেক্ষণ করা পক্ষপাতিত্বের জন্যও অভিযুক্ত করা হয়েছে৷
সম্প্রতি, গুরুগ্রাম-ভিত্তিক শূন্য ল্যাবস দাবি করেছে যে তার স্পিচ মডেল পিঙ্গলা এনভিডিয়ার মডেলের চেয়ে বেশি স্কোর করা সত্ত্বেও হাগিং ফেসের ওপেনএএসআর লিডারবোর্ডের শীর্ষে স্থান পায়নি। “আমাদের বক্তৃতা মডেল, পিঙ্গলা, 3. 1% (শব্দ ত্রুটির হার) WER বনাম এনভিডিয়ার 5 এর সাথে যুগান্তকারী ফলাফল পোস্ট করেছে।
6%। প্রতিটি মেট্রিক দ্বারা, এটি সরাসরি শীর্ষে যাওয়া উচিত ছিল।
পরিবর্তে, এটি একটি ব্ল্যাক বক্স প্রক্রিয়ায় আটকে গেছে যেখানে প্রতিযোগীরা চাবিগুলি ধরে রাখে,” শুন্য ল্যাবসের সহ-প্রতিষ্ঠাতা এবং সিইও রিতু মেহরোত্রা লিঙ্কডইন-এ একটি পোস্টে বলেছেন৷ গল্পটি এই বিজ্ঞাপনটির নীচে অব্যাহত রয়েছে “এটি কেবল হতাশাজনক নয় – এটি একটি সতর্কতা৷
যদি “ওপেন” AI একই ট্রিলিয়ন-ডলার প্লেয়ারদের দ্বারা গেট করা যায় যা এটি চ্যালেঞ্জ করার দাবি করে, তাহলে সিস্টেমটি আসলে কার জন্য তৈরি করা হয়েছে?” সে যোগ করেছে


