OpenAI-এর নতুন ‘IndQA’ বেঞ্চমার্ক কি Ind LLM-কে ব্যবধান পূরণ করতে সাহায্য করতে পারে?

Published on

Posted by

Categories:


Ind LLMs ব্রিজ – যখন ভারত তার নিজস্ব ভারতীয় ভাষার মডেল তৈরির জন্য দৌড়াচ্ছে, ওপেনএআই একটি নতুন বেঞ্চমার্ক মূল্যায়ন প্রবর্তন করেছে যা বলে, এটি শুধুমাত্র একটি মডেলের ভাষাগত ক্ষমতা পরীক্ষা করে না বরং ডোমেন জুড়ে ভারতীয় সাংস্কৃতিক প্রেক্ষাপটের উপলব্ধিও পরীক্ষা করে। IndQA নামে পরিচিত, বেঞ্চমার্ক পরীক্ষায় 12টি ভাষা এবং 10টি সাংস্কৃতিক ডোমেন জুড়ে 2,278টি প্রশ্ন রয়েছে, যা সারা ভারত থেকে 261 জন বিশেষজ্ঞের সাথে অংশীদারিত্বে সংকলিত হয়েছে, OpenAI সোমবার, 3 নভেম্বর একটি ব্লগ পোস্টে বলেছে৷ প্রশ্নগুলি বিভিন্ন বিষয় যেমন আর্কিটেকচার এবং ডিজাইন, আর্টস অ্যান্ড কালচার, ফুড অ্যান্ড কালচার, এভরিটি লাইফ, ইতিহাস ও সাহিত্য, খাদ্য ও সংস্কৃতির মতো বিভিন্ন বিষয়ে বিস্তৃত। ভাষাবিজ্ঞান, মিডিয়া ও বিনোদন, ধর্ম ও আধ্যাত্মিকতা, এবং খেলাধুলা ও বিনোদন।

এগুলি বাংলা, ইংরেজি, হিন্দি, হিংলিশ, কন্নড়, মারাঠি, ওড়িয়া, তেলেগু, গুজরাটি, মালায়লাম, পাঞ্জাবি এবং তামিল ভাষায় স্থানীয়ভাবে লেখা হয়। গল্পটি এই বিজ্ঞাপনের নীচে চলতে থাকে “কথোপকথনে কোড-স্যুইচিংয়ের প্রবণতার কারণে আমরা বিশেষভাবে হিংলিশ যুক্ত করেছি,” OpenAI বলেছে।

ভারতীয় ভাষা এবং সংস্কৃতির চারপাশে একটি বেঞ্চমার্ক তৈরির উপর AI স্টার্টআপের ফোকাস তাৎপর্যপূর্ণ যে ভারত মার্কিন যুক্তরাষ্ট্রের পরে ChatGPT-এর জন্য দ্বিতীয় বৃহত্তম বাজার হিসাবে আবির্ভূত হয়েছে। 4 নভেম্বর, OpenAI বেঙ্গালুরুতে তার DevDay Exchange ডেভেলপার কনফারেন্সের আয়োজন করেছে যেখানে এটি বেশ কয়েকটি ভারত-নির্দিষ্ট ঘোষণা করেছে। সীমিত প্রচারের সময়কালে সাইন আপ করা ভারতের ব্যবহারকারীদের জন্য কোম্পানিটি তার ChatGPT Go সাবস্ক্রিপশন প্ল্যানকে এক বছরের জন্য বিনামূল্যে দিচ্ছে।

“ভারতে প্রায় এক বিলিয়ন লোক আছে যারা ইংরেজিকে তাদের প্রাথমিক ভাষা হিসেবে ব্যবহার করে না, 22টি অফিসিয়াল ভাষা (50 মিলিয়নেরও বেশি স্পিকার সহ কমপক্ষে সাতটি সহ) এবং এটি ChatGPT-এর দ্বিতীয় বৃহত্তম বাজার,” OpenAI বলেছে৷ “যদিও আমাদের লক্ষ্য হল অন্যান্য ভাষা এবং অঞ্চলের জন্য অনুরূপ মানদণ্ড তৈরি করা, ভারত একটি সুস্পষ্ট সূচনা বিন্দু,” এটি যোগ করেছে। কিভাবে IndQA বেঞ্চমার্ক কাজ করে বেঞ্চমার্ক পরীক্ষার অংশ হিসাবে, AI মডেলগুলিকে একটি ভারতীয় ভাষায় সাংস্কৃতিকভাবে গ্রাউন্ডেড প্রম্পট আকারে প্রশ্ন করা হয়।

প্রতিটি প্রশ্ন নিরীক্ষাযোগ্যতার জন্য একটি ইংরেজি অনুবাদের সাথে আসে এবং একটি আদর্শ উত্তর যা বিশেষজ্ঞের প্রত্যাশা প্রতিফলিত করে। গল্পটি এই বিজ্ঞাপনের নীচে চলতে থাকে মডেলের প্রতিক্রিয়া সেই নির্দিষ্ট প্রশ্নের জন্য ডোমেন বিশেষজ্ঞদের দ্বারা লিখিত মানদণ্ড অনুসারে গ্রেড করা হয়।

এই মানদণ্ডটি একটি আদর্শ উত্তরে কী অন্তর্ভুক্ত করা উচিত বা এড়ানো উচিত তা বানান করে এবং প্রতিটিকে একটি রুব্রিক-ভিত্তিক পদ্ধতির গুরুত্বের উপর ভিত্তি করে একটি ওজনযুক্ত পয়েন্ট মান দেওয়া হয়। শেষে, একজন AI মডেল গ্রেডার প্রতিটি মানদণ্ড পূরণ হয়েছে কিনা তা পরীক্ষা করে এবং মোট সম্ভাব্য পয়েন্ট দ্বারা বিভক্ত মানদণ্ডের জন্য সন্তুষ্ট পয়েন্টের যোগফল গণনা করে একটি চূড়ান্ত স্কোর তৈরি করে। নিশ্চিত হওয়ার জন্য, IndQA একটি LLM লিডারবোর্ড হিসাবে ডিজাইন করা হয়নি যা তাদের স্কোরের উপর ভিত্তি করে মডেলগুলিকে স্থান দেয়।

উপরন্তু, একটি মডেলের ক্রস-ল্যাঙ্গুয়েজ স্কোর ব্যবহার করা যাবে না যে এটি হিন্দির চেয়ে কন্নড় ভাষায় ভালো। পরিবর্তে, ওপেনএআই অনুসারে, স্কোরগুলি মডেল পরিবার বা কনফিগারেশনের মধ্যে সময়ের সাথে উন্নতি পরিমাপ করার জন্য। কীভাবে এটি সাংস্কৃতিক সূক্ষ্মতা ধরার জন্য ডিজাইন করা হয়েছিল, আঞ্চলিক এবং সাংস্কৃতিক প্রেক্ষাপটের সাথে আবদ্ধ কঠিন, যুক্তি-কেন্দ্রিক প্রশ্নের খসড়া তৈরির কাজটি দশটি ভিন্ন ডোমেনের বিশেষজ্ঞদের কাছে আউটসোর্স করা হয়েছিল, OpenAI বলেছে।

261 জন বিশেষজ্ঞের এই দলে সাংবাদিক, ভাষাবিদ, পণ্ডিত, শিল্পী এবং শিল্প অনুশীলনকারীদের অন্তর্ভুক্ত ছিল, যার মধ্যে একজন পুরস্কার বিজয়ী তেলেগু অভিনেতা, একজন মালয়ালম কবি, একজন পাঞ্জাবি সঙ্গীত রচয়িতা এবং একজন আন্তর্জাতিক দাবা গ্র্যান্ডমাস্টার রয়েছে। গল্পটি এই বিজ্ঞাপনের নীচে চলতে থাকে তার পরবর্তী ধাপে, OpenAI তাদের নিজস্ব AI মডেল যেমন GPT-4o, o3, এবং GPT-4 এর বিরুদ্ধে পরীক্ষা করে প্রশ্নগুলিকে ফিল্টার করে।

5. “আমরা শুধুমাত্র সেই প্রশ্নগুলি রেখেছিলাম যেখানে এই মডেলগুলির বেশিরভাগই গ্রহণযোগ্য উত্তর দিতে ব্যর্থ হয়েছিল, অগ্রগতির জন্য হেডরুম সংরক্ষণ করে,” এটি বলে। অবশেষে, বিশেষজ্ঞরা আদর্শ উত্তর এবং তাদের ইংরেজি অনুবাদ যোগ করেছেন যা পিয়ার রিভিউ এবং পুনরাবৃত্তিমূলক সংশোধন দ্বারা অনুসরণ করা হয়েছিল।

যেহেতু ওপেনএআই-এর নিজস্ব মডেলগুলি যেখানে লড়াই করেছে তার উপর ভিত্তি করে পরীক্ষার প্রশ্নগুলি বেছে নেওয়া হয়েছিল, কোম্পানি বলেছে যে অন্যান্য মডেলের তুলনায় এর মডেলগুলি একটি অসুবিধায় থাকতে পারে। IndQA কি ইন্ডিক এলএলএম-এর জন্য খেলার ক্ষেত্র সমান করতে পারে? ভারতীয় ভাষার জন্য নির্মিত বৃহৎ ভাষা মডেল (LLMs) বিশ্বব্যাপী এআই অস্ত্র প্রতিযোগিতায় ভারত থেকে একটি পার্থক্যকারী হিসাবে কাজ করতে পারে।

যাইহোক, Indic LLM-এর বিকাশ দুটি মূল চ্যালেঞ্জের মুখোমুখি: উচ্চ-মানের ডেটাসেটের অভাব এবং Indic LLM-এর মূল্যায়ন করার জন্য স্থানীয় বেঞ্চমার্কের অনুপস্থিতি। বিগত কয়েক বছর ধরে, AI মডেলগুলির অগ্রগতি প্রাথমিকভাবে MMMLU এবং MGSM-এর মতো পরিচিত, বহুভাষিক বেঞ্চমার্কের সেটের মাধ্যমে ট্র্যাক করা হয়েছে। কিন্তু এই মানদণ্ডগুলিকে সমালোচিত করা হয়েছে কারণ তারা স্থানীয় প্রেক্ষাপট, সংস্কৃতি, ইতিহাস এবং তারা যেখানে বসবাস করে এমন লোকেদের জন্য গুরুত্বপূর্ণ বিষয়গুলি সম্পর্কে একটি AI মডেলের বোঝার ক্যাপচার করতে ব্যর্থ হয়।

গল্পটি এই বিজ্ঞাপনের নীচে চলতে থাকে উপরন্তু, বিদ্যমান ভাষার বেঞ্চমার্কগুলি প্রাথমিকভাবে একটি মডেলের অনুবাদ বা একাধিক পছন্দের কাজগুলিতে ফোকাস করা হয়৷ সর্বম-এর মতো ভারতীয় এআই স্টার্টআপগুলি বারবার বৈশ্বিক প্রতিযোগীদের সঙ্গে প্রতিযোগিতায় বড় বাধা হিসেবে ভারতীয় ভাষার জন্য প্রমিত মানদণ্ডের অনুপস্থিতিকে চিহ্নিত করেছে।

যেহেতু বিদ্যমান বেঞ্চমার্কগুলি মূলত ইংরেজি এবং ইউরোপীয় ভাষার উপর দৃষ্টি নিবদ্ধ করে, তাই তারা সম্ভাব্যভাবে ভারতে AI গ্রহণে বাধা দিতে পারে যেখানে AI-চালিত বক্তৃতা স্বীকৃতির জন্য একাধিক উচ্চারণ প্রক্রিয়াকরণ এবং স্থানীয় ভাষার সাথে ইংরেজির মিশ্রণ প্রয়োজন। এছাড়াও পড়ুন | Google I/O Connect LLM লিডারবোর্ডে ভারতীয় ডেভেলপারদের জন্য নতুন LLM এবং IndicGenBench AI টুল প্রবর্তন করেছে পশ্চিমা সংস্থাগুলি দ্বারা রক্ষণাবেক্ষণ করা পক্ষপাতিত্বের জন্যও অভিযুক্ত করা হয়েছে৷

সম্প্রতি, গুরুগ্রাম-ভিত্তিক শূন্য ল্যাবস দাবি করেছে যে তার স্পিচ মডেল পিঙ্গলা এনভিডিয়ার মডেলের চেয়ে বেশি স্কোর করা সত্ত্বেও হাগিং ফেসের ওপেনএএসআর লিডারবোর্ডের শীর্ষে স্থান পায়নি। “আমাদের বক্তৃতা মডেল, পিঙ্গলা, 3. 1% (শব্দ ত্রুটির হার) WER বনাম এনভিডিয়ার 5 এর সাথে যুগান্তকারী ফলাফল পোস্ট করেছে।

6%। প্রতিটি মেট্রিক দ্বারা, এটি সরাসরি শীর্ষে যাওয়া উচিত ছিল।

পরিবর্তে, এটি একটি ব্ল্যাক বক্স প্রক্রিয়ায় আটকে গেছে যেখানে প্রতিযোগীরা চাবিগুলি ধরে রাখে,” শুন্য ল্যাবসের সহ-প্রতিষ্ঠাতা এবং সিইও রিতু মেহরোত্রা লিঙ্কডইন-এ একটি পোস্টে বলেছেন৷ গল্পটি এই বিজ্ঞাপনটির নীচে অব্যাহত রয়েছে “এটি কেবল হতাশাজনক নয় – এটি একটি সতর্কতা৷

যদি “ওপেন” AI একই ট্রিলিয়ন-ডলার প্লেয়ারদের দ্বারা গেট করা যায় যা এটি চ্যালেঞ্জ করার দাবি করে, তাহলে সিস্টেমটি আসলে কার জন্য তৈরি করা হয়েছে?” সে যোগ করেছে