মাইক্রোসফ্ট নতুন এআই মডেল প্রকাশ করেছে যা চিত্র, অডিও এবং পাঠ্য প্রতিলিপি তৈরি করতে পারে

Published on

Posted by

Categories:


মাইক্রোসফ্ট বৃহস্পতিবার তিনটি বিশেষায়িত কৃত্রিম বুদ্ধিমত্তা (AI) মডেল প্রকাশ করেছে, ইমেজ জেনারেশন, ভয়েস জেনারেশন এবং স্পিচ-টু-টেক্সট ট্রান্সক্রিপশনের উপর ফোকাস করে। রেডমন্ড-ভিত্তিক টেক জায়ান্ট দাবি করে যে এই মডেলগুলি প্রতিদ্বন্দ্বী কোম্পানিগুলির বিশেষ মডেলগুলিকে ছাড়িয়ে যায়, যেমন Google, OpenAI এবং অন্যান্য।

মডেল, MAI-ট্রান্সক্রাইব-1, MAI-ভয়েস-1, এবং MAI-ইমেজ-2, এছাড়াও দ্রুত প্রজন্ম এবং প্রতিযোগিতামূলক মূল্যের উপর ফোকাস করার কথা বলা হয়। এগুলি বর্তমানে মাইক্রোসফ্ট ফাউন্ড্রির মাধ্যমে উপলব্ধ, এবং সেগুলি বিভিন্ন ভোক্তা পণ্যগুলিতেও সরবরাহ করা হচ্ছে৷

মাইক্রোসফ্ট তিনটি নতুন এআই মডেল এনেছে একটি নিউজরুম পোস্টে, টেক জায়ান্ট তিনটি নতুন বড় ভাষা মডেল (এলএলএম) প্রবর্তন করেছে। তাদের সব বর্তমানে Microsoft ফাউন্ড্রি এবং MAI খেলার মাঠের মাধ্যমে উপলব্ধ।

সবচেয়ে বড় হাইলাইট হল MAI-Transcribe-1, যা কোম্পানি দাবি করে যে 25টি সবচেয়ে বেশি ব্যবহৃত ভাষা জুড়ে স্টেট-অফ-দ্য-আর্ট (SOTA) স্পিচ-টু-টেক্সট ট্রান্সক্রিপশন সরবরাহ করে। দাবিগুলি FLEURS বেঞ্চমার্কে মাইক্রোসফ্টের অভ্যন্তরীণ পরীক্ষার উপর ভিত্তি করে।

এটি জেমিনি 3. 1 ফ্ল্যাশ এবং GPT-এরর হারে ট্রান্সক্রাইবকে ছাড়িয়ে গেছে। উপরন্তু, কোম্পানি বলেছে যে ফাউন্ড্রি ব্যবহারকারীরা এটিকে “যেকোন বড় ক্লাউড প্রদানকারীর সেরা মূল্য-পারফরম্যান্স” বলে মনে করবেন।

” MAI-Voice-1-এ আসছে, LLM-কে “প্রাকৃতিক, বাস্তববাদী বক্তৃতা, সূক্ষ্মতা, আবেগময় পরিসর এবং অভিব্যক্তিতে সমৃদ্ধ বলে মনে করা হয়৷ ” মডেলটি দীর্ঘ-ফর্মের সামগ্রী তৈরির সময় সামঞ্জস্যপূর্ণ বক্তৃতা এবং ভয়েস পরিচয় প্রদান করে বলেও বলা হয়৷ ফাউন্ড্রির ভিতরে, মডেলটি ব্যবহারকারীদের কয়েক সেকেন্ডের অডিও সহ একটি কাস্টম ভয়েস তৈরি করার অনুমতি দেবে৷

মাইক্রোসফ্ট দাবি করে যে এই প্রক্রিয়াটি নিরাপদ এবং নিরাপদ। এটি এক সেকেন্ডে 60 সেকেন্ডের অডিও জেনারেট করতে বলা হয়।

উল্লেখযোগ্যভাবে, এআই মডেলটি কপিলট অডিও এক্সপ্রেশন এবং কপিলট পডকাস্টকেও শক্তি দেবে। অবশেষে, MAI-Image-2 মডেলটি তার পূর্বসূরির ক্ষমতার উপর ভিত্তি করে তৈরি করে এবং বলা হয় যে এটি দ্রুত গতিতে উন্নত আউটপুট গুণমান সরবরাহ করে। মাইক্রোসফ্ট প্রকাশ করেছে যে মডেলটি ফটোগ্রাফার, ডিজাইনার এবং ভিজ্যুয়াল গল্পকারদের সহযোগিতায় তৈরি করা হয়েছিল এবং এটি প্রাকৃতিক আলো, সঠিক টেক্সচার এবং স্পষ্ট ইন-ইমেজ পাঠ্যের উপর ফোকাস করে।

উল্লেখযোগ্যভাবে, WPP হল প্রথম এন্টারপ্রাইজ অংশীদারদের মধ্যে যারা AI মডেল গ্রহণ করেছে। মডেলটি, অন্য দুটির মতো, মাইক্রোসফ্ট ফাউন্ড্রি এবং MAI খেলার মাঠের মাধ্যমে উপলব্ধ হবে। উপরন্তু, এটি Copilot, Bing, এবং PowerPoint-এও চালু হচ্ছে।