এবার নির্দেশনা থেকে ভিডিও ‘বানাচ্ছে’ মেটা’র এআই

এই প্রযুক্তি বিস্তৃতভাবে চালু হলে, ‘টেক্সট-টু-ইমেজ’ সিস্টেমের কারণে যেসব শঙ্কা তৈরি হয়েছে, যেমন ভিডিও’র মাধ্যমে ভুয়া তথ্য ছড়ানোর মতো বিষয়, সেগুলো আরও বেড়ে যাবে।

প্রযুক্তি ডেস্কবিডিনিউজ টোয়েন্টিফোর ডটকম
Published : 1 Oct 2022, 08:43 AM
Updated : 1 Oct 2022, 08:43 AM

কয়েকটি শব্দের নির্দেশনা থেকে ছবি বানানোর উপায় হিসেবে দিন দিন উন্নত হচ্ছে কৃত্রিম বুদ্ধিমত্তা। এতে সাধারণত ব্যবহৃত হয় ‘ডাল-ই ২’ বা ‘স্টেবল ডিফিউসন’-এর মতো ‘এআই ইমেজ জেনারেটর’। এই বিষয়টিকেই আরও একধাপ এগিয়ে ‘টেক্সট প্রম্পট’ থেকে ভিডিও তৈরি করতে এআই ব্যবহার করছেন মেটা গবেষকরা।

বৃহস্পতিবার ফেইসবুকে এই গবেষণা সম্পর্কে পোস্ট করেন মেটা প্রধান মার্ক জাকারবার্গ। প্রকল্পটির নাম ‘মেইক-এ-ভিডিও’। সর্বোচ্চ ২০ সেকেন্ডের এইসব ভিডিও ক্লিপে আছে বেশ কয়েকটি টেক্সট প্রম্পট, যেগুলো ব্যবহার করে এআই ব্যবহার করে বিভিন্ন ভিডিও তৈরি করেছে মেটার এআই।

গবেষকদের ব্যবহৃত এই সব টেক্সট প্রম্পটের মধ্যে রয়েছে ‘এ টেডি বেয়ার পেইন্টিং এ সেলফ পোরট্রেইট’, ‘এ স্পেসশিপ ল্যান্ডিং অন মার্স’ , ‘এ বেবি স্লথ উইথ এ নিটেড হ্যাট ট্রাইং টু ফিগার আউট এ ল্যাপটপ’ এবং ‘এ রোবট সার্ফিং এ ওয়েভ ইন দ্য ওশন’।

মার্ক জাকারবার্গ বলেন-
ছবির চেয়ে ভিডিও তৈরি বেশি কঠিন, কারণ, সঠিকভাবে প্রতিটি পিক্সেল বের করার পরও সিস্টেমকে অনুমান করতে হয় যে, এগুলো সময়ের সঙ্গে কীভাবে বদলে যাবে।

প্রতিটি প্রম্পটের ভিডিও কেবল কয়েক সেকেন্ড দীর্ঘ। প্রম্পট যেসব পরামর্শ দেয়, সেগুলোরই সাধারণত একটি তুলনামূলক নিম্নমানের রেজুলিউশনের ভিডিও পাওয়া যায়, দেখে মনে হয়, যেন কিছুটা ঝাঁকুনির ইফেক্ট রয়েছে এতে। প্রতিবেদনে সিএনএন বলছে, এর মধ্যে বেবি স্লথ দেখতে আসলে কোনো প্রাণীর মতোই হয়নি।

এই প্রযুক্তি বিস্তৃতভাবে চালু হলে, ‘টেক্সট-টু-ইমেজ’ সিস্টেমের কারণে যেসব শঙ্কা তৈরি হয়েছে সেগুলো এই প্রযুক্তি আরও বাড়িয়ে দেবে বলে উঠে এসেছে সিএনএন-এর প্রতিবেদনে। এর মধ্যে রয়েছে, ভিডিও’র মাধ্যমে ভুয়া তথ্য ছড়ানোর মতো বিষয়।

মেইক-এ-ভিডিও’র ওয়েব পেইজে এই সব স্বল্পদৈর্ঘ্যের ক্লিপ ছাড়াও আছে অন্যান্য বেশ কিছু ক্লিপ, যার কয়েকটি দেখতে তুলনামূলক বাস্তবধর্মী। উদাহরণ হিসেবে, ‘ক্লাউন ফিশ সুইমিং থ্রু দ্য কোরাল রিফ’ বা ‘এ ইয়াং কাপল ওয়াকিং ইন এ হেভি রেইন’-এর মতো প্রম্পটের বিপরীতে তৈরি ভিডিও।

নিজস্ব ফেইসবুক পোস্টে জাকারবার্গ ব্যাখ্যা করেছেন, কয়েকটি শব্দ থেকে একটি ভিডিও তৈরি করা কতটা জটিল।

“ছবির চেয়ে ভিডিও তৈরি বেশি কঠিন, কারণ, সঠিকভাবে প্রতিটি পিক্সেল বের করার পরও সিস্টেমকে অনুমান করতে হয় যে, এগুলো সময়ের সঙ্গে কীভাবে পাল্টাবে।” – লিখেছেন তিনি।

আরও পড়ুন-

Also Read: এআই ব্যবহারে ছবি তৈরির প্রযুক্তি উন্মুক্ত করলো দাল-ই

গবেষণা পত্রে মেটা ব্যাখ্যা করেছে, এই সব শব্দ কীভাবে ছবির সঙ্গে মিলে যায়, তা নির্ধারণ করতে একটি ‘টেক্সট-টু-ইমেজ’ এআই মডেল কীভাবে ব্যবহার করে প্রকল্পটি।

‘আনসুপারভাইজড লার্নিং’ নামে পরিচিত একটি এআই প্রযুক্তি ব্যবহৃত হয়েছে এতে, যেখানে অ্যালগরিদমগুলো প্যাটার্ন বোঝার জন্য এমন ডেটা যাচাই করে যা লেবেল দিয়ে চিহ্নিত নয়। পাশাপাশি, বাস্তবধর্মী নাড়াচাড়া দেখতে কেমন হয় সেটিও ভিডিও দেখে যাচাইয়ের সুযোগ দেয় এটি।

গবেষকদের ভাষ্যমতে, বিশাল ও জনপ্রিয় এআই সিস্টেমগুলো যেখানে লেখা থেকে ছবি বের করছে, সেদিকে তাদের ‘টেক্সট-টু-ইমেজ’ এআই মডেল প্রশিক্ষিত হয়েছে ইন্টারনেট ডেটার মাধ্যমে। এর মানে হচ্ছে, এতে অতিরঞ্জিত সামাজিক পক্ষপাত শিখেছে এটি। আর এই শেখার মধ্যে বিভিন্ন ক্ষতিকর বিষয়ও থাকছে।

তারা আরও উল্লেখ করেছেন, ‘এনএসএফডব্লিউ (নট সেইফ ফর ওয়ার্ক)’ কনটেন্ট ও বাজে শব্দের ডেটা ফিল্টার করেছেন তারা। তবে এই সব ডেটা সেটে লাখ লাখ ছবি ও টেক্সট থাকায় এমন সকল কনটেন্ট সরানো সম্ভব নাও হতে পারে।

জাকারবার্গ লিখেছেন, ভবিষ্যতে একটি নমুনা হিসেবে ‘মেইক-এ-ভিডিও’ প্রকল্প শেয়ার করার পরিকল্পনা রয়েছে মেটার।