কয়েকটি শব্দের নির্দেশনা থেকে ছবি বানানোর উপায় হিসেবে দিন দিন উন্নত হচ্ছে কৃত্রিম বুদ্ধিমত্তা। এতে সাধারণত ব্যবহৃত হয় ‘ডাল-ই ২’ বা ‘স্টেবল ডিফিউসন’-এর মতো ‘এআই ইমেজ জেনারেটর’। এই বিষয়টিকেই আরও একধাপ এগিয়ে ‘টেক্সট প্রম্পট’ থেকে ভিডিও তৈরি করতে এআই ব্যবহার করছেন মেটা গবেষকরা।
বৃহস্পতিবার ফেইসবুকে এই গবেষণা সম্পর্কে পোস্ট করেন মেটা প্রধান মার্ক জাকারবার্গ। প্রকল্পটির নাম ‘মেইক-এ-ভিডিও’। সর্বোচ্চ ২০ সেকেন্ডের এইসব ভিডিও ক্লিপে আছে বেশ কয়েকটি টেক্সট প্রম্পট, যেগুলো ব্যবহার করে এআই ব্যবহার করে বিভিন্ন ভিডিও তৈরি করেছে মেটার এআই।
গবেষকদের ব্যবহৃত এই সব টেক্সট প্রম্পটের মধ্যে রয়েছে ‘এ টেডি বেয়ার পেইন্টিং এ সেলফ পোরট্রেইট’, ‘এ স্পেসশিপ ল্যান্ডিং অন মার্স’ , ‘এ বেবি স্লথ উইথ এ নিটেড হ্যাট ট্রাইং টু ফিগার আউট এ ল্যাপটপ’ এবং ‘এ রোবট সার্ফিং এ ওয়েভ ইন দ্য ওশন’।
মার্ক জাকারবার্গ বলেন-ছবির চেয়ে ভিডিও তৈরি বেশি কঠিন, কারণ, সঠিকভাবে প্রতিটি পিক্সেল বের করার পরও সিস্টেমকে অনুমান করতে হয় যে, এগুলো সময়ের সঙ্গে কীভাবে বদলে যাবে।
প্রতিটি প্রম্পটের ভিডিও কেবল কয়েক সেকেন্ড দীর্ঘ। প্রম্পট যেসব পরামর্শ দেয়, সেগুলোরই সাধারণত একটি তুলনামূলক নিম্নমানের রেজুলিউশনের ভিডিও পাওয়া যায়, দেখে মনে হয়, যেন কিছুটা ঝাঁকুনির ইফেক্ট রয়েছে এতে। প্রতিবেদনে সিএনএন বলছে, এর মধ্যে বেবি স্লথ দেখতে আসলে কোনো প্রাণীর মতোই হয়নি।
এই প্রযুক্তি বিস্তৃতভাবে চালু হলে, ‘টেক্সট-টু-ইমেজ’ সিস্টেমের কারণে যেসব শঙ্কা তৈরি হয়েছে সেগুলো এই প্রযুক্তি আরও বাড়িয়ে দেবে বলে উঠে এসেছে সিএনএন-এর প্রতিবেদনে। এর মধ্যে রয়েছে, ভিডিও’র মাধ্যমে ভুয়া তথ্য ছড়ানোর মতো বিষয়।
মেইক-এ-ভিডিও’র ওয়েব পেইজে এই সব স্বল্পদৈর্ঘ্যের ক্লিপ ছাড়াও আছে অন্যান্য বেশ কিছু ক্লিপ, যার কয়েকটি দেখতে তুলনামূলক বাস্তবধর্মী। উদাহরণ হিসেবে, ‘ক্লাউন ফিশ সুইমিং থ্রু দ্য কোরাল রিফ’ বা ‘এ ইয়াং কাপল ওয়াকিং ইন এ হেভি রেইন’-এর মতো প্রম্পটের বিপরীতে তৈরি ভিডিও।
নিজস্ব ফেইসবুক পোস্টে জাকারবার্গ ব্যাখ্যা করেছেন, কয়েকটি শব্দ থেকে একটি ভিডিও তৈরি করা কতটা জটিল।
“ছবির চেয়ে ভিডিও তৈরি বেশি কঠিন, কারণ, সঠিকভাবে প্রতিটি পিক্সেল বের করার পরও সিস্টেমকে অনুমান করতে হয় যে, এগুলো সময়ের সঙ্গে কীভাবে পাল্টাবে।” – লিখেছেন তিনি।
আরও পড়ুন-
গবেষণা পত্রে মেটা ব্যাখ্যা করেছে, এই সব শব্দ কীভাবে ছবির সঙ্গে মিলে যায়, তা নির্ধারণ করতে একটি ‘টেক্সট-টু-ইমেজ’ এআই মডেল কীভাবে ব্যবহার করে প্রকল্পটি।
‘আনসুপারভাইজড লার্নিং’ নামে পরিচিত একটি এআই প্রযুক্তি ব্যবহৃত হয়েছে এতে, যেখানে অ্যালগরিদমগুলো প্যাটার্ন বোঝার জন্য এমন ডেটা যাচাই করে যা লেবেল দিয়ে চিহ্নিত নয়। পাশাপাশি, বাস্তবধর্মী নাড়াচাড়া দেখতে কেমন হয় সেটিও ভিডিও দেখে যাচাইয়ের সুযোগ দেয় এটি।
গবেষকদের ভাষ্যমতে, বিশাল ও জনপ্রিয় এআই সিস্টেমগুলো যেখানে লেখা থেকে ছবি বের করছে, সেদিকে তাদের ‘টেক্সট-টু-ইমেজ’ এআই মডেল প্রশিক্ষিত হয়েছে ইন্টারনেট ডেটার মাধ্যমে। এর মানে হচ্ছে, এতে অতিরঞ্জিত সামাজিক পক্ষপাত শিখেছে এটি। আর এই শেখার মধ্যে বিভিন্ন ক্ষতিকর বিষয়ও থাকছে।
তারা আরও উল্লেখ করেছেন, ‘এনএসএফডব্লিউ (নট সেইফ ফর ওয়ার্ক)’ কনটেন্ট ও বাজে শব্দের ডেটা ফিল্টার করেছেন তারা। তবে এই সব ডেটা সেটে লাখ লাখ ছবি ও টেক্সট থাকায় এমন সকল কনটেন্ট সরানো সম্ভব নাও হতে পারে।
জাকারবার্গ লিখেছেন, ভবিষ্যতে একটি নমুনা হিসেবে ‘মেইক-এ-ভিডিও’ প্রকল্প শেয়ার করার পরিকল্পনা রয়েছে মেটার।