এবার নির্দেশনা থেকে ভিডিও ‘বানাচ্ছে’ মেটা’র এআই

এই প্রযুক্তি বিস্তৃতভাবে চালু হলে, ‘টেক্সট-টু-ইমেজ’ সিস্টেমের কারণে যেসব শঙ্কা তৈরি হয়েছে, যেমন ভিডিও’র মাধ্যমে ভুয়া তথ্য ছড়ানোর মতো বিষয়, সেগুলো আরও বেড়ে যাবে।

প্রযুক্তি ডেস্কবিডিনিউজ টোয়েন্টিফোর ডটকম

Published : 1 Oct 2022, 08:43 AM

Updated : 1 Oct 2022, 08:43 AM

কয়েকটি শব্দের নির্দেশনা থেকে ছবি বানানোর উপায় হিসেবে দিন দিন উন্নত হচ্ছে কৃত্রিম বুদ্ধিমত্তা। এতে সাধারণত ব্যবহৃত হয় ‘ডাল-ই ২’ বা ‘স্টেবল ডিফিউসন’-এর মতো ‘এআই ইমেজ জেনারেটর’। এই বিষয়টিকেই আরও একধাপ এগিয়ে ‘টেক্সট প্রম্পট’ থেকে ভিডিও তৈরি করতে এআই ব্যবহার করছেন মেটা গবেষকরা।

বৃহস্পতিবার ফেইসবুকে এই গবেষণা সম্পর্কে পোস্ট করেন মেটা প্রধান মার্ক জাকারবার্গ। প্রকল্পটির নাম ‘মেইক-এ-ভিডিও’। সর্বোচ্চ ২০ সেকেন্ডের এইসব ভিডিও ক্লিপে আছে বেশ কয়েকটি টেক্সট প্রম্পট, যেগুলো ব্যবহার করে এআই ব্যবহার করে বিভিন্ন ভিডিও তৈরি করেছে মেটার এআই।

গবেষকদের ব্যবহৃত এই সব টেক্সট প্রম্পটের মধ্যে রয়েছে ‘এ টেডি বেয়ার পেইন্টিং এ সেলফ পোরট্রেইট’, ‘এ স্পেসশিপ ল্যান্ডিং অন মার্স’ , ‘এ বেবি স্লথ উইথ এ নিটেড হ্যাট ট্রাইং টু ফিগার আউট এ ল্যাপটপ’ এবং ‘এ রোবট সার্ফিং এ ওয়েভ ইন দ্য ওশন’।

মার্ক জাকারবার্গ বলেন-

ছবির চেয়ে ভিডিও তৈরি বেশি কঠিন, কারণ, সঠিকভাবে প্রতিটি পিক্সেল বের করার পরও সিস্টেমকে অনুমান করতে হয় যে, এগুলো সময়ের সঙ্গে কীভাবে বদলে যাবে।

প্রতিটি প্রম্পটের ভিডিও কেবল কয়েক সেকেন্ড দীর্ঘ। প্রম্পট যেসব পরামর্শ দেয়, সেগুলোরই সাধারণত একটি তুলনামূলক নিম্নমানের রেজুলিউশনের ভিডিও পাওয়া যায়, দেখে মনে হয়, যেন কিছুটা ঝাঁকুনির ইফেক্ট রয়েছে এতে। প্রতিবেদনে সিএনএন বলছে, এর মধ্যে বেবি স্লথ দেখতে আসলে কোনো প্রাণীর মতোই হয়নি।

এই প্রযুক্তি বিস্তৃতভাবে চালু হলে, ‘টেক্সট-টু-ইমেজ’ সিস্টেমের কারণে যেসব শঙ্কা তৈরি হয়েছে সেগুলো এই প্রযুক্তি আরও বাড়িয়ে দেবে বলে উঠে এসেছে সিএনএন-এর প্রতিবেদনে। এর মধ্যে রয়েছে, ভিডিও’র মাধ্যমে ভুয়া তথ্য ছড়ানোর মতো বিষয়।

মেইক-এ-ভিডিও’র ওয়েব পেইজে এই সব স্বল্পদৈর্ঘ্যের ক্লিপ ছাড়াও আছে অন্যান্য বেশ কিছু ক্লিপ, যার কয়েকটি দেখতে তুলনামূলক বাস্তবধর্মী। উদাহরণ হিসেবে, ‘ক্লাউন ফিশ সুইমিং থ্রু দ্য কোরাল রিফ’ বা ‘এ ইয়াং কাপল ওয়াকিং ইন এ হেভি রেইন’-এর মতো প্রম্পটের বিপরীতে তৈরি ভিডিও।

নিজস্ব ফেইসবুক পোস্টে জাকারবার্গ ব্যাখ্যা করেছেন, কয়েকটি শব্দ থেকে একটি ভিডিও তৈরি করা কতটা জটিল।

“ছবির চেয়ে ভিডিও তৈরি বেশি কঠিন, কারণ, সঠিকভাবে প্রতিটি পিক্সেল বের করার পরও সিস্টেমকে অনুমান করতে হয় যে, এগুলো সময়ের সঙ্গে কীভাবে পাল্টাবে।” – লিখেছেন তিনি।

আরও পড়ুন-

Also Read: এআই ব্যবহারে ছবি তৈরির প্রযুক্তি উন্মুক্ত করলো দাল-ই

গবেষণা পত্রে মেটা ব্যাখ্যা করেছে, এই সব শব্দ কীভাবে ছবির সঙ্গে মিলে যায়, তা নির্ধারণ করতে একটি ‘টেক্সট-টু-ইমেজ’ এআই মডেল কীভাবে ব্যবহার করে প্রকল্পটি।

‘আনসুপারভাইজড লার্নিং’ নামে পরিচিত একটি এআই প্রযুক্তি ব্যবহৃত হয়েছে এতে, যেখানে অ্যালগরিদমগুলো প্যাটার্ন বোঝার জন্য এমন ডেটা যাচাই করে যা লেবেল দিয়ে চিহ্নিত নয়। পাশাপাশি, বাস্তবধর্মী নাড়াচাড়া দেখতে কেমন হয় সেটিও ভিডিও দেখে যাচাইয়ের সুযোগ দেয় এটি।

গবেষকদের ভাষ্যমতে, বিশাল ও জনপ্রিয় এআই সিস্টেমগুলো যেখানে লেখা থেকে ছবি বের করছে, সেদিকে তাদের ‘টেক্সট-টু-ইমেজ’ এআই মডেল প্রশিক্ষিত হয়েছে ইন্টারনেট ডেটার মাধ্যমে। এর মানে হচ্ছে, এতে অতিরঞ্জিত সামাজিক পক্ষপাত শিখেছে এটি। আর এই শেখার মধ্যে বিভিন্ন ক্ষতিকর বিষয়ও থাকছে।

তারা আরও উল্লেখ করেছেন, ‘এনএসএফডব্লিউ (নট সেইফ ফর ওয়ার্ক)’ কনটেন্ট ও বাজে শব্দের ডেটা ফিল্টার করেছেন তারা। তবে এই সব ডেটা সেটে লাখ লাখ ছবি ও টেক্সট থাকায় এমন সকল কনটেন্ট সরানো সম্ভব নাও হতে পারে।

জাকারবার্গ লিখেছেন, ভবিষ্যতে একটি নমুনা হিসেবে ‘মেইক-এ-ভিডিও’ প্রকল্প শেয়ার করার পরিকল্পনা রয়েছে মেটার।

এআই

মেটা

মেইক-এ-ভিডিও