নমুনা থেকেই ‘কণ্ঠস্বর নকল করে’ মাইক্রোসফটের এআই মডেল

ভবিষ্যতে কাস্টমাইজ করা বা উচ্চমানের ‘টেক্সট-টু-স্পিচ’ অ্যাপ্লিকেশনে এটি ব্যবহারের সম্ভাবনা থাকলেও, ডিপফেইকের মতোই এতে অপব্যবহারের ঝুঁকিও রয়েছে।

প্রযুক্তি ডেস্কবিডিনিউজ টোয়েন্টিফোর ডটকম
Published : 11 Jan 2023, 09:35 AM
Updated : 11 Jan 2023, 09:35 AM

নিজেদের সর্বশেষ গবেষণায় নতুন এক ধরনের এআই মডেল দেখিয়েছে মাইক্রোসফট। এটি তিন সেকেন্ডের অডিও নমুনা থেকেও কারও কণ্ঠস্বর হুবহু নকল করতে পারে।

এআই মডেলটির নাম ‘ভাল-ই’। এটি মাইক্রোসফটের ‘টেক্সট-টু-স্পিচ’ ফিচারে ব্যবহার করা যাবে বলে প্রযুক্তিবিষয়ক সাইট আর্স টেকনিকা উল্লেখ করেছে প্রতিবেদনে।

এটি কেবল গলাই মেলায় না, বরং বক্তার আবেগপূর্ণ কণ্ঠস্বর এমনকি কোনো রুমের একক ধ্বনিও মিলিয়ে ফেলতে পারে। 

ভবিষ্যতে কাস্টমাইজ করা বা উচ্চমানের ‘টেক্সট-টু-স্পিচ’ অ্যাপ্লিকেশনে এটি ব্যবহারের সম্ভাবনা থাকলেও, ডিপফেইকের মতোই এতে অপব্যবহারের ঝুঁকিও রয়েছে।

‘ভাল-ই’কে মাইক্রোসফট আখ্যা দিয়েছে একটি ‘নিউরাল কোডেক ল্যাংগুয়েজ মডেল’ হিসেবে। মেটার এআই চালিত ‘কম্প্রেশন নিউরাল নেট এনকোডেক’ থেকে পাওয়া ‘টেক্সট ইনপুট’ ও বক্তার কাছ থেকে পাওয়া স্বল্পদৈর্ঘ্য নমুনা থেকে এটি অডিও তৈরি করে বলে প্রতিবেদনে উল্লেখ করেছে প্রযুক্তিবিষয়ক সাইট এনগ্যাজেট।

এক গবেষণা পত্রে গবেষকরা ব্যাখ্যা করেন, তারা কীভাবে মেটার ‘লিব্রিলাইট’ নামের অডিও লাইব্রেরিতে থাকা সাত হাজারের বেশি বক্তার ৬০ হাজার ঘন্টা দীর্ঘ ইংরেজি ভাষায় দেওয়া বক্তব্যের মাধ্যমে ভাল-ই’কে প্রশিক্ষণ দিয়েছেন।

প্রতিবেদন অনুযায়ী, প্রশিক্ষণপ্রাপ্ত ডেটার সবচেয়ে কাছাকাছি কণ্ঠস্বরের সঙ্গে মিলিয়ে সম্ভবত এটি কারও কণ্ঠস্বর নকল করার চেষ্টা করে। এটি সত্য হলে, একে কাঙ্ক্ষিত টেক্সট ইনপুট দেওয়ার পর বক্তার কণ্ঠে এটি কেমন শোনাবে, তা অনুমান করতে এটি প্রশিক্ষণের ডেটা ব্যবহার করে।

গবেষণা দলটি দেখায়, ‘ভাল-ই গিটহাব’ নামের পেইজে এটি কতো ভালোভাবে কাজ করে। এআই দিয়ে ‘বলানো’ প্রতিটি বাক্যাংশের জন্য তারা বক্তার কাছ থেকে পাওয়া তিন সেকেন্ডের ‘প্রম্পট’ ব্যবহার করেছে।

এগুলোর ফলাফল কিছুটা মিশ্র। এর কিছু সংখ্যক কণ্ঠস্বর ‘যন্ত্রের মতো’ শোনা গেলেও বাকিগুলো চমকপ্রদভাবে বাস্তবসম্মতই শোনাচ্ছে। মূল নমুনায় থাকা আবেগপূর্ণ স্বর ধরে রাখার বিষয়টিই এর বিশেষ গুণ বলে প্রতিবেদনে উল্লেখ করেছে এনগ্যাজেট। আর পরিবেশে থাকা বিভিন্ন একক ধ্বনিও মিলিয়ে ফেলতে পারে এটি। তাই বক্তা যদি প্রতিধ্বনিমূলক কোনো জায়গায় কণ্ঠস্বর রেকর্ড করেন, তাহলে ভাল-ই’র আউটপুটও একই জায়গার মতোই শোনাবে।

এই মডেলের উন্নতি ঘটাতে প্রশিক্ষিত ডেটা বাড়ানোর পরিকল্পনা করছে মাইক্রোসফট। এ ছাড়া, বিভিন্ন ‘ছন্দ, কথা বলার শৈলী ও বক্তার সঙ্গে মেলা দৃষ্টিভংগির’ বেলাতেও তারা মডেলের কার্যকারিতা উন্নত করতে চায়। পাশাপাশি, এতে বিভিন্ন অস্পষ্ট বা অপ্রাপ্ত শব্দের মাত্রা কমানোর উপায়ও খুঁজে দেখছে কোম্পানিটি।

কারও কণ্ঠস্বর নকল করে অপব্যবহারের ঝুঁকি থাকায় সম্ভবত এর কোড প্রকাশ না করার সিদ্ধান্ত নিয়েছে মাইক্রোসফট। কোম্পানিটি যোগ করে, সামনে অগ্রসর হতে তারা নিজস্ব ‘এআই নীতিমালা’ অনুসরণ করবে।

“ভাল-ই যেহেতু বক্তার পরিচয় বজায় রেখেই এমন বক্তব্য সংশ্লেষণ করতে পারে, ফলে কণ্ঠস্বর শনাক্তকরণ ব্যবস্থাকে ঠকিয়ে বা ছদ্মবেশ ধারণ করে মডেলটি অপব্যবহারের সম্ভাব্য ঝুঁকি রয়েছে।” --গবেষণা পত্রের উপসংহারে থাকা ‘ব্রডার ইম্প্যাক্টস’ বিভাগে লিখেছে কোম্পানিটি।

তৌফিক ইমরোজ খালিদী
প্রধান সম্পাদক ও প্রকাশক