টেক

নমুনা থেকেই ‘কণ্ঠস্বর নকল করে’ মাইক্রোসফটের এআই মডেল

ভবিষ্যতে কাস্টমাইজ করা বা উচ্চমানের ‘টেক্সট-টু-স্পিচ’ অ্যাপ্লিকেশনে এটি ব্যবহারের সম্ভাবনা থাকলেও, ডিপফেইকের মতোই এতে অপব্যবহারের ঝুঁকিও রয়েছে।

| ছবি: রয়টার্স

প্রযুক্তি ডেস্ক

বিডিনিউজ টোয়েন্টিফোর ডটকম

Published : 11 Jan 2023, 02:35 PM

Updated : 11 Jan 2023, 02:35 PM

নিজেদের সর্বশেষ গবেষণায় নতুন এক ধরনের এআই মডেল দেখিয়েছে মাইক্রোসফট। এটি তিন সেকেন্ডের অডিও নমুনা থেকেও কারও কণ্ঠস্বর হুবহু নকল করতে পারে।

এআই মডেলটির নাম ‘ভাল-ই’। এটি মাইক্রোসফটের ‘টেক্সট-টু-স্পিচ’ ফিচারে ব্যবহার করা যাবে বলে প্রযুক্তিবিষয়ক সাইট আর্স টেকনিকা উল্লেখ করেছে প্রতিবেদনে।

এটি কেবল গলাই মেলায় না, বরং বক্তার আবেগপূর্ণ কণ্ঠস্বর এমনকি কোনো রুমের একক ধ্বনিও মিলিয়ে ফেলতে পারে।

‘ভাল-ই’কে মাইক্রোসফট আখ্যা দিয়েছে একটি ‘নিউরাল কোডেক ল্যাংগুয়েজ মডেল’ হিসেবে। মেটার এআই চালিত ‘কম্প্রেশন নিউরাল নেট এনকোডেক’ থেকে পাওয়া ‘টেক্সট ইনপুট’ ও বক্তার কাছ থেকে পাওয়া স্বল্পদৈর্ঘ্য নমুনা থেকে এটি অডিও তৈরি করে বলে প্রতিবেদনে উল্লেখ করেছে প্রযুক্তিবিষয়ক সাইট এনগ্যাজেট।

এক গবেষণা পত্রে গবেষকরা ব্যাখ্যা করেন, তারা কীভাবে মেটার ‘লিব্রিলাইট’ নামের অডিও লাইব্রেরিতে থাকা সাত হাজারের বেশি বক্তার ৬০ হাজার ঘন্টা দীর্ঘ ইংরেজি ভাষায় দেওয়া বক্তব্যের মাধ্যমে ভাল-ই’কে প্রশিক্ষণ দিয়েছেন।

প্রতিবেদন অনুযায়ী, প্রশিক্ষণপ্রাপ্ত ডেটার সবচেয়ে কাছাকাছি কণ্ঠস্বরের সঙ্গে মিলিয়ে সম্ভবত এটি কারও কণ্ঠস্বর নকল করার চেষ্টা করে। এটি সত্য হলে, একে কাঙ্ক্ষিত টেক্সট ইনপুট দেওয়ার পর বক্তার কণ্ঠে এটি কেমন শোনাবে, তা অনুমান করতে এটি প্রশিক্ষণের ডেটা ব্যবহার করে।

গবেষণা দলটি দেখায়, ‘ভাল-ই গিটহাব’ নামের পেইজে এটি কতো ভালোভাবে কাজ করে। এআই দিয়ে ‘বলানো’ প্রতিটি বাক্যাংশের জন্য তারা বক্তার কাছ থেকে পাওয়া তিন সেকেন্ডের ‘প্রম্পট’ ব্যবহার করেছে।

এগুলোর ফলাফল কিছুটা মিশ্র। এর কিছু সংখ্যক কণ্ঠস্বর ‘যন্ত্রের মতো’ শোনা গেলেও বাকিগুলো চমকপ্রদভাবে বাস্তবসম্মতই শোনাচ্ছে। মূল নমুনায় থাকা আবেগপূর্ণ স্বর ধরে রাখার বিষয়টিই এর বিশেষ গুণ বলে প্রতিবেদনে উল্লেখ করেছে এনগ্যাজেট। আর পরিবেশে থাকা বিভিন্ন একক ধ্বনিও মিলিয়ে ফেলতে পারে এটি। তাই বক্তা যদি প্রতিধ্বনিমূলক কোনো জায়গায় কণ্ঠস্বর রেকর্ড করেন, তাহলে ভাল-ই’র আউটপুটও একই জায়গার মতোই শোনাবে।

এই মডেলের উন্নতি ঘটাতে প্রশিক্ষিত ডেটা বাড়ানোর পরিকল্পনা করছে মাইক্রোসফট। এ ছাড়া, বিভিন্ন ‘ছন্দ, কথা বলার শৈলী ও বক্তার সঙ্গে মেলা দৃষ্টিভংগির’ বেলাতেও তারা মডেলের কার্যকারিতা উন্নত করতে চায়। পাশাপাশি, এতে বিভিন্ন অস্পষ্ট বা অপ্রাপ্ত শব্দের মাত্রা কমানোর উপায়ও খুঁজে দেখছে কোম্পানিটি।

কারও কণ্ঠস্বর নকল করে অপব্যবহারের ঝুঁকি থাকায় সম্ভবত এর কোড প্রকাশ না করার সিদ্ধান্ত নিয়েছে মাইক্রোসফট। কোম্পানিটি যোগ করে, সামনে অগ্রসর হতে তারা নিজস্ব ‘এআই নীতিমালা’ অনুসরণ করবে।

“ভাল-ই যেহেতু বক্তার পরিচয় বজায় রেখেই এমন বক্তব্য সংশ্লেষণ করতে পারে, ফলে কণ্ঠস্বর শনাক্তকরণ ব্যবস্থাকে ঠকিয়ে বা ছদ্মবেশ ধারণ করে মডেলটি অপব্যবহারের সম্ভাব্য ঝুঁকি রয়েছে।” --গবেষণা পত্রের উপসংহারে থাকা ‘ব্রডার ইম্প্যাক্টস’ বিভাগে লিখেছে কোম্পানিটি।