Published : 08 Mar 2026, 01:53 PM
কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে রোবটকে মানুষের মতো ‘দেখতে ও আশপাশের পরিবেশ বুঝতে শেখানোর প্রযুক্তি নিয়ে কাজ করছেন বাংলাদেশি কম্পিউটার বিজ্ঞানী ড. আলীমুর রেজা। বাংলাদেশের বুয়েটের কম্পিউটার সায়েন্স অ্যান্ড ইঞ্জিনিয়ারিং (সিএসই) বিভাগ থেকে শুরু হয় আলীমুর রেজার পথচলা। স্নাতক শেষ করে তিনি উচ্চশিক্ষার জন্য যুক্তরাষ্ট্রে যান এবং সেখানে ড্রেক্সেল ইউনিভার্সিটি থেকে মাস্টার্স সম্পন্ন করেন। পরে ভার্জিনিয়ার জর্জ মেসন ইউনিভার্সিটি থেকে ২০১৮ সালে পিএইচডি অর্জন করেন।
গবেষণা-জীবনে তিনি পোস্টডক্টরাল গবেষক হিসেবে ইন্ডিয়ানা ইউনিভার্সিটি ব্লুমিংটনে কাজ করেছেন। পাশাপাশি ইউনাইটেড স্টেটস আর্মি রিসার্চ ল্যাবরেটরি (এআরএল) ও থ্রিএম-এর মতো বিশ্বখ্যাত প্রতিষ্ঠানে ইন্টার্নশিপের অভিজ্ঞতাও অর্জন করেছেন। বর্তমানে তিনি যুক্তরাষ্ট্রের আইওয়া অঙ্গরাজ্যের ড্রেক ইউনিভার্সিটিতে ‘টেনিওর-ট্র্যাক’ সহকারী অধ্যাপক হিসেবে কর্মরত।
আলীমুরের গবেষণার মূল ক্ষেত্র হলো কৃত্রিম বুদ্ধিমত্তা, বিশেষ করে কম্পিউটার ভিশন (যন্ত্রকে ছবি বা ভিডিও দেখে বুঝতে শেখানোর প্রযুক্তি), রোবটিক্স (স্বয়ংক্রিয় যন্ত্র-সহকারী) এবং মেশিন লার্নিং (ডেটা থেকে শেখার পদ্ধতি)। এই সাক্ষাৎকারে উঠে এসেছে আজকের পাঠ্যবইয়ের গণিত, প্রোগ্রামিং ও কৌতূহল কীভাবে ভবিষ্যতের রোবট-দুনিয়াকে বাস্তব করে তুলছে।
মশিউর: আপনি যে ‘কম্পিউটার ভিশন’ নিয়ে কাজ করেন, এটি আসলে কী এবং কেন গুরুত্বপূর্ণ?
আলীমুর: কম্পিউটার ভিশন হলো এমন একটি প্রযুক্তি, যেখানে কম্পিউটারকে ‘দেখতে’ শেখানো হয়। ঠিক মানুষের চোখ ও মস্তিষ্ক যেভাবে ছবি দেখে কোনো কিছু বুঝতে পারে। মানুষের কাছে একটি ছবি মানে হচ্ছে মানুষ, গাছ, রাস্তা কিংবা দেয়াল- এসব পরিচিত বস্তু। কিন্তু একটি কম্পিউটারের কাছে ছবি শুরুতে কেবল কিছু রঙের বিন্দু বা পিক্সেল (ছবির ক্ষুদ্র রঙিন কণা) ছাড়া আর কিছুই নয়।
আমাদের কাজ হলো, এই পিক্সেলগুলো বিশ্লেষণ করে কম্পিউটার যেন বলতে পারে- ‘এটা মানুষ’, ‘ওটা চেয়ার’ কিংবা ‘এটা একটা দরজা’। আপনি যেমন ক্লাসে বোর্ডে লেখা দেখে বুঝতে পারেন কোনটা অঙ্ক আর কোনটা বাংলা, কম্পিউটার ভিশন ঠিক তেমনই একটি প্রক্রিয়া। শুধু এখানে বোর্ডের বদলে ছবি বা ভিডিও ব্যবহৃত হয়।
এই ক্ষমতা তৈরি হলে রোবট, ক্যামেরা কিংবা ড্রোন- সবই বাস্তব জগতের সঙ্গে বুদ্ধিমত্তা খাটিয়ে কাজ করতে পারে। তাই আমি বলি, কম্পিউটার ভিশন হলো যন্ত্রের চোখ, আর মেশিন লার্নিং হলো সেই চোখকে পথ দেখানোর শিক্ষক।
মশিউর: আমরা জাপানের রোবট রেস্টুরেন্টগুলোর গল্প শুনি। তাহলে কি রোবট এখনই মানুষের মতো সব কাজ করতে সক্ষম?
আলীমুর: জাপানে যে রোবট রেস্টুরেন্টগুলো দেখা যায়, সেখানে রোবট অনেক কাজ করে ঠিকই, কিন্তু সেগুলোর বেশিরভাগই পুরোপুরি স্বয়ংক্রিয় বা অটোনমাস নয়। অর্থাৎ রোবটকে নির্দিষ্ট নির্দেশ দিতে হয়, তাকে নির্দিষ্ট পথে চলতে সাহায্য করতে হয় এবং অনেক ক্ষেত্রে মানুষের হস্তক্ষেপ প্রয়োজন হয়। আমি যেটাকে আগামীর লক্ষ্য হিসেবে দেখি, তা হলো ‘কমপ্লিটলি অটোনমাস এজেন্ট’- যে নিজে নিজের পরিবেশ বুঝবে, নিজেই সিদ্ধান্ত নেবে, নিজের ভুল শনাক্ত করবে এবং প্রয়োজন হলে নিজেই পথ পরিবর্তন করবে।
ঠিক যেমন আপনি একটি নতুন স্কুলে প্রথম দিন গেলেও নিজের বুদ্ধি খাটিয়ে ক্লাসরুম খুঁজে নিতে পারেন, কারও হাত ধরে টেনে নিয়ে যেতে হয় না। রোবটকে সেই পর্যায়ে নিতে হলে তার দেখা ও বোঝা, দুটোই অত্যন্ত শক্তিশালী হতে হবে। আজকের রোবট দেখে আমরা আশাবাদী হতে পারি ঠিকই, কিন্তু মনে রাখতে হবে- এটি এখনো একটি চলমান অভিযাত্রা। গবেষণার একটি বড় অংশ এখনো এই ‘অসম্পূর্ণ সমস্যার’ সমাধান খুঁজছে।
মশিউর: আপনি বর্তমানে ‘আন্ডারওয়াটার ভিশন’ বা পানির নিচে ‘সেগমেন্টেশন’ নিয়ে কাজ করছেন। পানির নিচে কৃত্রিম বুদ্ধিমত্তা বা এআই ব্যবহার করা কেন এত কঠিন?
আলীমুর: পানির নিচে এআই ব্যবহার করা বেশ কঠিন, কারণ সেখানে পৃথিবীর স্বাভাবিক দেখার নিয়ম বদলে যায়। পানির ভেতর আলো কম থাকে, রঙের বিকৃতি ঘটে এবং ক্ষুদ্র কণার কারণে ছবি ঝাপসা হয়ে যায়- ঠিক যেমন ঘন কুয়াশায় দূরের জিনিস দেখা কঠিন হয়ে পড়ে।
আবার পানির নিচের বস্তুগুলো আমাদের দৈনন্দিন জীবনের পরিচিত বস্তুগুলোর মতো নয়; সেখানকার মাছ, শৈবাল কিংবা প্রবাল- এগুলোর গঠন ও আচরণ সম্পূর্ণ ভিন্ন। তাই যে মডেলটি ঘরের ভেতর মানুষ ও চেয়ার আলাদা করতে পারে, সে একই দক্ষতায় পানির নিচে মাছ ও শৈবাল আলাদা করতে পারবে, এমনটা ধরে নেওয়া ভুল।
আমাদের কাজের একটি গুরুত্বপূর্ণ দিক হলো- বিপুল সংখ্যক ‘আন্ডারওয়াটার অবজেক্ট’ নিয়ে একটি ‘সেমান্টিক সেগমেন্টেশন’ মডেল তৈরি করা। ভবিষ্যতে এর মাধ্যমে মাছের স্বাস্থ্য পর্যবেক্ষণ, ‘অ্যাকুয়াকালচার’ বা মাছ চাষ মনিটরিং এবং সমুদ্র-পরিবেশ নিয়ে উন্নত গবেষণা সম্ভব হবে। বাংলাদেশের মতো দেশে, যেখানে বিশাল উপকূল ও মৎস্যসম্পদ রয়েছে, সেখানে সঠিক প্রযুক্তি ব্যবহার করে এই খাতে স্মার্ট মনিটরিং ব্যবস্থা গড়ে তোলা সম্ভব।
মশিউর: ‘থ্রিডি রিকনস্ট্রাকশন’ প্রযুক্তিতে দ্বি-মাত্রিক ছবি থেকে কীভাবে ত্রি-মাত্রিক মডেল তৈরি করা সম্ভব?
আলীমুর: ‘থ্রিডি রিকনস্ট্রাকশন’ বা ছবি থেকে ত্রিমাত্রিক মডেল বানানো হলো এমন একটি পদ্ধতি, যেখানে এক বা একাধিক ছবি দেখে কম্পিউটার বোঝার চেষ্টা করে- বস্তুটির গভীরতা (ডেপথ) কোথায় কতটুকু। আপনি যখন দুটি চোখ দিয়ে কোনো কিছু দেখেন, তখন আপনার মস্তিষ্ক স্বাভাবিকভাবেই গভীরতা আন্দাজ করতে পারে, কোন জিনিসটি কাছে আর কোনটি দূরে।
কিন্তু ক্যামেরা সাধারণত একচোখা হয়, তাই সাধারণ ছবিতে গভীরতা লুকিয়ে থাকে। আমরা আমাদের গবেষণায় চেষ্টা করি, ছবির বিভিন্ন সংকেত যেমন আলো-ছায়া, কোণ, প্রান্ত ও ভিন্ন ভিন্ন দৃষ্টিকোণ ব্যবহার করে সেই হারিয়ে যাওয়া গভীরতাকে বের করে আনতে।
ভবিষ্যতে ভাবুন, আপনি মোবাইলে একটি ঘরের দুই-তিনটি ছবি তুললেন আর আপনার ফোন মুহূর্তেই সেই ঘরের একটি নিখুঁত থ্রিডি মডেল তৈরি করে দিল। এর ব্যবহার হতে পারে স্থাপত্য, গেমিং, ভার্চুয়াল রিয়েলিটি কিংবা রোবট নেভিগেশনের মতো গুরুত্বপূর্ণ ক্ষেত্রে। এটি বাস্তব জগতকে ডিজিটালভাবে সংরক্ষণ করার এক শক্তিশালী উপায়।

মশিউর: এআই, মেশিন লার্নিং এবং ডিপ লার্নিং- এই তিনটির পার্থক্য সাধারণের জন্য কীভাবে সহজ করে বলবেন?
আলীমুর: খুব সহজভাবে বলি- এআই বা আর্টিফিশিয়াল ইন্টেলিজেন্স হলো একটি সামগ্রিক পরিভাষা বা ‘আম্ব্রেলা টার্ম’; যার লক্ষ্য হলো যন্ত্রকে বুদ্ধিমান আচরণ করতে শেখানো। এই লক্ষ্য অর্জনের একটি জনপ্রিয় পথ হলো ‘মেশিন লার্নিং’, যেখানে যন্ত্র ডেটা বা তথ্য দেখে শেখে।
আর ‘ডিপ লার্নিং’ হলো মেশিন লার্নিংয়েরই একটি বিশেষ শাখা, যেখানে ‘নিউরাল নেটওয়ার্ক’ (মানুষের মস্তিষ্কের অনুকরণে তৈরি গাণিতিক মডেল) ব্যবহৃত হয়। এই নেটওয়ার্কে অনেকগুলো স্তর বা লেয়ার থাকে, তাই এর নাম হয়েছে ‘ডিপ’।
আপনি এভাবে ভাবতে পারেন- এআই হলো বুদ্ধিমান হওয়ার স্বপ্ন, মেশিন লার্নিং হলো শেখার পদ্ধতি, আর ডিপ লার্নিং হলো শেখার জন্য অত্যন্ত শক্তিশালী ও গভীর যন্ত্রপাতি।
১৯৫৮ সালের সাধারণ নিউরাল মডেল পারসেপট্রন থেকে শুরু করে আজকের ট্রান্সফরমার পর্যন্ত সবই এই বিবর্তনের একেকটি ধাপ। তবে আমি সবসময় বলি, কোন পদ্ধতি ব্যবহার করবেন তা প্রযুক্তির জন্য নয়, বরং সমস্যার ওপর নির্ভর করে ঠিক করা উচিত। আগে সমস্যাটি বুঝুন, তারপর ঠিক করুন কোন টুলটি সবচেয়ে মানানসই।
মশিউর: রোবটিক্স বা এআই শেখার জন্য একজন শিক্ষার্থীর যাত্রা কোথা থেকে শুরু হওয়া উচিত?
আলীমুর: শুরুটা হওয়া উচিত ভিত্তি মজবুত করার মাধ্যমে। বিশেষ করে গণিত, যুক্তি (লজিক), প্রোগ্রামিং এবং প্রবল কৌতূহল। বর্তমান সময়ে ‘পাইথন’ শেখা খুব জরুরি, কারণ বেশিরভাগ এআই টুল ও লাইব্রেরি এই ভাষাতেই তৈরি।
প্রাথমিক মেশিন লার্নিংয়ের জন্য ‘সাইকিট-লার্ন’ এবং ডিপ লার্নিংয়ের জন্য ‘পাইটর্চ’ বা ‘টেনসরফ্লো’ এর মতো টুলগুলো বিশ্বজুড়ে ব্যবহৃত হচ্ছে। তবে শুধু তাত্ত্বিক পড়াশোনা করলেই হবে না, বাস্তব ‘ডেটাসেট’ নিয়ে কাজ করতে হবে। রোবটিক্সের ক্ষেত্রে বড় সমস্যা হলো রোবট অনেক দামি; কিন্তু বর্তমানে কম্পিউটারে রোবটের ভার্চুয়াল পরিবেশ তৈরির জন্য চমৎকার সব সিমুলেটর আছে। যেমন- গ্যাজেবো বা হ্যাবিটেট।
আর গবেষণার কাজে ‘টার্টলবট’ বা ‘লোকোবট’-এর মতো রোবট ব্যবহার করা যায়। যদি কেউ ধৈর্য ধরে ছোট ছোট প্রজেক্ট করতে পারে। যেমন ক্যামেরার মাধ্যমে বস্তু চিনে নেওয়া, তাহলেই তার সামনে বড় পথ খুলে যাবে।
মশিউর: ঢাকার যানজট নিরসনে এআই কি সত্যিই কোনো জাদুকরী সমাধান দিতে পারবে?
আলীমুর: আমি এই বিষয়ে একটু বাস্তববাদী হতে চাই। ঢাকার যানজটের মূল সমস্যা কেবল প্রযুক্তি কিংবা বুদ্ধিমত্তার ঘাটতি নয়। বরং এটি ডেমোগ্রাফিক বা জনসংখ্যা ও অবকাঠামোগত চাপের বাস্তবতা। কোনো শহরের ধারণক্ষমতার চেয়ে মানুষের সংখ্যা বহুগুণ বেশি হলে যেকোনো ব্যবস্থাই ভেঙে পড়তে পারে। তবে এআই এখানে চমৎকার সহায়ক ভূমিকা পালন করতে পারে।
যেমন- কম্পিউটার ভিশন ব্যবহার করে ‘ভেহিকল ট্র্যাকিং’ (গাড়ির চলাচল নজরদারি), স্বয়ংক্রিয় টোল সংগ্রহ এবং ট্রাফিক আইন ভঙ্গকারীদের শনাক্ত করা সম্ভব। যুক্তরাষ্ট্রে টানেল বা টোল প্লাজায় ক্যামেরা ও ট্র্যাকিংয়ের মাধ্যমে সরাসরি বিল মালিকের বাড়িতে পাঠিয়ে দেওয়া হয়, যা এক ধরনের জবাবদিহি তৈরি করে। বাংলাদেশেও আমাদের দেশীয় প্রকৌশলীরা তুলনামূলক কম খরচে এই ধরনের সমাধান তৈরি করতে পারে।
তবে শুধু প্রযুক্তি বসালেই হবে না; আইন মানার মানসিকতা, শৃঙ্খলা ও সিস্টেমের স্বচ্ছতা না থাকলে উন্নত প্রযুক্তিও আশানুরূপ ফল দেবে না।
মশিউর: এআই-এর অপব্যবহার নিয়ে আপনার উদ্বেগ কতটুকু? নতুন প্রজন্মের শিক্ষার্থীদের জন্য আপনার পরামর্শ কী?
আলীমুর: এআই প্রযুক্তি অনেকটা প্যান্ডোরার বাক্সের মতো, একবার খুলে গেলে তা পুরোপুরি বন্ধ করা কঠিন। তাই সমাধান এআই বন্ধ করা নয়, বরং দায়িত্বশীল ও নিয়ন্ত্রিত পথে এর উন্নয়ন ঘটানো।
জেফ্রি হিন্টনের মতো গবেষকরা সতর্ক করেছেন যে, মেশিন ইন্টেলিজেন্স খুব দ্রুত নিজেকে কপি বা রেপ্লিকেশন করতে পারে। মানুষের জ্ঞান এক মস্তিষ্ক থেকে অন্যটিতে স্থানান্তর করা কঠিন ও সময়সাপেক্ষ, কিন্তু ডিজিটাল হওয়ায় মেশিন খুব দ্রুত তা ছড়িয়ে দিতে পারে। এতে ঝুঁকি বাড়ে, বিশেষ করে যদি অত্যন্ত শক্তিশালী ইন্টেলিজেন্ট এজেন্ট তৈরি হয়।
অন্যদিকে ইয়ান লেকুনের মতো গবেষকরা বেশ আশাবাদী, সঠিক নীতিমালা ও মানবকল্যাণকে অগ্রাধিকার দিলে এআই মানবজাতির উপকার করবে।
শিক্ষার্থীদের প্রতি আমার বার্তা হলো- প্রযুক্তি অবশ্যই শিখুন, কিন্তু কেন এবং কার জন্য শিখছেন, সেই নৈতিক প্রশ্নটি সবসময় মাথায় রাখুন। শুধু অর্থনৈতিক লাভ নয়, মানুষের নিরাপত্তা ও সমাজের মঙ্গলই হওয়া উচিত আপনার উদ্ভাবনের মূল লক্ষ্য। মনে রাখবেন, শুধু সার্টিফিকেটের জন্য পড়াশোনা করা আসলে সময়ের অপচয়।