Published : 03 Jul 2026, 06:10 PM
বাজারে বর্তমানে হাজার হাজার এআই পণ্য থাকলেও কেবল হাতেগোনা কয়েকটির নামই আমাদের জানা, যেখানে দুটি এআইয়ের নাম বললে চ্যাটজিপিটি ও জেমিনাইয়ের কথা আসবেই।
তবে এ দুটি এআই সিস্টেমের মধ্যে তুলনার কাজটি মোটেও সহজ নয়। কারণ, এখানে সবকিছু রাতারাতি বদলে যেতে পারে। যেমন ২০২৫ সালে ডিসেম্বরের শুরুতে অনেকের ধারণা ছিল, এআই দৌড়ে পিছিয়ে পড়ছে ওপেনএআই। এর কয়েকদিন পরই ‘চ্যাটজিপিটি-৫.২’ চালু করে আবারও লিডারবোর্ডের শীর্ষে উঠে আসে কোম্পানিটি।
তাহলে কী করে বোঝা যাবে কোন এআই কখন ভালো কাজ করে? কয়েক বছর আগেও এ তুলনার কাজটি সহজে করা যেত। কারণ, সেই সময়ের বিভিন্ন লার্জ ল্যাঙ্গুয়েজ মডেলের মধ্যে নানা পার্থক্য বেশ স্পষ্ট ছিল।
বর্তমানে ওপেনএআই ও গুগলের মতো বড় বড় কোম্পানির ক্ষেত্রে এ ব্যবধান খুব দ্রুত কমে আসছে বলে প্রতিবেদনে লিখেছে প্রযুক্তি সাইট স্ল্যাশগিয়ার।
ইদানিং অনেক আর্টিকেলে কেবল প্রম্পট দিয়ে এ দুটি সিস্টেমকে তুলনা করে একটিকে সেরা বলা হয়। তবে এ পদ্ধতিটি একেবারেই ভুল। কারণ, এসব মডেলের আউটপুট ‘স্টোকাস্টিক’, যার মানে এদের উত্তরের মধ্যে কিছুটা অনিশ্চয়তা বা এলোমেলো ভাব থাকে। ফলে একই প্রম্পট দিলেও ভিন্ন ভিন্ন উত্তর দিতে পারে এরা।
অসংখ্যবার পরীক্ষা-নিরীক্ষা, ব্লাইন্ড ইভালুয়েশন বা কে কি লিখেছে তা না জেনে মূল্যায়ন ও সব ফলাফল একত্রিত করে যাচাইয়ের ঝামেলায় না গিয়ে চ্যাটজিপিটি ও ওপেনএআইয়ের মধ্যে কোন এআই সেরা এ তালিকা তৈরির কাজটি বিশেষজ্ঞদের ওপরই ছেড়ে দেওয়া যেতে পারে।
বিভিন্ন এআই সিস্টেমের বিচারবুদ্ধি, যুক্তি ও সমস্যা সমাধানের সক্ষমতা যাচাইয়ের জন্য বর্তমানে বিভিন্ন ধরনের ‘বেঞ্চমার্ক’ বা মানদণ্ড রয়েছে। এখানে গুরুত্বপূর্ণ তিনটি বেঞ্চমার্ক নিয়ে আলোচনা করা হচ্ছে, যেখানে চ্যাটজিপিটি বেশ ভালো পারফর্ম করেছে।
কঠিন ও ‘গুগল-প্রুফ’ প্রশ্নের উত্তর দেওয়া
প্রথম বেঞ্চমার্কটি হচ্ছে ‘জিপিকিউএ ডায়মন্ড’, যা পদার্থবিজ্ঞান, রসায়ন ও জীববিজ্ঞানের পিএইচডি পর্যায়ের বিচারবুদ্ধি বা চিন্তাশক্তি যাচাইয়ের জন্য তৈরি হয়েছে। জিপিকিউএ-এর পূর্ণরূপ হচ্ছে ‘গুগল-প্রুফ কোয়েশ্চেনস অ্যান্ড আনসার্স’। এর সাধারণ সংস্করণ রয়েছে এবং অন্য সংস্করণ হচ্ছে ‘ডায়মন্ড সংস্করণ, যেখানে অত্যন্ত কঠিন প্রশ্ন থাকে।
‘গুগল-প্রুফ’ মানে এসব প্রশ্নের উত্তর গুগলে সার্চ করলেই সহজে মেলে না। এসব প্রশ্ন সমাধানের জন্য অত্যন্ত জটিল ও উচ্চতর যুক্তি ব্যবহারের প্রয়োজন। সঠিক উত্তর দেওয়ার জন্য এআই সিস্টেমকে বিজ্ঞানের একাধিক জটিল ধারণাকে একসঙ্গে প্রয়োগ, কোনো ধরনের আগাম অনুমান বা সংক্ষিপ্ত পথ এবং বিভ্রান্তিকর তথ্য বা ‘রেড হেরিংস’ এড়িয়ে চলতে হয়।
ফলে এখানে এআই মডেল কত সুন্দরভাবে কথা বলছে বা কত আত্মবিশ্বাসের সঙ্গে উত্তর দিচ্ছে এর জন্য কোনো নম্বর পায় না। এখানে কেবল একটিই শর্ত, এআই কি সঠিক উত্তরে পৌঁছাতে পেরেছে, নাকি পারেনি।
চ্যাটজিপিটি ও জেমিনাই উভয়ই এ পরীক্ষায় ভালো ফলাফল করেছে। তবে কেবল ১ শতাংশেরও কম ব্যবধানে এগিয়ে গেছে চ্যাটজিপিটি, যেখানে ‘জিপিটি-৫.২’-এর স্কোর ৯২ দশমিক চার শতাংশ, যেখানে ‘জেমিনাই ৩ প্রো’ পেয়েছে ৯১ দশমিক ৯ শতাংশ।
বাস্তব জগতের কোডিং সমস্যার সমাধান করা
এআই কোডিং ও এর নিরাপত্তা ঝুঁকি নিয়ে সাধারণ মানুষের মতামত যাই হোক না কেন, সফটওয়্যারের বাগ বা ত্রুটি সংশোধন ও অন্যান্য সমস্যার সমাধান করা বর্তমান বিভিন্ন এআই সিস্টেমের জন্য জরুরি সক্ষমতা। ‘এসডব্লিউই-বেঞ্চ’ এমন পরীক্ষা, যা সফটওয়্যার ইঞ্জিনিয়ারিংয়ের বিভিন্ন দিক যাচাইয়ের জন্য তৈরি। এর মধ্যে ‘এসডব্লিউই-বেঞ্চ প্রো’ নামের সংস্করণে প্রতিদ্বন্দ্বীদের চেয়ে এগিয়ে রয়েছে চ্যাটজিপিটি।
‘এসডব্লিউই-বেঞ্চ প্রো’ যাচাই করে কোনো এআই সিস্টেম গিটহাব প্ল্যাটফর্ম থেকে নেওয়া বাস্তব জগতের সফটওয়্যার ইঞ্জিনিয়ারিংয়ের বিভিন্ন সমস্যা সমাধান করতে পারে কি না। প্রতিটি টাস্ক সফলভাবে সম্পন্ন করতে এআইকে তিনটি কাজ করতে হয়। যেমন অপরিচিত কোডবেইস বুঝতে পারা, বাগ রিপোর্টের পেছনের আসল উদ্দেশ্য ব্যাখ্যা এবং প্রয়োজনীয় পরিবর্তন এনে কার্যকর সমাধান তৈরি করা।
এগুলো ‘প্রাইভেট ডেটাসেট’ বা গোপন তথ্যের ভাণ্ডার হওয়ার ফলে এআইয়ের পক্ষে এগুলো আগে থেকে মুখস্থ রাখা সম্ভব নয়, যা সাধারণ পরীক্ষার চেয়ে অনেক বেশি কঠিন।
‘চ্যাটজিপিটি-৫.২’ প্রায় ২৪ শতাংশ সমস্যার সমাধান করতে পেরেছে, যেখানে জেমিনাই পেরেছে কেবল ১৮ শতাংশ। তুলনামূলক সহজ কোডিং পরীক্ষাতে এআই প্রায় ৭৫ শতাংশ সমস্যার সমাধান করতে পারে।
তবে একটি বিষয় মনে রাখা জরুরি, এসব প্রাইভেট ডেটাসেটের চ্যালেঞ্জগুলোর ১০০ শতাংশ সমাধানই মানুষ করতে পেরেছে। প্রতিটি টাস্কের জন্য মানুষের তৈরি কার্যকর সমাধান থাকা এ পরীক্ষার অন্যতম শর্ত। ফলে একজন দক্ষ মানব সফটওয়্যার ইঞ্জিনিয়ারের সমকক্ষ হতে এআইকে এখনও অনেকটা পথ পাড়ি দিতে হবে।
জটিল ধাঁধার সমাধান
আমরা এমন সব ধাঁধার কথা জানি যেগুলো সমাধান করে প্রমাণ করতে হয় যে, ‘আমি রোবট নই’ ঠিক তেমন এক ধরনের সহজাত চাক্ষুষ যুক্তি যাচাইয়ের পরীক্ষা বা বেঞ্চমার্ক রয়েছে। ‘এআরসি-এজিআই’ নামের পরীক্ষাটি ২০১৯ সালে তৈরি হয়েছিল। এ সময় বর্তমানের বিভিন্ন লার্জ ল্যাঙ্গুয়েজ মডেলের কোনো অস্তিত্বই ছিল না। মানুষের মতো ‘সাধারণ তরল বুদ্ধিমত্তা’ পরিমাপের জন্য ডিজাইন হয়েছিল এই পরীক্ষা। ২০২৫ সালের মার্চে এর উন্নত সংস্করণ ‘এআরসি-এজিআই২’ চালু হয়।
এ পরীক্ষায় যাচাই হয় এআই অপরিচিত চ্যালেঞ্জের ক্ষেত্রে কতটা যুক্তি প্রয়োগ করতে পারে, যেখানে এআইকে খুব সামান্য কিছু উদাহরণ দেখে এর পেছনের মূল প্যাটার্ন বা নিয়মটি বুঝতে এবং তারপর সেই নিয়মটি নতুন এক সমস্যার ওপর সঠিকভাবে প্রয়োগ করতে হয়। এ কাজের জন্য সমস্যার কোন অংশটি গুরুত্বপূর্ণ তা শনাক্ত ও বিভ্রান্তিকর বিভিন্ন বিষয় এড়িয়ে চলা প্রয়োজন। মানুষ সাধারণত এ ধরনের কাজে খুব দক্ষ হলেও এআই এখনও এখানে সঠিক উত্তর দিতে হিমশিম খাচ্ছে।
পরীক্ষার ফলাফলে ‘চ্যাটজিপিটি-৫.২ প্রো’ স্কোর করেছে ৫৪ দশমিক ২ শতাংশ। জেমিনাইয়ের বিশেষভাবে পরিমার্জিত এক সংস্করণ এ পরীক্ষায় ৫৪ শতাংশ স্কোর করেছে এবং ‘জেমিনাই ৩ প্রো ডিপ থিংক’ পেয়েছে ৪৫ দশমিক এক শতাংশ।
তবে ‘জেমিনাই ৩ প্রো’ পেয়েছে কেবল ৩১ দশমিক এক শতাংশ, যা চ্যাটজিপিটির তুলনায় অনেক কম। এ ক্ষেত্রে চ্যাটজিপিটি কেবল জেমিনাইকেই নয়, বরং বাকি সব প্রতিদ্বন্দ্বীকেও পেছনে ফেলেছে।