টেক

এই ৩ কাজে জেমিনাইয়ের চেয়ে চ্যাটজিপিটি এগিয়ে

‘গুগল-প্রুফ’ মানে এসব প্রশ্নের উত্তর গুগলে সার্চ করলেই সহজে মেলে না। এসব প্রশ্ন সমাধানের জন্য অত্যন্ত জটিল ও উচ্চতর যুক্তি ব্যবহারের প্রয়োজন।

সফটওয়্যারের বাগ বা ত্রুটি সংশোধন ও অন্যান্য সমস্যার সমাধান করা বর্তমান বিভিন্ন এআই সিস্টেমের জন্য জরুরি সক্ষমতা। ছবি: রয়টার্স

প্রযুক্তি ডেস্ক

বিডিনিউজ টোয়েন্টিফোর ডটকম

Published : 03 Jul 2026, 06:10 PM

Summary

বাজারে বর্তমানে হাজার হাজার এআই পণ্য থাকলেও কেবল হাতেগোনা কয়েকটির নামই আমাদের জানা, যেখানে দুটি এআইয়ের নাম বললে চ্যাটজিপিটি ও জেমিনাইয়ের কথা আসবেই।

তবে এ দুটি এআই সিস্টেমের মধ্যে তুলনার কাজটি মোটেও সহজ নয়। কারণ, এখানে সবকিছু রাতারাতি বদলে যেতে পারে। যেমন ২০২৫ সালে ডিসেম্বরের শুরুতে অনেকের ধারণা ছিল, এআই দৌড়ে পিছিয়ে পড়ছে ওপেনএআই। এর কয়েকদিন পরই ‘চ্যাটজিপিটি-৫.২’ চালু করে আবারও লিডারবোর্ডের শীর্ষে উঠে আসে কোম্পানিটি।

তাহলে কী করে বোঝা যাবে কোন এআই কখন ভালো কাজ করে? কয়েক বছর আগেও এ তুলনার কাজটি সহজে করা যেত। কারণ, সেই সময়ের বিভিন্ন লার্জ ল্যাঙ্গুয়েজ মডেলের মধ্যে নানা পার্থক্য বেশ স্পষ্ট ছিল।

বর্তমানে ওপেনএআই ও গুগলের মতো বড় বড় কোম্পানির ক্ষেত্রে এ ব্যবধান খুব দ্রুত কমে আসছে বলে প্রতিবেদনে লিখেছে প্রযুক্তি সাইট স্ল্যাশগিয়ার।

ইদানিং অনেক আর্টিকেলে কেবল প্রম্পট দিয়ে এ দুটি সিস্টেমকে তুলনা করে একটিকে সেরা বলা হয়। তবে এ পদ্ধতিটি একেবারেই ভুল। কারণ, এসব মডেলের আউটপুট ‘স্টোকাস্টিক’, যার মানে এদের উত্তরের মধ্যে কিছুটা অনিশ্চয়তা বা এলোমেলো ভাব থাকে। ফলে একই প্রম্পট দিলেও ভিন্ন ভিন্ন উত্তর দিতে পারে এরা।

অসংখ্যবার পরীক্ষা-নিরীক্ষা, ব্লাইন্ড ইভালুয়েশন বা কে কি লিখেছে তা না জেনে মূল্যায়ন ও সব ফলাফল একত্রিত করে যাচাইয়ের ঝামেলায় না গিয়ে চ্যাটজিপিটি ও ওপেনএআইয়ের মধ্যে কোন এআই সেরা এ তালিকা তৈরির কাজটি বিশেষজ্ঞদের ওপরই ছেড়ে দেওয়া যেতে পারে।

বিভিন্ন এআই সিস্টেমের বিচারবুদ্ধি, যুক্তি ও সমস্যা সমাধানের সক্ষমতা যাচাইয়ের জন্য বর্তমানে বিভিন্ন ধরনের ‘বেঞ্চমার্ক’ বা মানদণ্ড রয়েছে। এখানে গুরুত্বপূর্ণ তিনটি বেঞ্চমার্ক নিয়ে আলোচনা করা হচ্ছে, যেখানে চ্যাটজিপিটি বেশ ভালো পারফর্ম করেছে।

কঠিন ও ‘গুগল-প্রুফ’ প্রশ্নের উত্তর দেওয়া

প্রথম বেঞ্চমার্কটি হচ্ছে ‘জিপিকিউএ ডায়মন্ড’, যা পদার্থবিজ্ঞান, রসায়ন ও জীববিজ্ঞানের পিএইচডি পর্যায়ের বিচারবুদ্ধি বা চিন্তাশক্তি যাচাইয়ের জন্য তৈরি হয়েছে। জিপিকিউএ-এর পূর্ণরূপ হচ্ছে ‘গুগল-প্রুফ কোয়েশ্চেনস অ্যান্ড আনসার্স’। এর সাধারণ সংস্করণ রয়েছে এবং অন্য সংস্করণ হচ্ছে ‘ডায়মন্ড সংস্করণ, যেখানে অত্যন্ত কঠিন প্রশ্ন থাকে।

‘গুগল-প্রুফ’ মানে এসব প্রশ্নের উত্তর গুগলে সার্চ করলেই সহজে মেলে না। এসব প্রশ্ন সমাধানের জন্য অত্যন্ত জটিল ও উচ্চতর যুক্তি ব্যবহারের প্রয়োজন। সঠিক উত্তর দেওয়ার জন্য এআই সিস্টেমকে বিজ্ঞানের একাধিক জটিল ধারণাকে একসঙ্গে প্রয়োগ, কোনো ধরনের আগাম অনুমান বা সংক্ষিপ্ত পথ এবং বিভ্রান্তিকর তথ্য বা ‘রেড হেরিংস’ এড়িয়ে চলতে হয়।

ফলে এখানে এআই মডেল কত সুন্দরভাবে কথা বলছে বা কত আত্মবিশ্বাসের সঙ্গে উত্তর দিচ্ছে এর জন্য কোনো নম্বর পায় না। এখানে কেবল একটিই শর্ত, এআই কি সঠিক উত্তরে পৌঁছাতে পেরেছে, নাকি পারেনি।

চ্যাটজিপিটি ও জেমিনাই উভয়ই এ পরীক্ষায় ভালো ফলাফল করেছে। তবে কেবল ১ শতাংশেরও কম ব্যবধানে এগিয়ে গেছে চ্যাটজিপিটি, যেখানে ‘জিপিটি-৫.২’-এর স্কোর ৯২ দশমিক চার শতাংশ, যেখানে ‘জেমিনাই ৩ প্রো’ পেয়েছে ৯১ দশমিক ৯ শতাংশ।

বাস্তব জগতের কোডিং সমস্যার সমাধান করা

এআই কোডিং ও এর নিরাপত্তা ঝুঁকি নিয়ে সাধারণ মানুষের মতামত যাই হোক না কেন, সফটওয়্যারের বাগ বা ত্রুটি সংশোধন ও অন্যান্য সমস্যার সমাধান করা বর্তমান বিভিন্ন এআই সিস্টেমের জন্য জরুরি সক্ষমতা। ‘এসডব্লিউই-বেঞ্চ’ এমন পরীক্ষা, যা সফটওয়্যার ইঞ্জিনিয়ারিংয়ের বিভিন্ন দিক যাচাইয়ের জন্য তৈরি। এর মধ্যে ‘এসডব্লিউই-বেঞ্চ প্রো’ নামের সংস্করণে প্রতিদ্বন্দ্বীদের চেয়ে এগিয়ে রয়েছে চ্যাটজিপিটি।

‘এসডব্লিউই-বেঞ্চ প্রো’ যাচাই করে কোনো এআই সিস্টেম গিটহাব প্ল্যাটফর্ম থেকে নেওয়া বাস্তব জগতের সফটওয়্যার ইঞ্জিনিয়ারিংয়ের বিভিন্ন সমস্যা সমাধান করতে পারে কি না। প্রতিটি টাস্ক সফলভাবে সম্পন্ন করতে এআইকে তিনটি কাজ করতে হয়। যেমন অপরিচিত কোডবেইস বুঝতে পারা, বাগ রিপোর্টের পেছনের আসল উদ্দেশ্য ব্যাখ্যা এবং প্রয়োজনীয় পরিবর্তন এনে কার্যকর সমাধান তৈরি করা।

এগুলো ‘প্রাইভেট ডেটাসেট’ বা গোপন তথ্যের ভাণ্ডার হওয়ার ফলে এআইয়ের পক্ষে এগুলো আগে থেকে মুখস্থ রাখা সম্ভব নয়, যা সাধারণ পরীক্ষার চেয়ে অনেক বেশি কঠিন।

‘চ্যাটজিপিটি-৫.২’ প্রায় ২৪ শতাংশ সমস্যার সমাধান করতে পেরেছে, যেখানে জেমিনাই পেরেছে কেবল ১৮ শতাংশ। তুলনামূলক সহজ কোডিং পরীক্ষাতে এআই প্রায় ৭৫ শতাংশ সমস্যার সমাধান করতে পারে।

তবে একটি বিষয় মনে রাখা জরুরি, এসব প্রাইভেট ডেটাসেটের চ্যালেঞ্জগুলোর ১০০ শতাংশ সমাধানই মানুষ করতে পেরেছে। প্রতিটি টাস্কের জন্য মানুষের তৈরি কার্যকর সমাধান থাকা এ পরীক্ষার অন্যতম শর্ত। ফলে একজন দক্ষ মানব সফটওয়্যার ইঞ্জিনিয়ারের সমকক্ষ হতে এআইকে এখনও অনেকটা পথ পাড়ি দিতে হবে।

জটিল ধাঁধার সমাধান

আমরা এমন সব ধাঁধার কথা জানি যেগুলো সমাধান করে প্রমাণ করতে হয় যে, ‘আমি রোবট নই’ ঠিক তেমন এক ধরনের সহজাত চাক্ষুষ যুক্তি যাচাইয়ের পরীক্ষা বা বেঞ্চমার্ক রয়েছে। ‘এআরসি-এজিআই’ নামের পরীক্ষাটি ২০১৯ সালে তৈরি হয়েছিল। এ সময় বর্তমানের বিভিন্ন লার্জ ল্যাঙ্গুয়েজ মডেলের কোনো অস্তিত্বই ছিল না। মানুষের মতো ‘সাধারণ তরল বুদ্ধিমত্তা’ পরিমাপের জন্য ডিজাইন হয়েছিল এই পরীক্ষা। ২০২৫ সালের মার্চে এর উন্নত সংস্করণ ‘এআরসি-এজিআই২’ চালু হয়।

এ পরীক্ষায় যাচাই হয় এআই অপরিচিত চ্যালেঞ্জের ক্ষেত্রে কতটা যুক্তি প্রয়োগ করতে পারে, যেখানে এআইকে খুব সামান্য কিছু উদাহরণ দেখে এর পেছনের মূল প্যাটার্ন বা নিয়মটি বুঝতে এবং তারপর সেই নিয়মটি নতুন এক সমস্যার ওপর সঠিকভাবে প্রয়োগ করতে হয়। এ কাজের জন্য সমস্যার কোন অংশটি গুরুত্বপূর্ণ তা শনাক্ত ও বিভ্রান্তিকর বিভিন্ন বিষয় এড়িয়ে চলা প্রয়োজন। মানুষ সাধারণত এ ধরনের কাজে খুব দক্ষ হলেও এআই এখনও এখানে সঠিক উত্তর দিতে হিমশিম খাচ্ছে।

পরীক্ষার ফলাফলে ‘চ্যাটজিপিটি-৫.২ প্রো’ স্কোর করেছে ৫৪ দশমিক ২ শতাংশ। জেমিনাইয়ের বিশেষভাবে পরিমার্জিত এক সংস্করণ এ পরীক্ষায় ৫৪ শতাংশ স্কোর করেছে এবং ‘জেমিনাই ৩ প্রো ডিপ থিংক’ পেয়েছে ৪৫ দশমিক এক শতাংশ।

তবে ‘জেমিনাই ৩ প্রো’ পেয়েছে কেবল ৩১ দশমিক এক শতাংশ, যা চ্যাটজিপিটির তুলনায় অনেক কম। এ ক্ষেত্রে চ্যাটজিপিটি কেবল জেমিনাইকেই নয়, বরং বাকি সব প্রতিদ্বন্দ্বীকেও পেছনে ফেলেছে।