Published : 14 Jan 2026, 10:49 AM
নারীস্বাস্থ্য সংক্রান্ত জরুরি বিষয় নিয়ে করা প্রশ্নের বড় অংশে কার্যকর পরামর্শ দিতে পারছে না জনপ্রিয় এআই চ্যাটবটগুলো। এক পরীক্ষায় দেখা গেছে, এমন প্রশ্নের প্রায় ৬০ শতাংশের উত্তর মানব বিশেষজ্ঞদের মানদণ্ড অনুযায়ী যথেষ্ট নয়।
এই পরীক্ষাটি করেছেন যুক্তরাষ্ট্র ও ইউরোপের ১৭ জন নারীস্বাস্থ্য গবেষক, ফার্মাসিস্ট ও চিকিৎসক। তারা জরুরি চিকিৎসা, স্ত্রীরোগবিদ্যা ও স্নায়ুবিজ্ঞানের মতো পাঁচটি ক্ষেত্র থেকে চিকিৎসা সংশ্লিষ্ট মোট তিনশ ৪৫টি প্রশ্নের একটি তালিকা করেন।
পরে প্রতিটি প্রশ্নের উত্তর দিতে এলোমেলোভাবে একটি করে এআই মডেল ব্যবহার করেন তারা। এরপর, যেসব উত্তরে ভুল বা অপর্যাপ্ত তথ্য পাওয়া গেছে, সেগুলো নিয়ে ৯৬টি প্রশ্নের একটি বেঞ্চমার্ক পরীক্ষা করেছেন গবেষকরা।
পরীক্ষায় ওপেনএআই, গুগল, অ্যানথ্রপিক, মিস্ট্রাল এআই ও এক্সএআইসহ বিভিন্ন এআই কোম্পানির তৈরি মোট ১৩টি ‘লার্জ ল্যাঙ্গুয়েজ মডেল’ মূল্যায়ন করেছেন গবেষকরা।
সব মডেল মিলিয়ে ৬০ শতাংশ প্রশ্নের উত্তরে প্রয়োজনীয় চিকিৎসা পরামর্শ পাওয়া যায়নি বলে দেখেছেন গবেষকরা। পরীক্ষায় সবচেয়ে ভালো করেছে জিপিটি-৫, যেখানে ব্যর্থতার হার ৪৭ শতাংশ। সবচেয়ে বেশি ব্যর্থ হয়েছে মিস্ট্রাল ৮বি, এর ব্যর্থতার হার ৭৩ শতাংশ।
গবেষণা দলের সদস্য ভিক্টোরিয়া-এলিজাবেথ গ্রুবার বলেন, “পরিচিতদের মধ্যেই আমি দেখেছি, স্বাস্থ্যসংক্রান্ত প্রশ্নে সিদ্ধান্ত নেওয়ার জন্য আরও বেশি সংখ্যক নারী এআই টুলের দিকে ঝুঁকছেন।”
লুমোস এআই নামের একটি কোম্পানিতে কাজ করা গ্রুবার বলেন, “চিকিৎসা জ্ঞানে এআই প্রযুক্তি আগে থেকেই থাকা লিঙ্গভিত্তিক ঘাটতি আরও বাড়িয়ে দিতে পারে। এ ক্ষেত্রে সেটিই আমাদের এ সেক্টরের প্রথম বেঞ্চমার্ক তৈরিতে অনুপ্রাণিত করেছে।”
ব্যর্থতার হার ধারণার চেয়ে বেশি ছিল বলে জানান গ্রুবার। তার ভাষায়, “আমরা কিছু ঘাটতি হবে বলে অনুমান করেছিলাম, তবে মডেলভেদে পার্থক্যের মাত্রা আমাদের বেশি অবাক করেছে।”
কানাডার ইউনিভার্সিটি অফ মন্ট্রিয়ালের অধ্যাপক কারা ট্যানেনবাউম বলেন, এআই মডেলগুলো মানুষের তৈরি পুরোনো তথ্যের ওপর প্রশিক্ষিত হওয়ায় এমন ফল অস্বাভাবিক নয়। তার মতে, “অনলাইন স্বাস্থ্যসূত্র ও পেশাদার চিকিৎসা সংগঠনগুলোর উচিত লিঙ্গ ও যৌনভিত্তিক প্রমাণসমৃদ্ধ তথ্য আরও স্পষ্টভাবে যুক্ত করা, যাতে এআই মডেলগুলো নারীস্বাস্থ্য নিয়ে বেশি নির্ভুল সহায়তা দিতে পারে।”
তবে স্ট্যানফোর্ড ইউনিভার্সিটির অধ্যাপক জোনাথন এইচ চেন গবেষণার ৬০ শতাংশ ব্যর্থতার হারকে কিছুটা বিভ্রান্তিকর মনে করেন। তিনি বলেন, “এটি সীমিত ও বিশেষজ্ঞদের তৈরি প্রশ্নের ওপর ভিত্তি করে করা হয়েছে। এটি সাধারণ রোগী বা চিকিৎসকের দৈনন্দিন প্রশ্নের প্রতিনিধিত্ব করে না।” চেন আরও বলেন, কিছু ক্ষেত্রে পরীক্ষাটি অতিরিক্ত রক্ষণশীল ছিল, যেমন সন্তান জন্মের পর মাথাব্যথার অভিযোগে সঙ্গে সঙ্গে প্রি-এক্ল্যাম্পসিয়া সন্দেহ না করলে সেটিকে ব্যর্থতা হিসেবে ধরা হয়েছে।
এই সমালোচনা স্বীকার করে গ্রুবার বলেন, “মডেলগুলো গড়পড়তা অনিরাপদ, এমন বলা আমাদের লক্ষ্য ছিল। বরং স্বাস্থ্যখাতে মূল্যায়নের জন্য একটি স্পষ্ট ও ক্লিনিক্যাল মানদণ্ড তৈরি করাই ছিল উদ্দেশ্য।
“চিকিৎসায় ছোট কোনো ঘাটতিও গুরুত্বপূর্ণ হয়ে উঠতে পারে বলেই আমরা কঠোর মানদণ্ড নিয়েছি।”
এ বিষয়ে ওপেনএআইয়ের এক মুখপাত্র বলেন, “চ্যাটজিপিটি চিকিৎসাসেবার বিকল্প নয়, বরং সহায়ক হিসেবে তৈরি করা হয়েছে। আমরা বিশ্বজুড়ে চিকিৎসকদের সঙ্গে কাজ করি এবং ক্ষতিকর বা বিভ্রান্তিকর উত্তর কমাতে নিয়মিত মূল্যায়ন চালাই। আমাদের সর্বশেষ জিপিটি ৫.২ মডেল ব্যবহারকারীর প্রেক্ষাপট, যেমন লিঙ্গ বিবেচনায় নেওয়ার ক্ষেত্রে আগের চেয়ে বেশি সক্ষম।” তিনি আরও বলেন, চিকিৎসা ও চিকিৎসা সিদ্ধান্তের জন্য ব্যবহারকারীদের অবশ্যই যোগ্য চিকিৎসকের ওপর নির্ভর করা উচিত।
পরীক্ষায় অন্তর্ভুক্ত অন্য প্রতিষ্ঠানগুলো এ বিষয়ে মন্তব্যের অনুরোধে সাড়া দেয়নি।