সাধারণভাবে ব্যবহৃত অনেক এআই মডেল নারীদের স্বাস্থ্য-সম্পর্কিত এমন অনেক প্রশ্নের ক্ষেত্রে সঠিকভাবে রোগ শনাক্ত করতে বা পরামর্শ দিতে ব্যর্থ হচ্ছে—যেসব সমস্যায় দ্রুত চিকিৎসা-মনোযোগ দরকার।
যুক্তরাষ্ট্র (US) ও ইউরোপের নারীস্বাস্থ্য গবেষক, ফার্মাসিস্ট এবং চিকিৎসকদের (clinicians) ১৭ জনের একটি গবেষক দল প্রথমে পাঁচটি ক্ষেত্র নিয়ে মোট ৩৪৫টি মেডিকেল প্রশ্নের একটি তালিকা তৈরি করেন। ক্ষেত্রগুলোর মধ্যে ছিল জরুরি চিকিৎসা (emergency medicine), স্ত্রীরোগবিদ্যা (gynaecology) এবং স্নায়ুবিজ্ঞান (neurology)। এরপর প্রতিটি প্রশ্নের জন্য এলোমেলোভাবে বাছাই করা একটি এআই মডেলের উত্তর দেখা হয়। যেসব প্রশ্নে ভুল বা বিভ্রান্তিকর উত্তর পাওয়া যায়, সেগুলো একত্র করে এআই মডেলের “মেডিকেল দক্ষতা” যাচাইয়ের জন্য একটি বেঞ্চমার্ক টেস্ট বানানো হয়—যেখানে মোট ৯৬টি প্রশ্ন রাখা হয়।
এরপর এই টেস্ট ব্যবহার করে ১৩টি বড় ভাষাভিত্তিক মডেল (large language models) পরীক্ষা করা হয়—যেগুলো তৈরি করেছে OpenAI, Google, Anthropic, Mistral AI এবং xAI-এর মতো প্রতিষ্ঠান। সব মডেল মিলিয়ে দেখা যায়, প্রায় ৬০ শতাংশ প্রশ্নে এমনভাবে উত্তর দেওয়া হয়েছে, যা মানব বিশেষজ্ঞরা আগেই বলেছেন—চিকিৎসা পরামর্শ হিসেবে যথেষ্ট নয়। সবচেয়ে ভালো করেছে GPT-5, তবুও সেটি ৪৭ শতাংশ প্রশ্নে ব্যর্থ হয়েছে। আর Ministral 8B-এর ব্যর্থতার হার সবচেয়ে বেশি—৭৩ শতাংশ (arXiv, doi.org/qmifq — একটি বৈজ্ঞানিক প্রিপ্রিন্ট প্ল্যাটফর্মে প্রকাশিত গবেষণার রেফারেন্স)।

চিত্র ১.১২ : নারীরা স্বাস্থ্য-সংক্রান্ত তথ্যের জন্য এআই ব্যবহার করছেন
গবেষক দলে থাকা ভিক্টোরিয়া–এলিজাবেথ গ্রুবার (Victoria-Elisabeth Gruber)—যিনি লুমোস এআই (Lumos AI)-এ কাজ করেন (এটি কোম্পানিগুলোকে তাদের এআই মডেল মূল্যায়ন ও উন্নত করতে সাহায্য করে)—বলেছেন, “আমি আমার আশপাশের অনেক নারীকে দেখেছি, স্বাস্থ্য-সম্পর্কিত প্রশ্নে ধীরে ধীরে এআই টুলের দিকে বেশি ঝুঁকতে।”
তার এবং সহকর্মীদের কাছে এতে ঝুঁকিটা আরও স্পষ্ট হয়ে ওঠে। কারণ, এমন একটি প্রযুক্তির ওপর ভরসা করা বিপজ্জনক হতে পারে, যেটি আগে থেকেই থাকা চিকিৎসা-জ্ঞানঘাটতি ও নারী-পুরুষভিত্তিক ফাঁক (gender gaps) নিজের ভেতরে টেনে নেয় এবং আরও বড় করে তোলে। গ্রুবার বলেন, “এই কারণেই আমরা এই ক্ষেত্রে প্রথম একটি বেঞ্চমার্ক তৈরি করতে উদ্বুদ্ধ হয়েছি।”
কানাডার (Canada) মন্ট্রিয়ল বিশ্ববিদ্যালয়ের (University of Montreal) গবেষক কারা ট্যানেনবাউম (Cara Tannenbaum) বলেন, ফলাফলটা খুব আশ্চর্য নয়। কারণ এআই মডেলগুলো যেভাবে শেখে—মানে মানুষের তৈরি পুরোনো ডেটার ওপর ভিত্তি করে—সেই ডেটার ভেতরেই কিছু পক্ষপাত (bias) আগে থেকে থাকে। তার মতে, অনলাইন স্বাস্থ্য-তথ্যের উৎসগুলো এবং স্বাস্থ্যসেবা-পেশাজীবী সংগঠনগুলোর ওয়েব কনটেন্টে লিঙ্গ ও জেন্ডার-সম্পর্কিত, প্রমাণভিত্তিক তথ্য আরও স্পষ্টভাবে যোগ করা দরকার, যাতে এআই নারীদের স্বাস্থ্য বিষয়ে আরও নির্ভুলভাবে সহায়তা করতে পারে।
তবে যুক্তরাষ্ট্রের (US) ক্যালিফোর্নিয়ার (California) স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের (Stanford University) জোনাথন এইচ. চেন (Jonathan H. Chen) মনে করেন, “৬০ শতাংশ ব্যর্থতার হার” সংখ্যাটা কিছুটা বিভ্রান্তিকর হতে পারে। তিনি বলেন, “আমি ৬০ শতাংশ সংখ্যাটাকে খুব আঁকড়ে ধরতাম না, কারণ এটি বিশেষজ্ঞদের তৈরি একটি সীমিত নমুনা।” তাঁর মতে, এই টেস্টটি এমনভাবে বানানো হয়নি যে এটি রোগী বা চিকিৎসকরা নিয়মিত যেসব প্রশ্ন করেন—তার বড় বা প্রতিনিধিত্বশীল (representative) ছবি দেবে।
চেন আরও বলেন, টেস্টের কিছু পরিস্থিতি খুব “কঠোরভাবে নিরাপদ” (overly conservative) ধাঁচের—ফলে ব্যর্থতার হার বেশি দেখাতে পারে। উদাহরণ হিসেবে তিনি বলেন, প্রসব-পরবর্তী (postpartum) কোনো নারী মাথাব্যথার কথা বললে, মডেলটি যদি সঙ্গে সঙ্গে প্রি-এক্ল্যাম্পসিয়া (pre-eclampsia—গর্ভাবস্থা/প্রসব-পরবর্তী সময়ের একটি গুরুতর জটিলতা) সন্দেহ না করে, তাহলে টেস্ট অনুযায়ী সেটি ব্যর্থ হিসেবে ধরা হয়।
গ্রুবার এই সমালোচনাগুলো স্বীকার করেন। তিনি বলেন, “আমাদের লক্ষ্য এটা বলা নয় যে মডেলগুলো মোটের ওপর অনিরাপদ। বরং লক্ষ্য ছিল—চিকিৎসাবিজ্ঞানের ভিত্তিতে দাঁড়িয়ে মূল্যায়নের জন্য একটি পরিষ্কার মানদণ্ড নির্ধারণ করা।”
OpenAI-এর একজন মুখপাত্র বলেন: “ChatGPT চিকিৎসাসেবাকে প্রতিস্থাপন করার জন্য নয়, সহায়তা করার জন্য তৈরি। আমরা বিশ্বজুড়ে চিকিৎসকদের সঙ্গে ঘনিষ্ঠভাবে কাজ করি—মডেল উন্নত করতে এবং ক্ষতিকর বা বিভ্রান্তিকর উত্তর কমাতে নিয়মিত মূল্যায়ন চালাই। আমাদের সর্বশেষ GPT-5.2 মডেল গুরুত্বপূর্ণ ব্যবহারকারী প্রসঙ্গ—যেমন জেন্ডার—বিবেচনা করতে আগের চেয়ে আরও ভালো। আমরা মডেলের আউটপুটের নির্ভুলতাকে গুরুত্ব দিই, আর ChatGPT কিছু সহায়ক তথ্য দিতে পারলেও, চিকিৎসা ও চিকিৎসা-সিদ্ধান্তের জন্য ব্যবহারকারীদের সবসময় যোগ্য চিকিৎসকের ওপরই নির্ভর করা উচিত।”
যেসব অন্যান্য কোম্পানির এআই মডেল পরীক্ষা করা হয়েছে, তারা New Scientist– ( নিউ সায়েন্টিস্ট (New Scientist) হলো বিজ্ঞান ও প্রযুক্তির একটি জনপ্রিয় আন্তর্জাতিক সাপ্তাহিক ম্যাগাজিন। ১৯৫৬ সালে লন্ডনে এটি প্রথম প্রতিষ্ঠিত হয়। ) এর মন্তব্য চাওয়ার অনুরোধে সাড়া দেয়নি।
তথ্যসূত্র:
• Chris Stokel-Walker (2026). *AI chatbots are missing serious women's health issues*. New Scientist, Volume 269, Issue 3578, Page 17. ISSN 0262-4079. [https://doi.org/10.1016/S0262-4079(26)00086-2](https://doi.org/10.1016/S0262-4079%2826%2900086-2). [https://www.sciencedirect.com/science/article/pii/S0262407926000862](https://www.sciencedirect.com/science/article/pii/S0262407926000862)


Leave a Reply