دكتور سكوت جوتليب هو طبيب وشغل منصب المفوض الثالث والعشرين لإدارة الغذاء والدواء الأمريكية. وهو أحد المساهمين في CNBC وهو عضو في مجالس إدارة شركة Pfizer والعديد من الشركات الناشئة الأخرى في مجال الصحة والتكنولوجيا. وهو أيضًا شريك في شركة رأس المال الاستثماري New Enterprise Associates. شاني بينزرا هو باحث مشارك كبير في معهد المشاريع الأمريكية ومنتج مشارك سابق في برنامج Face the Nation الذي يبث على شبكة سي بي إس نيوز.
يلجأ العديد من المستهلكين ومقدمي الخدمات الطبية إلى روبوتات الدردشة، المدعومة بنماذج لغوية كبيرة، للإجابة على الأسئلة الطبية وتحديد خيارات العلاج. قررنا أن نرى ما إذا كانت هناك اختلافات كبيرة بين المنصات الرائدة عندما يتعلق الأمر بكفاءتها السريرية.
للحصول على رخصة طبية في الولايات المتحدة، يجب على الأطباء الطموحين أن يجتازوا بنجاح ثلاث مراحل من امتحان الترخيص الطبي الأمريكي (USMLE)، حيث تعتبر الدفعة الثالثة والأخيرة على نطاق واسع هي الأكثر صعوبة. يتطلب الأمر من المرشحين الإجابة على حوالي 60% من الأسئلة بشكل صحيح، وتاريخيًا، كان متوسط درجة النجاح يحوم حول 75%.
عندما أخضعنا نماذج اللغات الكبيرة الرئيسية (LLMs) لنفس اختبار الخطوة 3، كان أدائهم متفوقًا بشكل ملحوظ، حيث حققوا درجات تفوق بشكل كبير العديد من الأطباء.
ولكن كانت هناك بعض الاختلافات الواضحة بين النماذج.
عادةً ما يتم أخذ اختبار USMLE الخطوة 3 بعد السنة الأولى من الإقامة، وهو يقيس ما إذا كان بإمكان خريجي الطب تطبيق فهمهم للعلوم السريرية على ممارسة الطب غير الخاضعة للرقابة. وهو يقيم قدرة الطبيب الجديد على إدارة رعاية المرضى عبر مجموعة واسعة من التخصصات الطبية ويتضمن أسئلة متعددة الخيارات ومحاكاة الحالات المستندة إلى الكمبيوتر.
قمنا بعزل 50 سؤالًا من نموذج اختبار USMLE الخطوة 3 لعام 2023 لتقييم الكفاءة السريرية لخمسة نماذج لغوية كبيرة رائدة مختلفة، مع تغذية نفس مجموعة الأسئلة لكل من هذه المنصات – ChatGPT، Claude، جوجل الجوزاء، جروك واللاما.
قامت دراسات أخرى بقياس هذه النماذج من حيث كفاءتها الطبية، ولكن على حد علمنا، هذه هي المرة الأولى التي تتم فيها مقارنة هذه المنصات الخمس الرائدة في تقييم مباشر. يمكن لهذه النتائج أن تعطي المستهلكين ومقدمي الخدمات بعض الأفكار حول الاتجاه الذي يجب أن يتجهوا إليه.
وإليك كيف سجلوا:
- ChatGPT-4o (Open AI) — 49/50 سؤالًا صحيحًا (98%)
- كلود 3.5 (أنثروبي) – 45/50 (90%)
- الجوزاء المتقدم (جوجل) – 43/50 (86%)
- جروك (xAI) – 42/50 (84%)
- HuggingChat (اللاما) – 33/50 (66%)
في تجربتنا، برز ChatGPT-4o من OpenAI كأفضل أداء، محققًا درجة 98%. وقدمت تحليلات طبية مفصلة، باستخدام لغة تذكرنا بالمهنيين الطبيين. فهي لم تقدم إجابات مبنية على تفكير مستفيض فحسب، بل وضعت أيضًا سياق عملية اتخاذ القرار، موضحة لماذا كانت الإجابات البديلة أقل ملاءمة.
وجاء كلود من أنثروبيك في المركز الثاني بنسبة 90%. لقد قدمت استجابات أكثر شبهاً بالإنسان مع لغة أبسط وبنية نقطية قد تكون أكثر سهولة في التعامل مع المرضى. Gemini، الذي حصل على 86%، قدم إجابات لم تكن شاملة مثل ChatGPT أو Claude، مما يجعل من الصعب فك رموزه، لكن إجاباته كانت موجزة ومباشرة.
سجل Grok، برنامج الدردشة الآلي من XAI الخاص بـ Elon Musk، نسبة محترمة بلغت 84%، لكنه لم يقدم منطقًا وصفيًا أثناء تحليلنا، مما يجعل من الصعب فهم كيفية وصوله إلى إجاباته. بينما HuggingChat — موقع ويب مفتوح المصدر تم إنشاؤه من ميتا اللاما – سجلت أدنى درجة بنسبة 66%، ومع ذلك فقد أظهرت تفكيرًا جيدًا للأسئلة التي أجابت عليها بشكل صحيح، وقدمت إجابات موجزة وروابط للمصادر.
أحد الأسئلة التي أخطأت معظم العارضات في الإجابة عليها يتعلق بامرأة تبلغ من العمر 75 عامًا تعاني من مرض افتراضي في القلب. تم طرح السؤال على الأطباء ما هي الخطوة التالية الأكثر ملاءمة كجزء من تقييمها. كان كلود هو النموذج الوحيد الذي أنتج الإجابة الصحيحة.
سؤال آخر ملحوظ، ركز على مريض يبلغ من العمر 20 عامًا يعاني من أعراض العدوى المنقولة جنسيًا. وسأل الأطباء عن أي من الخيارات الخمسة كان الخطوة التالية المناسبة كجزء من عمله. وقد حدد ChatGPT بشكل صحيح أنه يجب تحديد موعد لإجراء اختبار مصل فيروس نقص المناعة البشرية للمريض خلال ثلاثة أشهر، لكن النموذج ذهب إلى أبعد من ذلك، حيث أوصى بإجراء فحص متابعة خلال أسبوع واحد للتأكد من أن أعراض المريض قد اختفت وأن المضادات الحيوية غطت سلالة العدوى لديه. بالنسبة لنا، سلطت الاستجابة الضوء على قدرة النموذج على التفكير بشكل أوسع، والتوسع إلى ما هو أبعد من الخيارات الثنائية التي يقدمها الاختبار.
لم يتم تصميم هذه النماذج لأسباب طبية؛ إنها منتجات قطاع التكنولوجيا الاستهلاكية، وتم تصميمها لأداء مهام مثل ترجمة اللغة وإنشاء المحتوى. على الرغم من أصولهم غير الطبية، فقد أظهروا قدرة مدهشة على التفكير السريري.
يتم إنشاء منصات أحدث عمدا لحل المشاكل الطبية. طرحت Google مؤخرًا Med-Gemini، وهو نسخة منقحة من نماذج Gemini السابقة التي تم ضبطها بدقة للتطبيقات الطبية ومجهزة بقدرات البحث على شبكة الإنترنت لتعزيز التفكير السريري.
ومع تطور هذه النماذج، ستزداد مهاراتهم في تحليل البيانات الطبية المعقدة وتشخيص الحالات والتوصية بالعلاجات. وقد توفر مستوى من الدقة والاتساق قد يجد مقدمو الخدمات البشرية، المقيدون بالتعب والخطأ، صعوبة في بعض الأحيان في مطابقته، وتفتح الطريق لمستقبل حيث يمكن تشغيل بوابات العلاج بواسطة الآلات، بدلا من الأطباء.
اكتشاف المزيد من مجلة الشرقية الاقتصادية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.