Por Pesach Benson • 13 de mayo de 2025
Jerusalén, 13 de mayo de 2025 (TPS-IL) — Un equipo de investigadores de la Universidad Ben-Gurión del Néguev ha desarrollado una nueva base de datos para evaluar la capacidad de los modelos de lenguaje de IA para diagnosticar casos médicos complejos. Sus hallazgos, presentados en la Association for the Advancement of Artificial Intelligence en Filadelfia, sugieren que los modelos de propósito general, como GPT-4o, podrían ser más efectivos que los modelos diseñados específicamente para la medicina.
Tradicionalmente, los modelos de lenguaje de IA se han probado con casos médicos más sencillos, como preguntas de examen o enfermedades comunes. Sin embargo, estos modelos no han sido evaluados con el tipo de casos complejos y del mundo real que los médicos suelen enfrentar. Para llenar este vacío, los investigadores crearon una base de datos de 3.562 informes de casos médicos de la BMC Journal of Medical Case Reports, que presentan descripciones detalladas de casos médicos inusuales y sus diagnósticos. Los casos se presentaron utilizando preguntas de opción múltiple y preguntas abiertas, imitando escenarios de diagnóstico de la vida real.
Los resultados fueron sorprendentes. GPT-4o, un modelo de lenguaje de propósito general, superó a modelos médicos como Meditron-70B y MedLM-Large en el diagnóstico de estos casos complejos. GPT-4o logró un 87,9% de precisión en preguntas de opción múltiple y un 76,4% de precisión en preguntas abiertas, superando a los modelos especializados.
“Nos sorprendió ver que los modelos generales, como GPT-4o, tuvieran un mejor rendimiento que aquellos adaptados para la medicina”, dijo Ofir Ben-Shoham, uno de los investigadores. “Demostramos que los modelos de lenguaje grandes pueden usarse para diagnosticar casos médicos complejos”.
Esta investigación es significativa porque demuestra que modelos de IA como GPT-4o podrían ayudar a diagnosticar afecciones médicas difíciles de manera más eficiente. La base de datos CUPCase que creó el equipo podría convertirse en una herramienta valiosa para probar nuevos modelos de IA en el futuro. La base de datos está abierta para su uso y puede ampliarse con casos adicionales a medida que se desarrollen nuevos modelos.
“El objetivo era crear un sistema que pudiera evaluar qué tan bien los modelos de lenguaje diagnostican casos complejos del mundo real, no solo los comunes”, dijo el estudiante de doctorado Uriel Peretz.
El Dr. Nadav Rapoport, otro miembro del equipo de investigación, explicó que diagnosticar casos complejos puede ser un proceso largo e incierto, lo que genera retrasos y mayores costos para los pacientes. La base de datos CUPCase, al proporcionar casos detallados del mundo real, puede ayudar a acelerar este proceso y mejorar la atención al paciente.
La investigación tiene varias aplicaciones prácticas en la atención médica, principalmente al mejorar la velocidad y la precisión de los diagnósticos médicos. Modelos de IA como GPT-4o podrían ayudar a los médicos a diagnosticar casos médicos complejos más rápidamente, reduciendo los retrasos en el diagnóstico y mejorando los resultados de los pacientes. La base de datos CUPCase, que presenta una colección de casos del mundo real, puede servir como una valiosa herramienta de apoyo a la decisión clínica, ayudando a los médicos a tomar decisiones más precisas, especialmente para casos difíciles o raros.
Además, el modelo de IA podría ayudar en la formación de profesionales médicos, ofreciendo un recurso interactivo para aprender procesos de diagnóstico complejos.
Las herramientas impulsadas por IA también podrían ampliar el acceso a soporte de diagnóstico a nivel experto en áreas desatendidas, donde los especialistas pueden ser limitados. En entornos de cuidados intensivos, los modelos de IA podrían proporcionar asistencia de diagnóstico en tiempo real.








