
Un modelo de ChatGPT, ha demostrado una precisión del 90% en la identificación de enfermedades, abriendo el debate sobre su rol futuro en la atención sanitaria
¿Puede la inteligencia artificial superar a los médicos en precisión diagnóstica? Un reciente estudio publicado en la revista JAMA Network Open ha puesto sobre la mesa esta provocadora cuestión, tras comparar el rendimiento de ChatGPT-4, un modelo de lenguaje avanzado, con el de 50 médicos en un escenario controlado de diagnósticos clínicos. Los resultados sorprendieron incluso a los investigadores: el chatbot superó en precisión a los médicos y demostró ser más eficiente en la identificación de enfermedades complejas.
La investigación, encabezada por el doctor Adam Rodman, especialista en medicina interna en el Beth Israel Deaconess Medical Center, evaluó la capacidad de diagnóstico a través de seis casos clínicos basados en pacientes reales. Mientras que los médicos lograron una precisión media del 74% (sin herramientas) y 76% (con el apoyo de ChatGPT), el chatbot alcanzó una media del 90% trabajando en solitario. Este hallazgo no solo plantea interrogantes sobre el potencial de la inteligencia artificial (IA) en el ámbito médico, sino también sobre la reticencia de los profesionales a confiar en estas tecnologías emergentes.
“Quedé impactado al ver los resultados”, admitió el Dr. Rodman en declaraciones recogidas por el New York Times, quien también destacó que los médicos suelen mostrar una confianza inquebrantable en sus diagnósticos, incluso frente a sugerencias correctas proporcionadas por la IA. Este sesgo cognitivo, unido a una falta de formación en el uso adecuado de herramientas basadas en IA, emergió como uno de los principales retos en la integración de estas tecnologías en la práctica médica.
El experimento involucró a 50 médicos, incluyendo residentes y especialistas con experiencia en medicina interna, familiar y de emergencias, quienes participaron de forma virtual y presencial. Se les presentaron seis casos clínicos, cada uno basado en pacientes reales, pero cuidadosamente seleccionados para no estar presentes en los datos de entrenamiento de ChatGPT-4. Este cuidado garantizó que el chatbot no tuviera ventajas relacionadas con su base de datos previa.
Los participantes debían identificar hasta tres diagnósticos posibles para cada caso, respaldar sus hipótesis con evidencia y detallar pasos adicionales necesarios para confirmar sus conclusiones. Mientras algunos médicos utilizaron herramientas convencionales como bases de datos médicas y buscadores en línea, otros contaron también con el apoyo de ChatGPT-4 para guiar sus decisiones.
El análisis de los resultados reveló que los médicos asistidos por el chatbot no mostraron mejoras significativas frente a quienes solo usaron recursos tradicionales. Esto llevó a los investigadores a analizar más profundamente las interacciones entre los médicos y la IA, descubriendo patrones de resistencia y un uso subóptimo de la herramienta.
Resultados que desafían la tradición médica
El hallazgo más destacado fue la superioridad de ChatGPT-4 en solitario, que no solo demostró una mayor precisión en sus diagnósticos, sino que también fue más eficiente en términos de tiempo. Según el estudio, los médicos asistidos por el chatbot dedicaron, en promedio, 519 segundos por caso, mientras que aquellos sin IA tardaron 565 segundos. Sin embargo, el modelo por sí solo, no solo fue más rápido, sino también más certero, alcanzando el 92% en algunos casos específicos.
¿Por qué los médicos asistidos no lograron superar a la IA en solitario? Según los investigadores, el problema radica en la forma en que los médicos interactúan con estas herramientas. Muchos las trataron como simples motores de búsqueda, formulando preguntas específicas en lugar de aprovechar sus capacidades integrales. Solo una minoría utilizó estrategias más avanzadas, como copiar y pegar la historia clínica completa para obtener un análisis exhaustivo de ChatGPT-4.