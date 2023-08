La paciente era una mujer de 39 años. Tenía varios días de sufrir dolor en la rodilla izquierda. El día anterior había tenido fiebre. Ya había cedido, pero aún tenía escalofríos. Y su rodilla estaba enrojecida e inflamada.

¿Cuál era el diagnóstico?

Megan Landon, residente médica en el Centro Médico Beth Israel Deaconess, en Boston, planteó recientemente este caso real a estudiantes de Medicina y residentes reunidos para aprender a pensar como médico.

Pero en esta ocasión, podrían recurrir a GPT-4, la versión más reciente de un chatbot lanzado por la empresa OpenAI.

Los médicos en el Beth Israel Deaconess, un hospital docente afiliado a la Escuela de Medicina de Harvard, decidieron explorar cómo se podría dar uso —y mal uso— a los chatbots en la capacitación de futuros médicos.

Instructores como Adam Rodman esperan que los estudiantes de medicina puedan recurrir a los chatbots para algo similar a lo que los médicos llaman una consulta de acera, cuando le piden a un colega una opinión sobre un caso difícil.

Los médicos experimentados utilizan lo que en medicina se denomina un guión de enfermedad: señales, síntomas y resultados de pruebas que cuentan una historia coherente con base en casos similares. Si el guión de enfermedad no ayuda, dijo Rodman, los médicos recurren a otras estrategias, como asignar probabilidades a diversos diagnósticos.

Los investigadores tienen años de intentar diseñar programas computacionales para realizar diagnósticos, pero nada ha tenido éxito.

Los médicos dicen que GPT-4 es diferente.

En un estudio publicado en la revista JAMA, los médicos en el Beth Israel Deaconess hallaron que GPT-4 obtuvo mejores resultados que la mayoría de los médicos en los retos de diagnóstico semanales publicados en The New England Journal of Medicine.

Pero aprendieron que hay un arte en el uso del programa, y tiene sus trampas. Christopher Smith, director de residentes en el centro médico, dijo que aprender implica tratar de resolver las cosas: “Parte del aprendizaje es batallar. Si externalizas el aprendizaje a GPT, ya no se batalla”.

En la reunión, los estudiantes y residentes hicieron equipo para averiguar qué le pasaba a la paciente con la rodilla inflamada. Luego recurrieron a GPT-4.

Un grupo usó GPT-4 para hacer una búsqueda en Internet, similar a usar Google. El chatbot ofreció posibles diagnósticos, incluyendo traumatismo. Pero cuando el grupo le pidió que explicara su razonamiento, el bot decepcionó, al decir sólo, “El traumatismo es una causa común de lesión en la rodilla”.

Otro grupo pensó en posibles hipótesis y pidió a GPT-4 que las revisara. La lista del chatbot coincidía con la del grupo: infecciones, incluyendo la enfermedad de Lyme; artritis, incluyendo gota; y traumatismos.

GPT-4 agregó artritis reumatoide a las posibilidades. La gota, dijeron más tarde los instructores al grupo, era poco probable porque la paciente era joven y mujer. Y probablemente podría descartarse la artritis reumatoide porque sólo una articulación estuvo inflamada, y sólo por un corto tiempo.

Para usar el bot correctamente, dijeron los instructores, se tendría que comenzar diciéndole a GPT-4 algo como: “Eres un médico atendiendo a una mujer de 39 años con dolor de rodilla”. Luego, tendrían que enumerar sus síntomas antes de solicitar un diagnóstico y hacer un seguimiento con preguntas sobre el razonamiento del bot, como lo harían con un colega.

Eso, dijeron los instructores, es una forma de utilizar mejor GPT-4. Pero también es crucial saber que los chatbots pueden cometer errores. Usarlos requiere saber que pueden estar equivocados.

Al final de la sesión, los instructores revelaron el verdadero motivo de la rodilla inflamada: la mujer tenía la enfermedad de Lyme.

Olivia Allison contribuyó con reportes a este artículo.

GINA KOLATA

The New York Times