UTILIDAD DEL CHATGPT EN LA INSUFICIENCIA CARDÍACA
Orange, EE.UU.:
Los resultados de esta investigación destacan el potencial del ChatGPT, en particular la versión más nueva, como fuente de información complementaria y educación para pacientes con insuficiencia cardíaca.
Heart, Lung & Circulation 1-5, 2024
Autores:
King RC, Samaan JS, Ghashghaei R
Institución/es participante/s en la investigación:
University of California
Título original:
Appropriateness of ChatGPT in Answering Heart Failure Related Questions
Título en castellano:
Idoneidad de ChatGPT para Responder Preguntas Relacionadas con la Insuficiencia Cardíaca
Extensión del Resumen-SIIC en castellano:
2.42 páginas impresas en papel A4
Introducción
La insuficiencia cardíaca es una enfermedad crónica y compleja asociada con una elevada carga de atención médica. En este contexto, el conocimiento de la enfermedad y la comprensión del tratamiento tienen efectos clínicos favorables, en particular en lo referido a las hospitalizaciones por insuficiencia cardíaca. Los pacientes utilizan internet para hacer consultas médicas y buscar información relacionada con la atención médica. La cantidad de respuestas que se obtiene al buscar información médica es enorme y de variada calidad. El Chat Generative Pretrained Transformer (ChatGPT) es una herramienta de inteligencia artificial que brinda información referida a casi todo tipo de temas, incluida la medicina. Está desarrollado para entablar una especie de conversación con el usuario y su uso se ha vuelto popular. Se actualiza de forma constante y la última versión supera significativamente las capacidades de respuesta de las versiones iniciales. Los estudios que examinaron la capacidad de ChatGPT para responder preguntas relacionadas con diversas áreas de la medicina arrojan resultados prometedores. Sin embargo, es importante determinar las fortalezas y limitaciones del ChatGPT como fuente complementaria de información para pacientes con insuficiencia cardíaca.
El objetivo de esta investigación fue examinar la precisión y la reproducibilidad de las respuestas del ChatGPT a las preguntas relacionadas con la insuficiencia cardíaca. Además, se evaluó la diferencia de rendimiento entre el GPT-3.5 y el GPT-4.
Métodos
Se seleccionaron 107 preguntas frecuentes relacionadas con la insuficiencia cardíaca que fueron identificadas en sitios web de instituciones de cardiología y grupos de apoyo para la insuficiencia cardíaca en Facebook. Las preguntas se formularon desde la perspectiva del paciente y categorizaron en conocimientos básicos (definiciones generales, síntomas, causas y diagnósticos; n = 49), manejo (medicamentos, modificaciones en el estilo de vida y mantenimiento diario; n = 41) y otros (pronóstico, y procedimientos y apoyo que no encajaban en las otras dos categorías; n = 17). Cada una de las preguntas se introdujo dos veces en cada modelo (GPT-3.5 y GPT-4), lo que permitió obtener dos respuestas por pregunta por modelo. Las respuestas fueron calificadas de forma independiente por dos cardiólogos certificados y las discrepancias entre estos fueron resueltas por un tercer revisor certificado en cardiología e insuficiencia cardíaca avanzada. La precisión de la respuesta se calificó con una escala de cuatro puntos: (1) precisa y completa, (2) correcta pero inadecuada (información es correcta, pero incompleta), (3) un poco correcta y otro poco incorrecta, y (4) completamente incorrecta. La reproducibilidad de las respuestas se determinó en función de la calificación de precisión de cada respuesta. Una pregunta con sus respuestas en diferentes categorías de precisión se definió como no reproducible.
Resultados
La mayoría de las respuestas de los modelos GPT-3.5 y GPT-4.0 fueron calificadas como “precisas y completas” o “correctas pero inadecuadas”. El modelo GPT-4.0 proporcionó 107/107 (100%) respuestas con información correcta, con 89/107 (83.2%) de respuestas calificadas como “precisas y completas”, mientras que el modelo GPT-3.5 proporcionó 105/107 (98.1%) respuestas con información correcta y 84/107 (78.5%) de respuestas calificadas como “precisas y completas”. En comparación con el modelo GPT-3.5, el modelo GPT-4.0 obtuvo mejores resultados en las categorías de “conocimientos básicos” y “manejo”, y las respuestas se calificaron como completas y precisas el 89.8% y el 82.9% de las veces, respectivamente, frente al 73.5% y el 78.1%, respectivamente. Por el contrario, el modelo GPT-3.5 obtuvo un porcentaje más alto de respuestas completas y precisas en las preguntas de la categoría “otros” (94.1% frente a 64.7%). Los modelos proporcionaron una respuesta exhaustiva y completa sobre los beneficios de la rehabilitación cardíaca, y destacaron factores como la reducción del riesgo de futuras complicaciones, el aumento de la adhesión terapéutica y la educación del paciente junto con el apoyo. El modelo GPT-4 no proporcionó información inexacta en sus respuestas, mientras que el modelo anterior sí lo hizo. El modelo GPT-3.5 proporcionó dos respuestas (1.9%) que fueron calificadas como “un poco correcta y otro poco incorrecta”. Ninguno de los modelos brindó respuestas “completamente incorrectas”. En lo referido a la reproducibilidad de las respuestas, los modelos proporcionaron respuestas reproducibles para la mayoría de las preguntas, con una tasa por encima del 94% en todas las categorías para el modelo GPT-3.5 y del 100% para todas las respuestas en el modelo GPT-4.0.
Al evaluar el modelo GPT-3.5 los revisores estuvieron de acuerdo con el 99.1% de las veces con respecto a la presencia de información precisa. En el caso del modelo GPT-4.0, hubo un 100% de acuerdo. El grado de detalle en las respuestas a ciertas preguntas difirió entre los modelos y el modelo GPT-3.5 respondió en términos generales, mientras que el modelo más nuevo lo hizo de forma más detallada.
Discusión
Este estudio que examinó la exactitud y la reproducibilidad de las respuestas de ChatGPT a preguntas relacionadas con la insuficiencia cardíaca mostró que el modelo GPT-4.0 proporcionó respuestas completas y precisas al 83.2% de las preguntas y no proporcionó información inexacta. Por otro lado, el modelo anterior, el GPT-3.5, tuvo una tasa más baja de respuestas completas y precisas (78.5%) de respuestas completas y sí proporcionó información incorrecta (1.9%). Ambos modelos proporcionaron respuestas reproducibles a la mayoría de las preguntas, con una tasa del 100% para el modelo GPT-4 y de casi el 100% para el modelo GPT-3.5. Estos resultados destacan la utilidad que tiene el ChatGPT, en particular el modelo más nuevo, para proporcionar respuestas completas, precisas, confiables y reproducibles a las preguntas relacionadas con la insuficiencia cardíaca. En consecuencia, sirve como fuente complementaria de información para pacientes con insuficiencia cardíaca. Las mejoras y desarrollo de esta herramienta han permitido que la versión más nueva tenga ventajas y supere las limitaciones del modelo predecesor. En este sentido, el modelo GPT-4.0 muestra un mejor desempeño que el modelo GPT-3.5 para brindar información médica y vinculada con la insuficiencia cardíaca. Además, proporciona respuestas más detalladas y sin información incorrecta. La inteligencia artificial avanza a pasos agigantados y es importante hacer un seguimiento y regular esto. El ChatGPT aún tiene numerosas limitaciones y cuestiones éticas que deben ser abordadas, como por ejemplo la divulgación de conflicto de interés, la fuente bibliográfica y la confidencialidad y seguridad del paciente. La información que esta herramienta brinda es de gran utilidad para la educación del paciente, pero es complementaria al consejo y asesoramiento médico. Es imperioso que los profesionales de la salud participen en el diseño de herramientas de inteligencia artificial con fines médicos. Teniendo todo esto en cuenta, el ChatGTP y otras herramientas de inteligencia artificial tienen un enorme potencial en la medicina y en particular para brindar atención más eficaz y equitativa. La principal limitación de esta investigación es la falta de participación de pacientes.
Conclusiones
El ChatGPT, en particular el modelo GPT-4.0, proporciona respuestas precisas y confiables a la mayoría de las preguntas relacionadas con la insuficiencia cardíaca. El modelo GPT-4.0 tuvo mejor rendimiento que el modelo anterior y se destacó por no brindar información incorrecta en sus respuestas. Esta herramienta tiene un enorme potencial como fuente complementaria de información y educación para pacientes con insuficiencia cardíaca. Resultaría importante determinar cómo se traduce esto en la clínica. Es fundamental que las organizaciones médicas participen en el desarrollo y regulación de herramientas de inteligencia artificial que brindan información relacionada con la salud.