Red de Medicamentos
  • Inicio
  • Noticias
  • Artículos de opinión
  • Investigaciones
  • Debates
  • Epidemiología
    Alimentos ultraprocesados ​​y salud humana: la tesis principal y la evidencia

    Alimentos ultraprocesados ​​y salud humana: la tesis principal y la evidencia

    Caracterización del brote de dengue autóctono austral más importante del mundo (Bahía Blanca, Argentina, enero-junio de 2024). Estudio transversal.

    Caracterización del brote de dengue autóctono austral más importante del mundo (Bahía Blanca, Argentina, enero-junio de 2024). Estudio transversal.

    Un mapa inflamatorio multiescala: vinculando el estrés individual con la disfunción social

    Un mapa inflamatorio multiescala: vinculando el estrés individual con la disfunción social

    El impacto del aumento de las temperaturas debido al cambio climático en las enfermedades infecciosas

    Mortalidad por enfermedad de Alzheimer entre conductores de taxis y ambulancias: estudio transversal de base poblacional

    Prevención cuaternaria: de la medicina clínica a la medicina social

    Conectando el derecho a la salud y el anti-extractivismo a nivel mundial

    “Ensayos clínicos e intervalos de confianza»

    “Ensayos clínicos e intervalos de confianza»

    Trending Tags

    • Golden Globes
    • Game of Thrones
    • MotoGP 2017
    • eSports
    • Fashion Week
  • Bioética
    • Debates – Bioética
    • Investigaciones Bioética
  • Libros y revistas
    • Reseñas
    • Biblioteca
  • Audiovisuales
    • Charlas / Conferencias
    • Difusiones
  • Eventos
  • Vínculos Básicos Esenciales
  • Prevención cuaternaria
  • Rescatando de la historia
  • Aprendiendo de la(s) pandemia(s)
No Result
View All Result
  • Inicio
  • Noticias
  • Artículos de opinión
  • Investigaciones
  • Debates
  • Epidemiología
    Alimentos ultraprocesados ​​y salud humana: la tesis principal y la evidencia

    Alimentos ultraprocesados ​​y salud humana: la tesis principal y la evidencia

    Caracterización del brote de dengue autóctono austral más importante del mundo (Bahía Blanca, Argentina, enero-junio de 2024). Estudio transversal.

    Caracterización del brote de dengue autóctono austral más importante del mundo (Bahía Blanca, Argentina, enero-junio de 2024). Estudio transversal.

    Un mapa inflamatorio multiescala: vinculando el estrés individual con la disfunción social

    Un mapa inflamatorio multiescala: vinculando el estrés individual con la disfunción social

    El impacto del aumento de las temperaturas debido al cambio climático en las enfermedades infecciosas

    Mortalidad por enfermedad de Alzheimer entre conductores de taxis y ambulancias: estudio transversal de base poblacional

    Prevención cuaternaria: de la medicina clínica a la medicina social

    Conectando el derecho a la salud y el anti-extractivismo a nivel mundial

    “Ensayos clínicos e intervalos de confianza»

    “Ensayos clínicos e intervalos de confianza»

    Trending Tags

    • Golden Globes
    • Game of Thrones
    • MotoGP 2017
    • eSports
    • Fashion Week
  • Bioética
    • Debates – Bioética
    • Investigaciones Bioética
  • Libros y revistas
    • Reseñas
    • Biblioteca
  • Audiovisuales
    • Charlas / Conferencias
    • Difusiones
  • Eventos
  • Vínculos Básicos Esenciales
  • Prevención cuaternaria
  • Rescatando de la historia
  • Aprendiendo de la(s) pandemia(s)
No Result
View All Result
Red de Medicamentos
No Result
View All Result
Home Artículos de opinión

Prueba y evaluación de aplicaciones de modelos lingüísticos de gran escala en el ámbito de la atención sanitaria Una revisión sistemática

Licenciada Suhana Bedi1; Yutong Liu, MA2; Lucy Orr-Ewing, Licenciada en Letras2; Dev Dash, doctor en medicina y máster en salud pública2,3; Sanmi Koyejo, Doctora en Filosofía4; Alison Callahan, doctora3; Jason A. Fries, doctor en filosofía3; Michael Wornow, Licenciado en Letras3; Licenciado en Letras Akshay Swaminathan3; Lisa Soleymani Lehmann, doctora5; Dr. Hyo Jung Hong6; Más Kashyap, MD7; Akash R. Chaurasia, Máster3; Doctor en Medicina y Máster en Salud Pública Nirav R. Shah2; Doctor en Medicina Karandeep Singh8; Troy Tazbaz, Licenciado en Letras9; Arnold Milstein, Doctor en Filosofía2; Dr. Michael A. Pfeffer10; Nigam H. Shah, Licenciada en Medicina y Doctora en Filosofía2,3

gonzalo by gonzalo
28 octubre, 2024
in Artículos de opinión, Debates - Bioéticas
0
Sanciones económicas impuestas a grandes empresas farmacéuticas por actividades ilegales (2020)
0
SHARES
22
VIEWS
Share on FacebookShare on Twitter

Puntos clave

Pregunta   ¿Cómo se evalúan actualmente las aplicaciones de los modelos de lenguaje grandes (LLM) en el ámbito de la atención de la salud?

Resultados   En esta revisión sistemática de 519 estudios publicados entre el 1 de enero de 2022 y el 19 de febrero de 2024, solo el 5 % utilizó datos reales de atención al paciente para la evaluación de LLM. Las tareas administrativas, como la redacción de recetas y el procesamiento del lenguaje natural y las tareas de comprensión del lenguaje natural, como la elaboración de resúmenes, fueron poco estudiadas; la precisión fue la dimensión predominante de la evaluación, mientras que las evaluaciones de imparcialidad, sesgo y toxicidad fueron menos estudiadas.

Significado   Los resultados de esta revisión sistemática sugieren que las evaluaciones actuales de los LLM en el ámbito de la atención de la salud son fragmentadas e insuficientes, y que las evaluaciones deben utilizar datos reales de pacientes, cuantificar los sesgos, cubrir una gama más amplia de tareas y especialidades y reportar métricas de desempeño estandarizadas para permitir una implementación más amplia.

Abstracto

Importancia   Los modelos de lenguaje grandes (LLM) pueden ayudar en diversas actividades de atención médica, pero los enfoques de evaluación actuales pueden no identificar adecuadamente las áreas de aplicación más útiles.

Objetivo   Resumir las evaluaciones existentes de los LLM en el ámbito de la atención de la salud en términos de cinco componentes: (1) tipo de datos de evaluación, (2) tarea de atención de la salud, (3) tareas de procesamiento del lenguaje natural (PLN) y comprensión del lenguaje natural (NLU), (4) dimensión de la evaluación, y (5) especialidad médica.

Fuentes de datos   Se realizó una búsqueda sistemática en PubMed y Web of Science de estudios publicados entre el 1 de enero de 2022 y el 19 de febrero de 2024.

Selección de estudios   Estudios que evalúan 1 o más LLM en atención médica.

Extracción y síntesis de datos   Tres revisores independientes categorizaron los estudios mediante búsquedas de palabras clave según los datos utilizados, las tareas de atención médica, las tareas de PNL y NLU, las dimensiones de evaluación y la especialidad médica.

Resultados   De 519 estudios revisados, publicados entre el 1 de enero de 2022 y el 19 de febrero de 2024, solo el 5% utilizó datos reales de atención al paciente para la evaluación de LLM. Las tareas de atención médica más comunes fueron la evaluación de los conocimientos médicos, como responder preguntas del examen de licencia médica (44,5%) y realizar diagnósticos (19,5%). Las tareas administrativas, como la asignación de códigos de facturación (0,2%) y la redacción de recetas (0,2%), fueron menos estudiadas. Para las tareas de NLP y NLU, la mayoría de los estudios se centraron en la respuesta a preguntas (84,2%), mientras que tareas como el resumen (8,9%) y el diálogo conversacional (3,3%) fueron poco frecuentes. Casi todos los estudios (95,4%) utilizaron la precisión como dimensión principal de la evaluación; la imparcialidad, el sesgo y la toxicidad (15,8%), las consideraciones de implementación (4,6%) y la calibración e incertidumbre (1,2%) se midieron con poca frecuencia. Finalmente, en términos de área de especialidad médica, la mayoría de los estudios fueron en aplicaciones genéricas de atención médica (25,6%), medicina interna (16,4%), cirugía (11,4%) y oftalmología (6,9%), siendo medicina nuclear (0,6%), medicina física (0,4%) y genética médica (0,2%) las menos representadas.

Conclusiones y relevancia   Las evaluaciones existentes de los LLM se centran principalmente en la precisión de las respuestas a las preguntas de los exámenes médicos, sin tener en cuenta los datos reales de atención al paciente. Dimensiones como la imparcialidad, el sesgo y la toxicidad y las consideraciones de implementación recibieron una atención limitada. Las evaluaciones futuras deberían adoptar aplicaciones y métricas estandarizadas, utilizar datos clínicos y ampliar el enfoque para incluir una gama más amplia de tareas y especialidades.

Introducción

La adopción de la inteligencia artificial (IA) en el ámbito de la atención sanitaria está aumentando, catalizada por la aparición de grandes modelos de lenguaje (LLM), como los chatbots de IA (ChatGPT; OpenAI). 1 – 4 A diferencia de la IA predictiva, la IA generativa produce contenido original, como sonido, imagen y texto. 5 En el ámbito de la IA generativa, los LLM producen prosa coherente y estructurada en respuesta a las entradas de texto, con una amplia aplicación en las operaciones del sistema de salud. 6 Varios sistemas de salud de los EE. UU. ya han implementado aplicaciones de los LLM, como facilitar la toma de notas clínicas, y existe entusiasmo en la comunidad médica por mejorar la eficiencia, la calidad y los resultados de los pacientes en la atención sanitaria. 7 , 8

Las nuevas tecnologías suelen recibirse con entusiasmo por sus múltiples usos potenciales, lo que lleva a una experimentación generalizada y a menudo desenfocada en diferentes aplicaciones de atención médica. No es sorprendente que el desempeño de los LLM en entornos de atención médica clínica haya sido evaluado de manera inconsistente. 9 , 10 Por ejemplo, Cadamuro et al 11 evaluaron la capacidad de diagnóstico del chatbot de IA evaluando la relevancia, la corrección, la utilidad y la seguridad, y encontraron que las respuestas eran generalmente superficiales y, a veces, inexactas, carentes de utilidad y seguridad. Por el contrario, Pagano et al 12 también evaluaron la capacidad de diagnóstico, pero se centraron únicamente en la corrección, y concluyeron que el chatbot estudiado exhibió un alto nivel de precisión comparable con las respuestas de los médicos.

En consecuencia, realizamos una revisión sistemática para caracterizar el panorama actual de los esfuerzos de evaluación del desempeño de los LLM en entornos de atención médica clínica, incluida la uniformidad, la minuciosidad y la solidez, para guiar su implementación y proponer un marco para la prueba y evaluación de los LLM en aplicaciones de atención médica. Nuestro enfoque clasifica las evaluaciones de LLM en función del tipo de datos, la tarea de atención médica, las tareas de procesamiento del lenguaje natural (PLN) y comprensión del lenguaje natural (PLN), la dimensión de la evaluación y la especialidad médica. Al identificar prácticas de evaluación fragmentadas e inconsistentes, pretendemos establecer una base común para futuras evaluaciones.

Métodos
Diseño

Se realizó una revisión sistemática. Esta revisión siguió las partes pertinentes de la guía de informes PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses ). 13

Fuentes de información y selección

Los estudios revisados ​​por pares y las preimpresiones del 1 de enero de 2022 al 19 de febrero de 2024 se recuperaron de las bases de datos PubMed y Web of Science, utilizando palabras clave específicas detalladas en el eAppendix del Suplemento . Este período de 2 años se seleccionó para capturar los estudios publicados después del lanzamiento público de un chatbot de IA en noviembre de 2022. La eFigure del Suplemento presenta una cronología de los estudios publicados. Las bases de datos se consultaron el 19 de febrero de 2024, centrándose en los títulos y resúmenes que involucraban evaluaciones de LLM en atención médica. La selección fue realizada por 3 revisores independientes (SB, YL y LOE) utilizando una herramienta en línea (Covidence, 2024) ( Figura 1 ). Los estudios se incluyeron si evaluaban LLM en tareas de atención médica. Los estudios excluidos fueron aquellos que se centraron en tareas multimodales o investigación en ciencias biológicas básicas que involucraban LLM. Se incluyó una amplia gama de estudios para una revisión integral. Las citas se importaron a EndNote 21 (Clarivate) para su análisis. Seleccionamos aleatoriamente artículos de las categorías de tareas de atención médica y de las categorías de PNL y NLU para citarlos como ejemplos. Nuestra intención no fue juzgar los méritos de un artículo sobre otro.

Extracción, categorización y etiquetado de datos

Al menos 1 revisor categorizó cada estudio manualmente, examinando el título y el resumen para asignar categorías para los datos utilizados, la tarea de atención médica evaluada, la tarea de NLP y NLU examinada, las dimensiones de la evaluación y la especialidad médica. Para los estudios en los que las categorías no eran evidentes a partir del título y el resumen, se examinaron las secciones de métodos y resultados. Los estudios que permanecieron sin categorizar fueron discutidos por 3 de nosotros (SB, YL y LOE) para hacer una categorización de consenso. Nuestro marco de categorización incorporó elementos de las listas de tareas de atención médica disponibles públicamente, como la lista de tareas de médicos del Examen de Licencia Médica de los Estados Unidos (USMLE), aportes de médicos certificados por la junta y modelos establecidos como la evaluación holística de modelos de lenguaje (HELM) y el marco de IA de código abierto (Hugging Face). 14 – 17 Las especialidades médicas se adaptaron de los programas de residencia del Consejo de Acreditación para la Educación Médica de Posgrado para garantizar una cobertura integral de las especialidades relevantes para las aplicaciones de LLM en atención médica. 18 A todas las categorizaciones se les asignó la misma ponderación en nuestro análisis. Si un estudio evaluó los LLM en múltiples tareas de atención médica o dimensiones de evaluación, cada una de ellas se contabilizó y se incluyó en los resultados.

Desarrollo del marco de categorización

Para este estudio, desarrollamos un marco de categorización diseñado para evaluar las aplicaciones de LLM en el ámbito de la atención médica basándonos en marcos existentes.

Tipo de datos de evaluación

Clasificamos los estudios según el tipo de datos. La clasificación se basó en si los estudios utilizaban datos de pacientes reales o no.

Tareas de atención de salud

Clasificamos los estudios en función de la tarea de atención de la salud que examinaban. Identificamos un total de 19 tareas de atención de la salud utilizadas en los estudios, que abarcan funciones tanto de atención como administrativas ( Tabla 1 ). 19 – 37 Una única tarea de atención de la salud puede implicar múltiples tareas de PNL y NLU.

Tareas de PNL y NLU

Categorizamos los estudios en términos de las tareas de PNL y NLU que realizaron para lograr una tarea de atención médica determinada. Incluimos 6 tareas de PNL y NLU en el marco. Sobre la base de 4 tareas del marco HELM (respuesta a preguntas, resumen, extracción de información y clasificación de texto), incorporamos «traducción y diálogo conversacional» del marco de IA. 23 , 28 , 38-41 Estas incorporaciones cubren el uso de LLM para superar las barreras lingüísticas y respaldar la comunicación interactiva en tiempo real en entornos de atención médica ( Tabla 1 ) . 38-43

Dimensión de la evaluación

Categorizamos los estudios en términos de las dimensiones de evaluación que utilizaron. Incluimos 7 dimensiones de evaluación utilizadas en los 519 estudios publicados entre el 1 de enero de 2022 y el 19 de febrero de 2024 ( Tabla 2 ). 14 , 44-47 Sobre la base de las dimensiones de HELM (precisión, calibración e incertidumbre, solidez, eficiencia, imparcialidad, sesgo y estereotipos, y toxicidad), introdujimos la «factualidad», que evalúa la veracidad de los resultados de LLM, y la «exhaustividad», que evalúa la integridad de los resultados. 14 , 42-45 Ampliamos la « eficiencia» a «consideraciones de implementación», para incluir los requisitos de hardware y el costo. Finalmente, «imparcialidad, sesgo, estereotipos y toxicidad» se combinaron en una sola dimensión «imparcialidad, sesgo y toxicidad» porque se refieren colectivamente al uso seguro de LLM. «Imparcial» o «injusto» se refiere a no tener una diferencia sistemática en el resultado del modelo para diferentes subgrupos. La toxicidad es la capacidad del modelo para producir contenido dañino o inapropiado. Agrupamos estas dimensiones debido a los estudios limitados que las informan y su enfoque compartido en garantizar interacciones seguras y confiables con LLM.

Especialidad médica

Clasificamos los estudios en función de la especialidad médica por la que se realizó la evaluación. Incluimos 22 categorías de especialidades médicas. Ampliamos las categorías del Consejo de Acreditación para la Educación Médica de Posgrado para incluir especialidades odontológicas, trastornos genéticos y aplicaciones de atención médica genérica, lo que garantiza una cobertura integral de las solicitudes de LLM en todos los campos médicos (eTabla 1 en el Suplemento ).

Análisis estadístico

Se utilizaron estadísticas descriptivas para resumir la distribución de los estudios en diferentes categorías, incluidos el tipo de datos de evaluación, las tareas de atención médica, las tareas de PNL y NLU, las dimensiones de la evaluación y las especialidades médicas. Se calcularon frecuencias y porcentajes para cada categoría. Los cálculos se realizaron utilizando el paquete NumPy, versión 1.25.2 (Python).

Resultados

Se examinaron un total de 749 estudios relevantes para determinar su elegibilidad. Después de aplicar los criterios de inclusión y exclusión, se incluyeron 519 estudios en el análisis ( Figura 1 ). En la eFigure del Suplemento se puede encontrar una cronología de la frecuencia de los estudios incluidos publicados por mes . Cada estudio se categorizó con una o más tareas de atención médica, tarea de PNL y NLU y dimensión de etiquetas de evaluación, y por lo tanto, los porcentajes suman más del 100%.

Distribución de estudios según el tipo de datos de evaluación

Entre los estudios revisados, el 5% evaluó y probó los LLM utilizando datos reales de atención al paciente, mientras que el resto se basó en datos como preguntas de exámenes médicos, viñetas diseñadas por médicos o preguntas generadas por expertos en la materia.

Categorización de artículos en función de la tarea de atención de salud y las tareas de PNL y NLU

Los estudios que examinamos se centraron predominantemente en evaluar los conocimientos médicos de los titulados en derecho ( Figura 2 ), principalmente a través de evaluaciones como el USMLE. Las tareas centradas en la prestación de atención, como realizar diagnósticos, educar a los pacientes y hacer recomendaciones de tratamientos, fueron las otras tareas de atención médica comunes estudiadas. Por el contrario, las tareas administrativas, como asignar códigos de facturación, redactar recetas, generar derivaciones clínicas y tomar notas clínicas, fueron mucho menos estudiadas.

Entre las tareas de PNL y NLU, la mayoría de los estudios evaluaron el desempeño de LLM mediante tareas de respuesta a preguntas. Estas tareas iban desde responder preguntas genéricas sobre síntomas y tratamientos hasta responder preguntas de estilo pizarra con viñetas clínicas. Aproximadamente una cuarta parte de los estudios se centraron en tareas de clasificación de texto y extracción de información. Tareas como el resumen, el diálogo conversacional y la traducción quedaron poco exploradas.

Categorización de artículos según la dimensión de evaluación

La precisión (95,4%) y la exhaustividad (47,0%) fueron las dimensiones evaluadas con mayor frecuencia en los estudios ( Figura 2 ). Por el contrario, las dimensiones relacionadas con consideraciones éticas (imparcialidad, sesgo y toxicidad (15,8%) y solidez (14,8%)) se evaluaron en una proporción menor de estudios. Los aspectos de implementación práctica, como las métricas de implementación (4,6%) y la calibración e incertidumbre (1,2%), fueron las dimensiones evaluadas con menor frecuencia. En la tabla electrónica 2 del Suplemento se presentan ejemplos de métricas bajo cada dimensión de evaluación .

Distribución de Estudios por Especialidad Médica

Más de una quinta parte de los estudios no se categorizaron por ninguna especialidad. Entre las especialidades, la medicina interna, la cirugía y la oftalmología fueron las especialidades estudiadas con mayor frecuencia. La medicina nuclear, la medicina física y la genética médica fueron las especialidades menos prevalentes en los estudios, representando 12 estudios en total. El porcentaje exacto de estudios en diferentes especialidades se describe en la Tabla electrónica 1 del Suplemento .

Discusión

Nuestra revisión sistemática de 519 estudios resume las evaluaciones existentes de los títulos de máster en derecho en función del tipo de datos de evaluación, las tareas de atención médica, las tareas de NLP y NLU, la dimensión de la evaluación y las especialidades médicas, y captura la heterogeneidad de las aplicaciones actuales de los títulos de máster en derecho. El marco de categorización que desarrollamos proporciona una forma consistente de caracterizar las pruebas y evaluaciones de los títulos de máster en derecho, con definiciones precisas y ejemplos ilustrativos que pueden tener utilidad más allá de esta revisión.

Nuestros hallazgos resaltan la necesidad de métodos basados ​​en el consenso para evaluar los LLM en la atención de la salud. Si bien los esfuerzos existentes, como las pautas de ética y gobernanza de la Organización Mundial de la Salud (OMS) 46 y la Orden Ejecutiva de los EE. UU. sobre IA 47, brindan bases valiosas, aún faltan métricas y métodos específicos para la evaluación de LLM. La Coalición para la IA en Salud 48 está haciendo avances prometedores en esta área, con grupos de trabajo lanzados en mayo de 2024 para establecer métricas y métodos para los LLM en la atención de la salud. Esta iniciativa tiene como objetivo crear una guía estándar de garantía basada en el consenso similar a la de los modelos de IA tradicionales. Esta revisión se basa en la literatura mundial y, si bien se citan ejemplos basados ​​en los EE. UU., las conclusiones pretenden ser aplicables a nivel mundial.

Recomendaciones

En general, identificamos seis deficiencias en las iniciativas de evaluación existentes y formulamos recomendaciones sobre cómo abordarlas en el futuro. En el cuadro 3 se presenta un resumen de estas recomendaciones .

Utilice datos reales de pacientes

Solo el 5% de los estudios utilizaron datos reales de atención al paciente para la evaluación, y la mayoría de los estudios utilizaron una combinación de preguntas de exámenes médicos, viñetas de pacientes o preguntas generadas por expertos en la materia. 12 , 49 , 50 Shah et al. 11 compararon la prueba de LLM en preguntas médicas hipotéticas con la certificación de un automóvil para su uso en la carretera mediante preguntas de opción múltiple. Los datos reales de atención al paciente abarcan las complejidades de la práctica clínica, lo que proporciona una evaluación exhaustiva del desempeño de LLM que reflejará el desempeño clínico. 6 , 12 , 51 , 52

Reconocemos que el acceso a los datos clínicos de los pacientes es limitado, y que la mayoría de las evaluaciones realizadas por centros médicos académicos utilizan conjuntos de datos disponibles públicamente, como Medical Information Mart for Intensive Care-IV. 53 Incluso con acceso, la integración de las evaluaciones en los sistemas de tecnología de la información sanitaria existentes plantea desafíos debido a los requisitos reglamentarios y al esfuerzo necesario de los departamentos de tecnología de la información. 54 Una posible solución a esta situación es la creación de conjuntos de datos de referencia compartidos. 54 Dada la importancia de utilizar datos reales de atención al paciente, es necesario crear mecanismos para garantizar su uso en la evaluación de las aplicaciones de atención sanitaria de LLM. La Oficina del Coordinador Nacional de Tecnología de la Información Sanitaria aprobó recientemente la primera regulación federal para establecer requisitos de presentación de informes específicos para los desarrolladores de herramientas de IA a través de sus tarjetas de informe modelo. 55 Ellos y otros reguladores deberían buscar incorporar un mandato para el uso de datos de atención al paciente en la creación de dichas tarjetas de informe modelo.

Estandarizar tareas y dimensiones de la evaluación

No existe consenso sobre qué dimensiones de evaluación se deben examinar para una tarea de atención médica o una tarea de PNL y NLU determinada. Por ejemplo, para una tarea de educación médica, Ali et al 19 probaron el desempeño de un chatbot de IA en un examen escrito, centrándose en la precisión de los resultados como única dimensión. Otro estudio 56 probó el desempeño de un chatbot de IA en el USMLE, centrándose en la precisión de los resultados, la veracidad y la exhaustividad como dimensiones principales de la evaluación.

Para abordar este desafío, necesitamos establecer definiciones compartidas de tareas y dimensiones correspondientes de evaluación. De manera similar a cómo los esfuerzos como HELM definen las dimensiones de evaluación de un LLM que importan en general, es necesario un marco específico para la atención de la salud para definir las dimensiones centrales de la evaluación que se evaluarán en los estudios. Hacerlo puede permitir mejores comparaciones y aprendizaje acumulativo de los cuales se pueden extraer conclusiones confiables para el trabajo técnico futuro y la orientación de políticas.

Priorizar las tareas administrativas de mayor impacto

Los esfuerzos de evaluación actuales se centran principalmente en tareas de conocimiento médico, como responder preguntas de exámenes médicos o tareas complejas de atención médica, así como hacer diagnósticos y hacer recomendaciones de tratamiento. Sin embargo, hay muchas tareas administrativas en la atención médica que a menudo requieren mucho trabajo, requieren entrada manual y contribuyen al agotamiento del médico. 57 En particular, áreas como la asignación de códigos de facturación (1 estudio), 36 la redacción de recetas (1 estudio), 37 la generación de referencias clínicas (3 estudios) 58 y la toma de notas clínicas (4 estudios) 59 ; todas las cuales siguen estando poco investigadas y podrían beneficiarse en gran medida de una evaluación sistemática del uso de LLM para esas tareas.

El examen de las aplicaciones administrativas es importante porque, si bien se ha promocionado la maestría en derecho por su potencial para ahorrar tiempo y mejorar la experiencia del médico, García et al. 60 descubrieron que la tasa de uso promedio para redactar respuestas de mensajes de pacientes en un sistema de registro médico electrónico era solo del 20%, lo que no generaba ahorro de tiempo, aunque encontraron una reducción en la puntuación de agotamiento del médico.

Cerrar brechas entre especialidades

La representación sustancial de aplicaciones genéricas de atención médica, que representan más de una quinta parte de los estudios, subraya el potencial de los LLM para abordar necesidades aplicables a muchas especialidades, como resumir informes médicos. En contraste, la escasez de investigación en especialidades particulares como medicina nuclear (3 estudios), 61 medicina física (2 estudios) 62 y genética médica (1 estudio) 63 sugiere un potencial sin explotar para el uso de LLM en estos dominios médicos complejos que a menudo presentan desafíos diagnósticos intrincados y exigen enfoques de tratamiento personalizados. 64 La falta de estudios centrados en LLM en estas áreas puede indicar la necesidad de una mayor conciencia, colaboración o adaptación especializada de dichos modelos para satisfacer las demandas únicas de estas especialidades.

Realizar una evaluación de impacto financiero

Se estima que la IA generativa permitirá ahorrar entre 200.000 y 360.000 millones de dólares en atención sanitaria a nivel mundial gracias a mejoras de productividad. 65 Sin embargo, la implementación de estas herramientas podría suponer una carga financiera importante para los sistemas de salud. Un estudio reciente de Sahni y Carrus 66 destacó el desafío de estimar con precisión los costos y beneficios de la implementación de la IA, destacando la necesidad de que los sistemas de salud tengan en cuenta el aumento de los costos de implementación y computación. 67

En esta revisión, solo un estudio evaluó el impacto financiero. Rau et al. 68 compararon el uso de chatbots de IA para imágenes personalizadas con radiólogos tradicionales, y mostraron una reducción de costos y tiempos de decisión. Sin embargo, se trató de una implementación paralela que no reflejaba la realidad financiera de integrar por completo los LLM en los flujos de trabajo clínicos.

Dado que las aplicaciones de la maestría en derecho en el ámbito de la atención de la salud son incipientes, es comprensible la falta de evaluaciones financieras clínicas, pero dichas evaluaciones son cruciales. Las evaluaciones futuras deben estimar los costos totales de implementación, incluidos el funcionamiento del modelo, el monitoreo, el mantenimiento y los ajustes de la infraestructura, antes de reasignar recursos de otras iniciativas de atención de la salud.

Definir y cuantificar el sesgo

Estudios recientes han resaltado una tendencia preocupante de los LLM a perpetuar la medicina basada en la raza en sus respuestas. 69 Este fenómeno se puede atribuir a la tendencia de los LLM a reproducir información de sus datos de entrenamiento, que pueden contener sesgos humanos. 70 Para mejorar nuestros métodos de evaluación y cuantificación del sesgo, primero debemos establecer colectivamente qué significa ser imparcial.

Si bien existen esfuerzos para evaluar los sesgos raciales y éticos, solo el 15,8% de los estudios han realizado alguna evaluación que profundice en cómo factores como la raza y la etnia, el género o la edad afectan el sesgo en el resultado del modelo. 71 – 73 Las investigaciones futuras deberían poner mayor énfasis en tales evaluaciones, en particular a medida que los responsables de las políticas desarrollen las mejores prácticas y orientación para la garantía de los modelos. La exigencia de estas evaluaciones como parte de un informe de calificaciones del modelo podría ser un paso proactivo hacia la mitigación de los sesgos perjudiciales perpetuados por los LLM. 74

Informar públicamente sobre los modos de fallo

El análisis de los modos de falla se ha considerado durante mucho tiempo fundamental en la ingeniería y la gestión de calidad, ya que facilita la identificación, el examen y la posterior mitigación de fallas. 75 La Administración de Alimentos y Medicamentos de los Estados Unidos tiene bases de datos para informes de eventos adversos en productos farmacéuticos y dispositivos médicos, pero actualmente no existe un lugar análogo para informar los modos de falla de los sistemas de IA, y mucho menos de los LLM, en el cuidado de la salud. 76 , 77

Sólo unos pocos estudios informaron por qué las implementaciones de LLM no arrojaron resultados satisfactorios, como la ingeniería rápida ineficaz informada por Galido et al. 78 Se necesita un examen más profundo de los modos de falla para comprender estos problemas. Es necesario distinguir entre fallas técnicas, como una generalización deficiente del modelo, problemas de escalabilidad o vulnerabilidades de seguridad, y fallas prácticas, como desafíos de integración o aceptación del usuario. La notificación precisa de estos modos de falla es esencial para mejorar la efectividad y confiabilidad de los LLM en la atención médica.

Limitaciones

Esta revisión tiene varias limitaciones. En primer lugar, el alcance de nuestro análisis se limitó a los estudios publicados entre enero de 2022 y febrero de 2024, por lo que posiblemente no se incluyeron evaluaciones más recientes. En segundo lugar, la exclusión de las tareas multimodales y la investigación en ciencias biológicas básicas podría haber dado lugar a una imagen incompleta de las aplicaciones de LLM en la atención médica. Por último, si bien categorizamos cada estudio utilizando ejes de evaluación de uso común, no incluimos ciertos ejes, como el nivel de recursos. El nivel de recursos afecta los resultados del modelo entre los entornos de recursos altos y bajos, pero esto estaba más allá del alcance de nuestro trabajo porque se informa de manera inconsistente en los estudios examinados.

Conclusiones

Esta revisión sistemática destaca la necesidad de contar con datos reales de atención al paciente en las evaluaciones para garantizar la alineación con las condiciones clínicas. Es fundamental contar con un marco consensuado para la estandarización de las definiciones de tareas y las dimensiones de evaluación. Los esfuerzos futuros deben priorizar las tareas administrativas de alto valor poco investigadas, abordar las brechas en especialidades como la medicina nuclear y la genética médica, y establecer pautas para mitigar los sesgos. Los análisis integrales de costo-beneficio y la presentación de informes centralizados de fallas del sistema de IA son esenciales para mejorar la evaluación y la integración de los LLM en los flujos de trabajo clínicos.

Volver al inicio

Información del artículo

Aceptado para publicación: 30 de septiembre de 2024.

Publicado en línea: 15 de octubre de 2024. doi:10.1001/jama.2024.21700

Autor correspondiente: Nigam H. Shah, MBBS, PhD, Departamento de Ciencias de Datos Biomédicos, Universidad de Stanford, 453 Quarry Rd, Ste 115B, Palo Alto, CA 94304-1419 ( nigam@stanford.edu ).

Contribuciones de los autores: La Sra. Bedi y el Dr. Shah tuvieron acceso total a todos los datos del estudio y son responsables de la integridad de los datos y de la precisión de su análisis. La Sra. Bedi, la Sra. Liu y la Sra. Orr-Ewing contribuyeron por igual como coautoras principales.

Concepto y diseño : Bedi, Liu, Orr Ewing, Dash, Koyejo, Fries, Swaminathan, Lehmann, Kashyap, Chaurasia, NR Shah, Singh, Tazbaz, Milstein, Pfeffer, NH Shah.

Adquisición, análisis o interpretación de datos : Bedi, Liu, Orr Ewing, Dash, Callahan, Wornow, Lehmann, Hong, Chaurasia, NR Shah.

Redacción del manuscrito : Bedi, Liu, Orr Ewing, Koyejo, Callahan, Fries, Wornow, Swaminathan, Chaurasia.

Revisión crítica del manuscrito en busca de contenido intelectual importante : Liu, Orr Ewing, Dash, Koyejo, Callahan, Fries, Wornow, Swaminathan, Lehmann, Hong, Kashyap, Chaurasia, NR Shah, Singh, Tazbaz, Milstein, Pfeffer, NH Shah.

Análisis estadístico : Bedi, Liu, Orr Ewing.

Financiación obtenida : Milstein, Pfeffer.

Apoyo administrativo, técnico o material : Bedi, Liu, Orr Ewing, Dash, Koyejo, Wornow, Swaminathan, NR Shah, Pfeffer, NH Shah.

Supervisión : Bedi, Orr Ewing, Dash, Koyejo, Fries, Lehmann, NR Shah, Pfeffer, NH Shah.

Divulgaciones de conflicto de intereses: el Dr. Callahan informó haber recibido honorarios de consultoría de Atropos Health LLC fuera del trabajo presentado. El Dr. Lehmann informó haber sido empleado anteriormente de Google fuera del trabajo presentado. El Dr. NR Shah informó haber sido cofundador de la empresa emergente de IA en atención médica Qualified Health PBC fuera del trabajo presentado. El Dr. Singh informó haber recibido subvenciones del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales para su institución, honorarios de consultoría de Flatiron Health y subvenciones de Blue Cross Blue Shield de Michigan para su institución fuera del trabajo presentado. El Dr. Milstein informó haber recibido honorarios por la participación en reuniones del Peterson Center of Healthcare, financiado por una fundación benéfica, tener acciones/opciones de Emsana Health, Amino Health, FNF Advisors, JRSL LLC, Embold, EZPT/Somatic Health y Prealize fuera del trabajo presentado; y ser miembro de la Junta Directiva de Leapfrog Group Intermountain Healthcare Board. El Dr. NH Shah informó ser cofundador de Prealize Health (una empresa de análisis predictivo) y Atropos Health (una empresa de generación de evidencia a pedido); recibir fondos de la Fundación Gordon y Betty Moore para desarrollar implementaciones de modelos virtuales; y ser miembro de la junta directiva de la Coalición para la IA en el cuidado de la salud, una organización de creación de consenso que proporciona pautas para el uso responsable de la inteligencia artificial en el cuidado de la salud. No se informaron otras divulgaciones.

Contribuciones adicionales: Agradecemos a Nicholas Chedid, MD, MBA (Facultad de Medicina de Yale; Escuela de Posgrado de Negocios de Stanford), por su orientación, sin compensación, en el desarrollo de la categorización de tareas de atención médica.

Referencias
1.

Stafie CS, Sufaru IG, Ghiciuc CM, et al. Exploración de la intersección de la inteligencia artificial y la atención médica clínica: una revisión multidisciplinaria.   Diagnostics (Basel) . 2023;13(12):1995. doi: 10.3390/diagnostics13121995 PubMedGoogle AcadémicoReferencia cruzada
2.

Kohane IS. Inyección de inteligencia artificial en la medicina.   NEJM AI . 2024;1(1). doi: 10.1056/AIe2300197Google AcadémicoReferencia cruzada
3.

Goldberg CB, Adams L, Blumenthal D, et al. No hacer daño —y hacer el mayor bien— con IA en la atención sanitaria.   NEJM AI . 2024;1(3). doi: 10.1056/AIp2400036Google AcadémicoReferencia cruzada
4.

Wachter RM, Brynjolfsson E. ¿La inteligencia artificial generativa cumplirá su promesa en el ámbito de la atención sanitaria?   JAMA . 2024;331(1):65-69. doi: 10.1001/jama.2023.25054
ArtículoPubMedGoogle AcadémicoReferencia cruzada
5.

Liu Y, Zhang K, Li Y, et al. Sora: una revisión de los antecedentes, la tecnología, las limitaciones y las oportunidades de los modelos de visión a gran escala.  arXiv . Preimpresión publicada en línea el 27 de febrero de 2024. https://doi.org/10.48550/arXiv.2402.17177
6.

Karabacak M, Margetis K. Adopción de modelos de lenguaje de gran tamaño para aplicaciones médicas: oportunidades y desafíos.   Cureus . 2023;15(5):e39305. doi: 10.7759/cureus.39305 PubMedGoogle AcadémicoReferencia cruzada
7.

Landi H. Abridge obtiene 150 millones de dólares para desarrollar inteligencia artificial generativa para documentación médica. Fierce Healthcare. Publicado el 23 de febrero de 2024. Consultado el 14 de marzo de 2024. https://www.fiercehealthcare.com/ai-and-machine-learning/abridge-clinches-150m-build-out-generative-ai-medical-documentation
8.

Webster P. Seis formas en que los modelos lingüísticos de gran tamaño están cambiando la atención médica.   Nat Med . 2023;29(12):2969-2971. doi: 10.1038/s41591-023-02700-1 PubMedGoogle AcadémicoReferencia cruzada
9.

Shah NH, Entwistle D, Pfeffer MA. Creación y adopción de grandes modelos lingüísticos en medicina.   JAMA . 2023;330(9):866-869. doi: 10.1001/jama.2023.14217
ArtículoPubMedGoogle AcadémicoReferencia cruzada
10.

Wornow M, Xu Y, Thapa R, et al. Los fundamentos inestables de los grandes modelos lingüísticos y los modelos de base para los registros médicos electrónicos.   NPJ Digit Med . 2023;6(1):135. doi: 10.1038/s41746-023-00879-8 PubMedGoogle AcadémicoReferencia cruzada
11.

Cadamuro J, Cabitza F, Debeljak Z, et al. Potencialidades y dificultades de ChatGPT y modelos de inteligencia artificial en lenguaje natural para la comprensión de los resultados de pruebas de medicina de laboratorio. Una evaluación del Grupo de trabajo sobre inteligencia artificial (WG-AI) de la Federación Europea de Química Clínica y Medicina de Laboratorio (EFLM).   Clin Chem Lab Med . 2023;61(7):1158-1166. doi: 10.1515/cclm-2023-0355 PubMedGoogle AcadémicoReferencia cruzada
12.

Pagano S, Holzapfel S, Kappenschneider T, et al. Diagnóstico de artrosis y recomendaciones de tratamiento en la práctica clínica: una investigación exploratoria con el modelo de inteligencia artificial generativa GPT-4.   J Orthop Traumatol . 2023;24(1):61. doi: 10.1186/s10195-023-00740-4 PubMedGoogle AcadémicoReferencia cruzada
13.

Page MJ, McKenzie JE, Bossuyt PM, et al. Declaración PRISMA 2020: una guía actualizada para la presentación de informes de revisiones sistemáticas.   BMJ . 2021;372(71):n71. doi: 10.1136/bmj.n71 PubMedGoogle AcadémicoReferencia cruzada
14.

Liang P, Bommasani R, Lee T, et al. Evaluación holística de modelos lingüísticos.  arXiv . Preimpresión publicada en línea el 16 de noviembre de 2022. https://doi.org/10.48550/arXiv.2211.09110
15.

Abrazando la cara. Tareas. Consultado el 10 de febrero de 2024. https://huggingface.co/tasks
16.

Norden J, Wang J, Bhattacharyya A. Donde la IA generativa se encuentra con la atención médica: actualización del panorama de la IA en el ámbito de la atención médica. AI Checkup. Publicado el 22 de junio de 2023. Consultado el 10 de febrero de 2024. https://aicheckup.substack.com/p/where-generative-ai-meets-healthcare
17.

Examen de licencia médica de los Estados Unidos. Tareas y competencias del médico en el examen USMLE. 2020. Consultado el 8 de febrero de 2024. https://www.usmle.org/sites/default/files/2021-08/USMLE_Physician_Tasks_Competencies.pdf
18.

Stanford Medicine. Programas de residencia y becas para la educación médica de posgrado. Consultado el 8 de febrero de 2024. https://med.stanford.edu/gme/programs.html
19.

Ali R, Tang OY, Connolly ID, et al. Rendimiento de ChatGPT y GPT-4 en exámenes escritos de neurocirugía.   Neurocirugía . 2023;93(6):1353-1365. doi: 10.1227/neu.0000000000002632 PubMedGoogle AcadémicoReferencia cruzada
20.

Fraser H, Crossland D, Bacher I, Ranney M, Madsen T, Hilliard R. Comparación de la precisión diagnóstica y de triaje de los verificadores de síntomas de Ada Health y WebMD, CHATGPT y médicos para pacientes en un departamento de emergencias: estudio de análisis de datos clínicos.   JMIR Mhealth Uhealth . 2023;11:e49995. doi: 10.2196/49995 PubMedGoogle AcadémicoReferencia cruzada
21.

Babayiğit O, Tastan Eroglu Z, Ozkan Sen D, Ucan Yarkac F. Uso potencial de CHATGPT para información de pacientes en periodontología: un estudio piloto descriptivo.   Cureus . 2023;15(11):e48518. doi: 10.7759/cureus.48518 PubMedGoogle AcadémicoReferencia cruzada
22.

Wilhelm TI, Roos J, Kaczmarczyk R. Modelos de lenguaje amplios para recomendaciones de terapias en tres especialidades clínicas: estudio comparativo.   J Med Internet Res . 2023;25:e49324. doi: 10.2196/49324 PubMedGoogle AcadémicoReferencia cruzada
23.

Srivastava R, Srivastava S. ¿Puede la inteligencia artificial ayudar a la comunicación? Considerando las posibilidades de GPT-3 en cuidados paliativos.   Indian J Palliat Care . 2023;29(4):418-425. doi: 10.25259/IJPC_155_2023 PubMedGoogle AcadémicoReferencia cruzada
24.

Dağci M, Çam F, Dost A. Fiabilidad y calidad de los textos de planificación de cuidados de enfermería generados por CHATGPT.   Nurse Educ . 2024;49(3):E109-E114.PubMedGoogle AcadémicoReferencia cruzada
25.

Huh S. ¿Son comparables los conocimientos y la capacidad de interpretación de ChatGPT a los de los estudiantes de medicina de Corea para realizar un examen de parasitología?: un estudio descriptivo.   J Educ Eval Health Prof. 2023;20:1.PubMedGoogle Académico
26.

Suppadungsuk S, Thongprayoon C, Krisanapan P, et al. Examen de la validez de ChatGPT para identificar literatura nefrológica relevante: hallazgos e implicaciones.   J Clin Med . 2023;12(17):5550. doi: 10.3390/jcm12175550 PubMedGoogle AcadémicoReferencia cruzada
27.

Rao A, Kim J, Kamineni M, Pang M, Lie W, Succi MD. Evaluación de ChatGPT como complemento para la toma de decisiones radiológicas.   medRxiv . Preimpresión publicada en línea el 7 de febrero de 2023. doi: 10.1101/2023.02.02.23285399Google ScholarReferencia cruzada
28.

Chung EM, Zhang SC, Nguyen AT, Atkins KM, Sandler HM, Kamrava M. Viabilidad y aceptabilidad de los resúmenes de informes radiológicos generados por ChatGPT para pacientes con cáncer.   Digit Health . 2023;9:20552076231221620. doi: 10.1177/20552076231221620 PubMedGoogle AcadémicoReferencia cruzada
29.

Lossio-Ventura JA, Weger R, Lee AY, et al. Una comparación de CHATGPT y transformadores abiertos preentrenados (OPT) ajustados con precisión frente a herramientas de análisis de sentimientos ampliamente utilizadas: análisis de sentimientos de datos de encuestas de COVID-19.   JMIR Ment Health . 2024;11:e50150. doi: 10.2196/50150 PubMedGoogle AcadémicoReferencia cruzada
30.

Razdan S, Valenzuela RJ. Respuesta al comentario sobre: ​​evaluación de la capacidad de ChatGPT para responder preguntas relacionadas con la disfunción eréctil: ¿pueden nuestros pacientes confiar en él?   Int J Impot Res . 2024. Publicado en línea el 19 de enero de 2024. doi: 10.1038/s41443-024-00823-8 PubMedGoogle AcadémicoReferencia cruzada
31.

Groza T, Caufield H, Gration D, et al. Una evaluación de los modelos GPT para el reconocimiento del concepto de fenotipo.   BMC Med Inform Decis Mak . 2024;24(1):30. doi: 10.1186/s12911-024-02439-w PubMedGoogle AcadémicoReferencia cruzada
32.

Kassab J, Hadi El Hajjar A, Wardrop RM III, Brateanu A. Precisión de los modelos de inteligencia artificial en línea en entornos de atención primaria.   Am J Prev Med . 2024;66(6):1054-1059. doi: 10.1016/j.amepre.2024.02.006 PubMedGoogle AcadémicoReferencia cruzada
33.

Barash Y, Klang E, Konen E, Sorin V. Asistencia de ChatGPT-4 para optimizar las derivaciones a radiología del departamento de emergencias y la selección de imágenes.   J Am Coll Radiol . 2023;20(10):998-1003. doi: 10.1016/j.jacr.2023.06.009 PubMedGoogle AcadémicoReferencia cruzada
34.

Lim B, Seth I, Dooreemeah D y Lee CHA. Explorando nuevas fronteras: evaluación de la capacidad de ChatGPT para revelar dimensiones inexploradas de la cirugía general y señalar innovaciones para avances futuros.   Langenbecks Arch Surg . 2023;408(1):446. doi: 10.1007/s00423-023-03173-z PubMedGoogle AcadémicoReferencia cruzada
35.

Chen Q, Sun H, Liu H, et al. Un estudio comparativo exhaustivo sobre la generación y extracción de textos biomédicos con ChatGPT.   Bioinformatics . 2023;39(9):btad557. doi: 10.1093/bioinformatics/btad557 PubMedGoogle AcadémicoReferencia cruzada
36.

Aiumtrakul N, Thongprayoon C, Arayangkool C, et al. Medicina personalizada en litiasis urinaria: gestión dietética del oxalato asistida por un chatbot de IA para la prevención de cálculos renales.   J Pers Med . 2024;14(1):107. doi: 10.3390/jpm14010107 PubMedGoogle AcadémicoReferencia cruzada
37.

Wang H, Gao C, Dantona C, Hull B, Sun J. DRG-LLaMA: ajuste del modelo LLaMA para predecir el grupo relacionado con el diagnóstico para pacientes hospitalizados.   NPJ Digit Med . 2024;7(1):16. doi: 10.1038/s41746-023-00989-3 PubMedGoogle AcadémicoReferencia cruzada
38.

Luykx JJ, Gerritse F, Habets PC, Vinkers CH. El rendimiento de ChatGPT en la generación de respuestas a preguntas clínicas en psiquiatría: una evaluación de dos niveles.   World Psychiatry . 2023;22(3):479-480. doi: 10.1002/wps.21145 PubMedGoogle AcadémicoReferencia cruzada
39.

Chen S, Li Y, Lu S, et al. Evaluación de la familia de modelos ChatGPT para el razonamiento y la clasificación biomédica.   J Am Med Inform Assoc . 2024;31(4):940-948. doi: 10.1093/jamia/ocad256 PubMedGoogle AcadémicoReferencia cruzada
40.

Ge J, Li M, Delk MB, Lai JC. Comparación de un modelo de lenguaje amplio frente a una revisión manual de historias clínicas para la extracción de elementos de datos de la historia clínica electrónica.   Gastroenterología . 2024;166(4):707-709.e3. doi: 10.1053/j.gastro.2023.12.019 PubMedGoogle AcadémicoReferencia cruzada
41.

Sarangi PK, Lumbani A, Swarup MS, et al. Evaluación de la capacidad de ChatGPT para simplificar los informes radiológicos para profesionales sanitarios y pacientes.   Cureus . 2023;15(12):e50881. doi: 10.7759/cureus.50881 PubMedGoogle AcadémicoReferencia cruzada
42.

Lin CY. ROUGE: un paquete para la evaluación automática de resúmenes. Antología ACL. Publicado el 1 de julio de 2004. Consultado el 1 de octubre de 2024. https://aclanthology.org/W04-1013/
43.

Yim WW, Fu Y, Ben Abacha A, Snider N, Lin T, Yetisgen M. Aci-bench: un nuevo conjunto de datos de inteligencia clínica ambiental para la evaluación comparativa de la generación automática de notas de visitas.   Sci Data . 2023;10(1):586. doi: 10.1038/s41597-023-02487-3 PubMedGoogle AcadémicoReferencia cruzada
44.

Zhong M, Liu Y, Yin D, et al. Hacia un evaluador multidimensional unificado para la generación de texto.  arXiv . Preimpresión publicada en línea el 1 de enero de 2022. /arXiv.2210.07197 doi: 10.18653/v1/2022.emnlp-main.131
45.

Xie Y, Zhang S, Cheng H, et al. DOCLENS: evaluación detallada multiaspecto para la generación de textos médicos.  arXiv . Preimpresión publicada en línea el 16 de noviembre de 2023. doi: 10.18653/v1/2024.acl-long.39
46.

Organización Mundial de la Salud. Ética y gobernanza de la inteligencia artificial para la salud: orientación sobre modelos multimodales de gran escala. Publicado el 18 de enero de 2024. Consultado el 18 de marzo de 2024. https://www.who.int/publications/i/item/9789240084759
47.

La Casa Blanca. Orden ejecutiva sobre el desarrollo y uso seguro, protegido y confiable de la inteligencia artificial. Publicada el 30 de octubre de 2023. Consultada el 18 de marzo de 2024. https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
48.

Coalición para la IA en el ámbito de la salud. Plan de acción para la implementación y garantía de una IA fiable para la atención sanitaria . Publicado el 4 de abril de 2023. Consultado el 13 de marzo de 2024. https://coalitionforhealthai.org/papers/blueprint-for-trustworthy-ai_V1.0.pdf
49.

Savage T, Wang J, Shieh L. Una herramienta de detección de modelos de lenguaje de gran tamaño para orientar a los pacientes a las alertas de mejores prácticas: desarrollo y validación.   JMIR Med Inform . 2023;11:e49886. doi: 10.2196/49886 PubMedGoogle AcadémicoReferencia cruzada
50.

Surapaneni KM. Evaluación del rendimiento de ChatGPT en bioquímica médica mediante viñetas de casos clínicos: estudio observacional.   JMIR Med Educ . 2023;9:e47191. doi: 10.2196/47191 PubMedGoogle AcadémicoReferencia cruzada
51.

Choi HS, Song JY, Shin KH, Chang JH y Jang BS. Desarrollo de indicaciones a partir de un modelo de lenguaje amplio para extraer información clínica de informes de patología y ecografía en cáncer de mama.   Radiat Oncol J. 2023;41(3):209-216. doi: 10.3857/roj.2023.00633 PubMedGoogle AcadémicoReferencia cruzada
52.

Fleming SL, Lozano A, Haberkorn WJ, et al. MedAlign: un conjunto de datos generado por médicos para el seguimiento de instrucciones con registros médicos electrónicos.   Proc Conf AAAI Artif Intell . 2024;38(20):22021-22030. doi: 10.1609/aaai.v38i20.30205 Google AcadémicoReferencia cruzada
53.

Hager P, Jungmann F, Holland R, et al. Evaluación y mitigación de las limitaciones de los modelos de lenguaje de gran tamaño en la toma de decisiones clínicas.   Nat Med . 2024;30(9):2613-2622. doi: 10.1038/s41591-024-03097-1 PubMedGoogle AcadémicoReferencia cruzada
54.

Bedi S, Jain SS, Shah NH. Evaluación de los beneficios clínicos de los LLM.   Nat Med . 2024;30(9):2409-2410. doi: 10.1038/s41591-024-03181-6 PubMedGoogle AcadémicoReferencia cruzada
55.

 Datos sanitarios, tecnología e interoperabilidad: actualizaciones de programas de certificación, transparencia de algoritmos y compartición de información.   Fed Regist . 2024;89(6):1192-1438.Google Académico
56.

Gilson A, Safranek CW, Huang T, et al. ¿Cómo se desempeña ChatGPT en el examen de licencia médica de los Estados Unidos (USMLE)? Las implicaciones de los modelos de lenguaje grandes para la educación médica y la evaluación del conocimiento.   JMIR Med Educ . 2023;9:e45312. doi: 10.2196/45312 PubMedGoogle AcadémicoReferencia cruzada
57.

Heuer AJ. Más evidencia de que la carga administrativa de la atención sanitaria es real, generalizada y tiene graves consecuencias. Comentario sobre “Carga percibida debido a los registros para el control y la mejora de la calidad en los hospitales: un estudio de métodos mixtos”.   Int J Health Policy Manag . 2022;11(4):536-538.PubMedGoogle Académico
58.

Heston TF. Seguridad de los modelos de lenguaje amplios para abordar la depresión.   Cureus . 2023;15(12):e50729. doi: 10.7759/cureus.50729 PubMedGoogle AcadémicoReferencia cruzada
59.

Pushpanathan K, Lim ZW, Er Yew SM, et al. Precisión, exhaustividad y autoconciencia de los chatbots de modelos de lenguaje populares a gran escala para responder consultas sobre síntomas oculares.   iScience . 2023;26(11):108163. doi: 10.1016/j.isci.2023.108163 PubMedGoogle AcadémicoReferencia cruzada
60.

Garcia P, Ma SP, Shah S, et al. Borradores de respuestas a mensajes de la bandeja de entrada de pacientes generados mediante inteligencia artificial.   JAMA Netw Open . 2024;7(3):e243201. doi: 10.1001/jamanetworkopen.2024.3201
ArtículoPubMedGoogle AcadémicoReferencia cruzada
61.

Currie G, Barry K. ChatGPT en la educación en medicina nuclear.   J Nucl Med Technol . 2023;51(3):247-254. doi: 10.2967/jnmt.123.265844 PubMedGoogle AcadémicoReferencia cruzada
62.

Zhang L, Tashiro S, Mukaino M, Yamada S. Uso de modelos de lenguaje grandes de inteligencia artificial como herramienta clínica en medicina de rehabilitación: un caso de prueba comparativo.   J Rehabil Med . 2023;55:jrm13373-jrm13373. doi: 10.2340/jrm.v55.13373PubMedGoogle AcadémicoReferencia cruzada
63.

Walton N, Gracefo S, Sutherland N, et al. Evaluación de ChatGPT como agente para brindar educación genética.   bioRxiv . Preimpresión publicada en línea el 29 de octubre de 2023. doi: 10.1101/2023.10.25.564074 Google ScholarReferencia cruzada
64.

Chin HL, Goh DLM. Errores en la genética clínica.   Singapore Med J. 2023;64(1):53-58. doi: 10.4103/singaporemedj.SMJ-2021-329 PubMedGoogle AcadémicoReferencia cruzada
65.

Sahni NR, Stein G, Zemmel R, Cutler D. El impacto potencial de la inteligencia artificial en el gasto en atención médica. Oficina Nacional de Investigación Económica. Publicado el 1 de enero de 2023. Consultado el 26 de marzo de 2024. https://www.nber.org/system/files/working_papers/w30857/w30857.pdf
66.

Sahni NR, Carrus B. Inteligencia artificial en la prestación de servicios de salud en EE. UU.   N Engl J Med . 2023;389(4):348-358. doi: 10.1056/NEJMra2204673 PubMedGoogle AcadémicoReferencia cruzada
67.

Jindal JA, Lungren MP, Shah NH. Garantizar la adopción útil de la inteligencia artificial generativa en la atención sanitaria.   J Am Med Inform Assoc . 2024;31(6):1441-1444. doi: 10.1093/jamia/ocae043 PubMedGoogle AcadémicoReferencia cruzada
68.

Rau A, Rau S, Zoeller D, et al. Un chatbot basado en el contexto supera a los radiólogos capacitados y al ChatGPT genérico en el seguimiento de las pautas de idoneidad de la ACR.   Radiología . 2023;308(1):e230970. doi: 10.1148/radiol.230970 PubMedGoogle AcadémicoReferencia cruzada
69.

Omiye JA, Lester JC, Spichak S, Rotemberg V y Daneshjou R. Los modelos de lenguaje amplios propagan la medicina basada en la raza.   NPJ Digit Med . 2023;6(1):195. doi: 10.1038/s41746-023-00939-z PubMedGoogle AcadémicoReferencia cruzada
70.

Acerbi A, Stubbersfield JM. Los modelos de lenguaje de gran tamaño muestran sesgos de contenido similares a los humanos en experimentos de cadena de transmisión.   Proc Natl Acad Sci USA . 2023;120(44):e2313790120. doi: 10.1073/pnas.2313790120 PubMedGoogle AcadémicoReferencia cruzada
71.

Guleria A, Krishan K, Sharma V y Kanchan T. ChatGPT: preocupaciones y desafíos éticos en el ámbito académico y de la investigación.   J Infect Dev Ctries . 2023;17(9):1292-1299. doi: 10.3855/jidc.18738 PubMedGoogle AcadémicoReferencia cruzada
72.

Hanna JJ, Wakene AD, Lehmann CU, et al. Evaluación del sesgo racial y étnico en la generación de textos para tareas relacionadas con la atención médica mediante ChatGPT.   medRxiv . Preimpresión publicada en línea el 28 de agosto de 2023. doi: 10.1101/2023.08.28.23294730Google ScholarReferencia cruzada
73.

Levkovich I, Elyoseph Z. Evaluaciones del riesgo de suicidio a través de los ojos de ChatGPT-3.5 versus ChatGPT-4: estudio de viñetas.   JMIR Ment Health . 2023;10(1):e51232. doi: 10.2196/51232 PubMedGoogle AcadémicoReferencia cruzada
74.

Heming CAM, Abdalla M, Mohanna S, et al. Evaluación comparativa del sesgo: ampliación de la ficha del modelo de IA clínica para incorporar informes de sesgo de factores sociales y no sociales.  arXiv . Preimpresión publicada en línea el 2 de julio de 2024. https://doi.org/10.48550/arXiv.2311.12560
75.

Thomas D. Revolucionando el análisis de modos y efectos de falla con ChatGPT: liberando el poder de los modelos de lenguaje de IA.   J Fail Anal Prev . 2023;23:911-913. doi: 10.1007/s11668-023-01659-yGoogle AcadémicoReferencia cruzada
76.

Administración de Alimentos y Medicamentos de EE. UU. Panel público del Sistema de notificación de eventos adversos (FAERS) de la FDA. 12 de diciembre de 2023. Consultado el 18 de marzo de 2024. https://www.fda.gov/drugs/questions-and-answers-fdas-adverse-event-reporting-system-faers/fda-adverse-event-reporting-system-faers-public-dashboard
77.

Administración de Alimentos y Medicamentos de los Estados Unidos. Base de datos de experiencia de usuario y fabricante de dispositivos (MAUDE). Consultado el 18 de marzo de 2024. https://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfmaude/search.cfm
78.

Galido PV, Butala S, Chakerian M, Agustines D. Un estudio de caso que demuestra las aplicaciones de ChatGPT en el tratamiento clínico de la esquizofrenia resistente al tratamiento.   Cureus . 2023;15(4):e38166. doi: 10.7759/cureus.38166PubMedGoogle AcadémicoReferencia cruzada
Para ver el artículo original, cliquear aquí
Previous Post

Conectando el derecho a la salud y el anti-extractivismo a nivel mundial

Next Post

La captura de expertos: Enseñanzas del experimento Tuskegee

gonzalo

gonzalo

Next Post
La captura de expertos: Enseñanzas del experimento Tuskegee

La captura de expertos: Enseñanzas del experimento Tuskegee

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Stay Connected test

  • 23.9k Followers
  • 99 Subscribers
  • Trending
  • Comments
  • Latest
Los CDC eliminan las referencias de género y equidad en el material de salud pública

Los CDC eliminan las referencias de género y equidad en el material de salud pública

9 febrero, 2025
La vacunación repetida contra la COVID-19 como factor de mal pronóstico en el cáncer de páncreas: un estudio de cohorte retrospectivo de un solo centro

La vacunación repetida contra la COVID-19 como factor de mal pronóstico en el cáncer de páncreas: un estudio de cohorte retrospectivo de un solo centro

18 junio, 2025
¿Qué podemos esperar del sueño de los monstruos?

¿Qué podemos esperar del sueño de los monstruos?

24 octubre, 2025
Geopolítica y resistencias: ¿qué determinación social y qué salud en qué mundo?

Geopolítica y resistencias: ¿qué determinación social y qué salud en qué mundo?

9 diciembre, 2024

¡Hola mundo!

1
¿Qué podemos esperar del sueño de los monstruos?

¿Qué podemos esperar del sueño de los monstruos?

1

The Legend of Zelda: Breath of the Wild gameplay on the Nintendo Switch

0

Shadow Tactics: Blades of the Shogun Review

0
¿Por qué no debe aprobarse Acuerdo Mercosur–Unión Europea? Capítulo Propiedad Intelectual su impacto en el Acceso a Medicamentos y Tecnologías Sanitarias.

¿Por qué no debe aprobarse Acuerdo Mercosur–Unión Europea? Capítulo Propiedad Intelectual su impacto en el Acceso a Medicamentos y Tecnologías Sanitarias.

28 enero, 2026
Hombre asesinado en Minneapolis por agentes federales identificado como el enfermero de VA Alex Pretti: ‘Quería ayudar a la gente’

Hombre asesinado en Minneapolis por agentes federales identificado como el enfermero de VA Alex Pretti: ‘Quería ayudar a la gente’

24 enero, 2026
Psiques desenfrenadas para un capitalismo desenfrenado

Psiques desenfrenadas para un capitalismo desenfrenado

19 enero, 2026
Alimentos ultraprocesados ​​y salud humana: la tesis principal y la evidencia

Alimentos ultraprocesados ​​y salud humana: la tesis principal y la evidencia

9 enero, 2026

Recent News

¿Por qué no debe aprobarse Acuerdo Mercosur–Unión Europea? Capítulo Propiedad Intelectual su impacto en el Acceso a Medicamentos y Tecnologías Sanitarias.

¿Por qué no debe aprobarse Acuerdo Mercosur–Unión Europea? Capítulo Propiedad Intelectual su impacto en el Acceso a Medicamentos y Tecnologías Sanitarias.

28 enero, 2026
Hombre asesinado en Minneapolis por agentes federales identificado como el enfermero de VA Alex Pretti: ‘Quería ayudar a la gente’

Hombre asesinado en Minneapolis por agentes federales identificado como el enfermero de VA Alex Pretti: ‘Quería ayudar a la gente’

24 enero, 2026
Psiques desenfrenadas para un capitalismo desenfrenado

Psiques desenfrenadas para un capitalismo desenfrenado

19 enero, 2026
Alimentos ultraprocesados ​​y salud humana: la tesis principal y la evidencia

Alimentos ultraprocesados ​​y salud humana: la tesis principal y la evidencia

9 enero, 2026
  • Quienes somos
  • Difusiones
  • Eventos

No Result
View All Result