Inteligencia Artificial · Capítulo 11

IA en la Salud: Revolucionando el Diagnóstico y el Tratamiento

De la imagen médica al diseño de fármacos: cómo los algoritmos están transformando la práctica clínica y la investigación biomédica

Introducción: La Promesa y la Responsabilidad

La medicina es quizás el dominio donde la inteligencia artificial tiene el mayor potencial para mejorar vidas humanas, y también donde los errores tienen consecuencias más graves. Un modelo de IA que recomienda una película incorrecta genera frustración; uno que diagnostica incorrectamente un cáncer puede costar una vida. Esta tensión entre potencial transformador y responsabilidad clínica define toda la discusión sobre IA en salud.

Los números, sin embargo, son difíciles de ignorar. Más de 400.000 personas mueren anualmente en Estados Unidos por errores médicos evitables, convirtiéndolo en la tercera causa de muerte. Los radiólogos, dermatólogos y patólogos examinan decenas de miles de imágenes a lo largo de sus carreras, pero sus tasas de error son significativamente altas cuando trabajan con fatiga. Los sistemas de IA no se cansan, no tienen días malos, y su "entrenamiento" puede incluir millones de casos que ningún clínico individual podría examinar en toda su vida profesional.

Diagnóstico por Imagen: Ver lo que el Ojo Humano Pierde

Detección de cáncer de mama

En enero de 2020, la revista Nature publicó un estudio que generó titulares en todo el mundo: un sistema de IA desarrollado por Google Health detectó cáncer de mama en mamografías con una tasa de precisión superior a la de los radiólogos humanos, encontrando un 11,5% más de cánceres que el panel de expertos, y reduciendo simultáneamente los falsos positivos en un 5,7%. El estudio fue realizado sobre más de 91.000 mujeres en Reino Unido y Estados Unidos, con rigor metodológico que lo hace difícilmente descartable.

La implicación práctica es enorme: en muchos países la escasez de radiólogos especializados en mamografía limita los programas de detección temprana. Un sistema de IA que puede hacer el primer cribado y priorizar los casos que requieren atención humana inmediata podría acelerar dramáticamente los programas de detección en países con menor densidad de especialistas, incluyendo buena parte de América Latina.

Retinopatía diabética

La retinopatía diabética es la principal causa de ceguera en adultos en edad laboral. Su detección temprana mediante fotografía del fondo de ojo es efectiva, pero requiere oftalmólogos especializados escasos en zonas rurales o de bajos recursos. El sistema IDx-DR de Digital Diagnostics fue el primer dispositivo de diagnóstico autónomo de IA aprobado por la FDA en 2018. El ensayo clínico de validación mostró una sensibilidad del 87,2% y una especificidad del 90,7% para detectar retinopatía diabética de grado moderado o superior, superando el umbral del 85% requerido por la FDA.

Google ha desplegado su sistema de detección de retinopatía en clínicas en la India y Tailandia, donde la escasez de oftalmólogos es crítica. En zonas rurales de Karnataka (India), el sistema permitió evaluar a miles de pacientes diabéticos que de otra forma no habrían tenido acceso a diagnóstico especializado.

Clasificación de lesiones cutáneas

En 2017, un equipo de Stanford publicó en Nature un estudio que comparaba un clasificador de CNN (Convolutional Neural Network) con 21 dermatólogos certificados en la clasificación de lesiones cutáneas potencialmente malignas. El sistema de IA alcanzó un nivel de competencia comparable al dermatólogo promedio en la clasificación de carcinomas y melanomas. La herramienta fue entrenada con 129.450 imágenes clínicas y 2.032 enfermedades distintas.

    Resultados comparativos en diagnóstico por imagen (selección de estudios):
    Mamografía: +11,5% detección vs. radiólogos, -5,7% falsos positivos (Google Health, Nature 2020)
Retinopatía diabética: 90%+ sensibilidad y especificidad (IDx-DR, FDA 2018)
Melanoma: rendimiento al nivel del dermatólogo certificado (Stanford, Nature 2017)
COVID-19 en radiografía de tórax: 96% precisión en 10 segundos (NIH dataset, 2020)
Fractura vertebral osteoporótica: 65% más detecciones vs. radiología rutinaria (Imagen AI, 2021)

  

AlphaFold2: La Revolución del Plegamiento de Proteínas

El problema del plegamiento de proteínas fue planteado como uno de los grandes desafíos de la biología en la década de 1960: dado que la función de una proteína depende de su estructura tridimensional, y que esta estructura depende de su secuencia de aminoácidos, ¿podemos predecir la forma que adoptará una proteína a partir de su secuencia genética? Durante cincuenta años, investigadores de todo el mundo trabajaron en este problema utilizando métodos experimentales como la cristalografía de rayos X o la criomicroscopía electrónica, técnicas costosas, lentas y que a menudo tardan años para una sola proteína.

En 2021, AlphaFold2 de DeepMind resolvió el problema con una precisión sin precedentes, logrando predicciones de estructuras proteínicas a nivel atómico comparables a los métodos experimentales. En el benchmark CASP14 (Critical Assessment of protein Structure Prediction), AlphaFold2 obtuvo una puntuación media GDT de 92,4 sobre 100, muy por encima del segundo clasificado con 75. Esto representó un salto cualitativo, no incremental, en el estado del arte.

La consecuencia práctica fue inmediata: DeepMind publicó las estructuras de más de 200 millones de proteínas —prácticamente todos los organismos conocidos— en una base de datos de acceso libre. Lo que habría requerido décadas de trabajo experimental se completó en meses. Los investigadores de fármacos ahora pueden comenzar el diseño de moléculas con el conocimiento de la estructura objetivo, acelerando dramáticamente las primeras etapas del descubrimiento de medicamentos.

Reposicionamiento de Fármacos con ML

Encontrar que un fármaco existente —ya probado en humanos— puede tratar una enfermedad diferente a la original reduce dramáticamente el tiempo y costo de desarrollo. La IA acelera este proceso al analizar redes de interacciones proteína-proteína, bases de datos de efectos secundarios, literaturas biomédicas y perfiles de expresión génica.

Caso: Benevolent AI y baricitinib para COVID-19
En febrero de 2020, cuando el SARS-CoV-2 comenzaba a extenderse globalmente, la empresa Benevolent AI utilizó su plataforma de ML para analizar mecanismos de entrada viral y encontrar candidatos farmacológicos existentes que pudieran interferir con ellos. En 48 horas, el algoritmo identificó baricitinib —un fármaco aprobado para artritis reumatoide— como candidato prometedor por su capacidad de inhibir la quinasa AAK1, que el virus usa para entrar en células. El artículo fue publicado en The Lancet Infectious Diseases en marzo de 2020. En 2021, la FDA aprobó baricitinib para el tratamiento de COVID-19 hospitalizado grave, el primer medicamento específicamente identificado por IA para la pandemia.

Soporte a la Decisión Clínica

Predicción de sepsis

La sepsis —respuesta inflamatoria sistémica a una infección— mata a más de 250.000 pacientes anuales en Estados Unidos y su mortalidad aumenta un 7% por cada hora de retraso en el tratamiento. Epic Systems desarrolló el modelo de alerta de sepsis más extendido en hospitales estadounidenses, que analiza continuamente las constantes vitales, resultados de laboratorio y notas de enfermería para predecir qué pacientes están en riesgo 6 a 12 horas antes de la manifestación clínica clásica. Sin embargo, el modelo de Epic fue objeto de una evaluación independiente publicada en JAMA Internal Medicine en 2021 que encontró que su sensibilidad real era de solo el 33%, muy inferior a la reportada en los materiales de marketing. Este caso ilustra la crítica importancia de la validación externa independiente antes del despliegue clínico.

Alertas de deterioro

Los sistemas de alerta temprana de deterioro monitorizan continuamente a los pacientes hospitalizados y alertan al personal cuando un paciente está evolucionando desfavorablemente. El sistema InSight de Dascena, validado en un ensayo controlado en el Johns Hopkins Hospital, redujo la mortalidad en pacientes de UCI en un 16% relativo. El sistema de Philips EarlyVue integra 34 variables vitales y de laboratorio y genera alertas hasta 8 horas antes de un evento adverso.

PLN en Registros de Salud Electrónicos

El 80% de la información clínica relevante en los registros de salud electrónicos (EHR por sus siglas en inglés) existe en texto no estructurado: notas de progreso, resúmenes de alta, informes de interconsultas, cartas a médicos de familia. Esta información es invisible para los sistemas analíticos tradicionales, que solo pueden procesar datos estructurados en campos estandarizados.

Los modelos de PLN (Procesamiento de Lenguaje Natural) especializados en texto clínico —como ClinicalBERT, BioBERT o los modelos propietarios de Epic y Cerner— pueden extraer automáticamente diagnósticos, medicaciones, alergias, determinantes sociales de salud (situación de vivienda, empleo, seguridad alimentaria) y factores de riesgo de las notas de los clínicos. Esto permite:

Identificar pacientes elegibles para ensayos clínicos sin revisión manual de miles de historiales
Detectar automáticamente complicaciones no codificadas que afectan a los indicadores de calidad hospitalaria
Generar resúmenes automáticos de hospitalizaciones para el médico de cabecera
Vigilancia epidemiológica en tiempo real detectando clusters de síntomas inusuales

IA en Cirugía: Planificación y Asistencia Robótica

Da Vinci: cirugía mínimamente invasiva a escala

El sistema quirúrgico da Vinci de Intuitive Surgical no es IA en el sentido estricto —el cirujano controla cada movimiento— pero es la plataforma robótica más extendida en cirugía: más de 1,5 millones de procedimientos al año en 67 países, con ingresos para la empresa de más de 6.000 millones de dólares anuales. Sus brazos robóticos filtran el temblor de mano, escalan los movimientos del cirujano y ofrecen visión 3D magnificada en el campo operatorio. La IA se integra progresivamente para reconocimiento de estructuras anatómicas, alertas de proximidad a estructuras críticas y análisis de datos intraoperatorios.

Mako en cirugía ortopédica

El sistema Mako de Stryker utiliza TC preoperatorio y modelos 3D para planificar el reemplazo de rodilla o cadera con precisión milimétrica. Durante la cirugía, el sistema monitoriza la posición del instrumental en tiempo real y proporciona retroalimentación háptica (resistencia táctil) cuando el cirujano se aproxima a los límites predefinidos del plan quirúrgico. Los estudios clínicos muestran reducción del 40% en la variación de alineación del implante comparado con cirugía convencional.

Medicina Personalizada: Genómica y ML

El proyecto del Genoma Humano costó 3.000 millones de dólares y tardó 13 años en completarse (1990-2003). Hoy, secuenciar un genoma completo cuesta menos de 1.000 dólares y tarda días. La cantidad de datos genómicos disponibles ha crecido de forma explosiva, pero el desafío es encontrar las variantes genéticas relevantes entre los 3.200 millones de pares de bases del genoma humano.

En oncología, los modelos de ML analizan el perfil mutacional del tumor de un paciente para predecir qué terapia —quimioterapia, inmunoterapia, terapia dirigida— tendrá mayor probabilidad de respuesta y menor toxicidad. Foundation Medicine ofrece paneles genómicos comprehensivos para más de 300 genes relevantes en cáncer, con análisis computacional que genera recomendaciones de tratamiento para el oncólogo. Los ensayos del programa NCI-MATCH muestran que la selección de tratamiento guiada por genómica puede beneficiar al 10-15% de los pacientes con tumores sólidos refractarios.

IA en Salud Mental

Woebot es un chatbot de terapia cognitivo-conductual desarrollado por investigadores de Stanford. En un ensayo controlado aleatorizado publicado en JMIR Mental Health en 2017, los estudiantes universitarios asignados a Woebot mostraron reducciones significativas en síntomas de depresión y ansiedad medidos por el PHQ-9 tras dos semanas de uso, comparado con el grupo control. Si bien el efecto fue modesto y el seguimiento breve, el potencial de acceso —Woebot puede atender a millones de usuarios simultáneamente, sin listas de espera— es relevante en un mundo donde el 50% de personas con trastornos mentales no reciben ningún tratamiento.

Regulación: El Proceso FDA para Dispositivos de IA

Vía regulatoria	Descripción	Ejemplo
510(k) Pre-market Notification	Demostrar equivalencia sustancial con un predicado ya aprobado	Software de análisis de ECG equivalente a lectores anteriores
De Novo	Nueva clase de dispositivo sin predicado; FDA crea una nueva categoría regulatoria	IDx-DR (retinopatía diabética), primer dispositivo de IA autónomo aprobado
PMA (Pre-market Approval)	Mayor nivel de evidencia; para dispositivos de alto riesgo	Software de diagnóstico autónomo de clase III
SaMD (Software as Medical Device)	Marco internacional (IMDRF) para software médico independiente de hardware	Aplicaciones de diagnóstico móvil

Desafíos Críticos: Lo que la IA en Salud Aún No Puede Resolver

Sesgos algorítmicos con consecuencias clínicas

Un estudio publicado en el New England Journal of Medicine en 2020 documentó que los pulsioxímetros —dispositivos que miden la saturación de oxígeno en sangre— sobreestiman consistentemente la saturación en pacientes con piel oscura porque los algoritmos de calibración fueron desarrollados principalmente con datos de personas de piel clara. Durante la pandemia de COVID-19, esto resultó en que pacientes afroamericanos e hispanos llegaron a cuidados intensivos con hipoxemia más grave porque sus lecturas de oxígeno aparentaban ser más altas de lo real, retrasando la escalada de tratamiento.

Generalización entre poblaciones

Un modelo entrenado en datos del Massachusetts General Hospital puede no funcionar igualmente bien en el Hospital General de México o en el Hospital Público de Bogotá. Las diferencias en equipos de imagen, protocolos clínicos, prevalencia de enfermedades y características demográficas de las poblaciones pueden degradar significativamente el rendimiento de un modelo entrenado en otro contexto. La validación local antes del despliegue es una necesidad, no un lujo.

Privacidad, HIPAA e interoperabilidad

El desarrollo de modelos de IA en salud requiere grandes volúmenes de datos de pacientes. En Estados Unidos, la Health Insurance Portability and Accountability Act (HIPAA) regula el uso de datos de salud; en Europa, el GDPR añade capas adicionales de protección. La federated learning —donde los modelos se entrenan localmente en cada hospital sin que los datos de pacientes salgan del centro— es una de las soluciones técnicas más prometedoras, pero aún en etapas tempranas de adopción hospitalaria.

Responsabilidad legal

Si un sistema de IA comete un error diagnóstico, ¿quién es responsable? ¿El fabricante del software? ¿El médico que confió en su recomendación? ¿El hospital que lo adquirió? Esta pregunta sin respuesta legal clara desincentiva la adopción. La tendencia regulatoria es hacia responsabilidad compartida, con el médico manteniendo la responsabilidad última de las decisiones clínicas, mientras el fabricante responde por la performance documentada del dispositivo.

Resumen del Capítulo

Los sistemas de IA en diagnóstico por imagen superan o igualan a radiólogos y dermatólogos certificados en tareas específicas: +11,5% detección de cáncer de mama (Nature 2020), 90%+ sensibilidad en retinopatía diabética.
AlphaFold2 resolvió el problema del plegamiento de proteínas de 50 años, publicando 200 millones de estructuras y acelerando el diseño de fármacos de forma radical.
El reposicionamiento de fármacos con IA (caso baricitinib/COVID-19 por Benevolent AI en 48 horas) comprime el tiempo de descubrimiento de años a días.
El PLN extrae información clínica del 80% de datos no estructurados en registros de salud electrónicos, habilitando vigilancia epidemiológica, selección de ensayos y resúmenes automáticos.
Los sesgos algorítmicos tienen consecuencias médicas reales: los pulsioxímetros sobreestiman el oxígeno en pieles oscuras (NEJM 2020), retrasando tratamientos críticos.
La regulación FDA (510k, De Novo, PMA) exige validación clínica rigurosa; los modelos deben ser revalidados en cada nueva población donde se despliegan.
La responsabilidad legal, la privacidad de datos y la falta de interoperabilidad entre sistemas son los principales obstáculos institucionales para la adopción masiva.