De la imagen médica al diseño de fármacos: cómo los algoritmos están transformando la práctica clínica y la investigación biomédica
La medicina es quizás el dominio donde la inteligencia artificial tiene el mayor potencial para mejorar vidas humanas, y también donde los errores tienen consecuencias más graves. Un modelo de IA que recomienda una película incorrecta genera frustración; uno que diagnostica incorrectamente un cáncer puede costar una vida. Esta tensión entre potencial transformador y responsabilidad clínica define toda la discusión sobre IA en salud.
Los números, sin embargo, son difíciles de ignorar. Más de 400.000 personas mueren anualmente en Estados Unidos por errores médicos evitables, convirtiéndolo en la tercera causa de muerte. Los radiólogos, dermatólogos y patólogos examinan decenas de miles de imágenes a lo largo de sus carreras, pero sus tasas de error son significativamente altas cuando trabajan con fatiga. Los sistemas de IA no se cansan, no tienen días malos, y su "entrenamiento" puede incluir millones de casos que ningún clínico individual podría examinar en toda su vida profesional.
En enero de 2020, la revista Nature publicó un estudio que generó titulares en todo el mundo: un sistema de IA desarrollado por Google Health detectó cáncer de mama en mamografías con una tasa de precisión superior a la de los radiólogos humanos, encontrando un 11,5% más de cánceres que el panel de expertos, y reduciendo simultáneamente los falsos positivos en un 5,7%. El estudio fue realizado sobre más de 91.000 mujeres en Reino Unido y Estados Unidos, con rigor metodológico que lo hace difícilmente descartable.
La implicación práctica es enorme: en muchos países la escasez de radiólogos especializados en mamografía limita los programas de detección temprana. Un sistema de IA que puede hacer el primer cribado y priorizar los casos que requieren atención humana inmediata podría acelerar dramáticamente los programas de detección en países con menor densidad de especialistas, incluyendo buena parte de América Latina.
La retinopatía diabética es la principal causa de ceguera en adultos en edad laboral. Su detección temprana mediante fotografía del fondo de ojo es efectiva, pero requiere oftalmólogos especializados escasos en zonas rurales o de bajos recursos. El sistema IDx-DR de Digital Diagnostics fue el primer dispositivo de diagnóstico autónomo de IA aprobado por la FDA en 2018. El ensayo clínico de validación mostró una sensibilidad del 87,2% y una especificidad del 90,7% para detectar retinopatía diabética de grado moderado o superior, superando el umbral del 85% requerido por la FDA.
Google ha desplegado su sistema de detección de retinopatía en clínicas en la India y Tailandia, donde la escasez de oftalmólogos es crítica. En zonas rurales de Karnataka (India), el sistema permitió evaluar a miles de pacientes diabéticos que de otra forma no habrían tenido acceso a diagnóstico especializado.
En 2017, un equipo de Stanford publicó en Nature un estudio que comparaba un clasificador de CNN (Convolutional Neural Network) con 21 dermatólogos certificados en la clasificación de lesiones cutáneas potencialmente malignas. El sistema de IA alcanzó un nivel de competencia comparable al dermatólogo promedio en la clasificación de carcinomas y melanomas. La herramienta fue entrenada con 129.450 imágenes clínicas y 2.032 enfermedades distintas.
El problema del plegamiento de proteínas fue planteado como uno de los grandes desafíos de la biología en la década de 1960: dado que la función de una proteína depende de su estructura tridimensional, y que esta estructura depende de su secuencia de aminoácidos, ¿podemos predecir la forma que adoptará una proteína a partir de su secuencia genética? Durante cincuenta años, investigadores de todo el mundo trabajaron en este problema utilizando métodos experimentales como la cristalografía de rayos X o la criomicroscopía electrónica, técnicas costosas, lentas y que a menudo tardan años para una sola proteína.
En 2021, AlphaFold2 de DeepMind resolvió el problema con una precisión sin precedentes, logrando predicciones de estructuras proteínicas a nivel atómico comparables a los métodos experimentales. En el benchmark CASP14 (Critical Assessment of protein Structure Prediction), AlphaFold2 obtuvo una puntuación media GDT de 92,4 sobre 100, muy por encima del segundo clasificado con 75. Esto representó un salto cualitativo, no incremental, en el estado del arte.
La consecuencia práctica fue inmediata: DeepMind publicó las estructuras de más de 200 millones de proteínas —prácticamente todos los organismos conocidos— en una base de datos de acceso libre. Lo que habría requerido décadas de trabajo experimental se completó en meses. Los investigadores de fármacos ahora pueden comenzar el diseño de moléculas con el conocimiento de la estructura objetivo, acelerando dramáticamente las primeras etapas del descubrimiento de medicamentos.
Encontrar que un fármaco existente —ya probado en humanos— puede tratar una enfermedad diferente a la original reduce dramáticamente el tiempo y costo de desarrollo. La IA acelera este proceso al analizar redes de interacciones proteína-proteína, bases de datos de efectos secundarios, literaturas biomédicas y perfiles de expresión génica.
La sepsis —respuesta inflamatoria sistémica a una infección— mata a más de 250.000 pacientes anuales en Estados Unidos y su mortalidad aumenta un 7% por cada hora de retraso en el tratamiento. Epic Systems desarrolló el modelo de alerta de sepsis más extendido en hospitales estadounidenses, que analiza continuamente las constantes vitales, resultados de laboratorio y notas de enfermería para predecir qué pacientes están en riesgo 6 a 12 horas antes de la manifestación clínica clásica. Sin embargo, el modelo de Epic fue objeto de una evaluación independiente publicada en JAMA Internal Medicine en 2021 que encontró que su sensibilidad real era de solo el 33%, muy inferior a la reportada en los materiales de marketing. Este caso ilustra la crítica importancia de la validación externa independiente antes del despliegue clínico.
Los sistemas de alerta temprana de deterioro monitorizan continuamente a los pacientes hospitalizados y alertan al personal cuando un paciente está evolucionando desfavorablemente. El sistema InSight de Dascena, validado en un ensayo controlado en el Johns Hopkins Hospital, redujo la mortalidad en pacientes de UCI en un 16% relativo. El sistema de Philips EarlyVue integra 34 variables vitales y de laboratorio y genera alertas hasta 8 horas antes de un evento adverso.
El 80% de la información clínica relevante en los registros de salud electrónicos (EHR por sus siglas en inglés) existe en texto no estructurado: notas de progreso, resúmenes de alta, informes de interconsultas, cartas a médicos de familia. Esta información es invisible para los sistemas analíticos tradicionales, que solo pueden procesar datos estructurados en campos estandarizados.
Los modelos de PLN (Procesamiento de Lenguaje Natural) especializados en texto clínico —como ClinicalBERT, BioBERT o los modelos propietarios de Epic y Cerner— pueden extraer automáticamente diagnósticos, medicaciones, alergias, determinantes sociales de salud (situación de vivienda, empleo, seguridad alimentaria) y factores de riesgo de las notas de los clínicos. Esto permite:
El sistema quirúrgico da Vinci de Intuitive Surgical no es IA en el sentido estricto —el cirujano controla cada movimiento— pero es la plataforma robótica más extendida en cirugía: más de 1,5 millones de procedimientos al año en 67 países, con ingresos para la empresa de más de 6.000 millones de dólares anuales. Sus brazos robóticos filtran el temblor de mano, escalan los movimientos del cirujano y ofrecen visión 3D magnificada en el campo operatorio. La IA se integra progresivamente para reconocimiento de estructuras anatómicas, alertas de proximidad a estructuras críticas y análisis de datos intraoperatorios.
El sistema Mako de Stryker utiliza TC preoperatorio y modelos 3D para planificar el reemplazo de rodilla o cadera con precisión milimétrica. Durante la cirugía, el sistema monitoriza la posición del instrumental en tiempo real y proporciona retroalimentación háptica (resistencia táctil) cuando el cirujano se aproxima a los límites predefinidos del plan quirúrgico. Los estudios clínicos muestran reducción del 40% en la variación de alineación del implante comparado con cirugía convencional.
El proyecto del Genoma Humano costó 3.000 millones de dólares y tardó 13 años en completarse (1990-2003). Hoy, secuenciar un genoma completo cuesta menos de 1.000 dólares y tarda días. La cantidad de datos genómicos disponibles ha crecido de forma explosiva, pero el desafío es encontrar las variantes genéticas relevantes entre los 3.200 millones de pares de bases del genoma humano.
En oncología, los modelos de ML analizan el perfil mutacional del tumor de un paciente para predecir qué terapia —quimioterapia, inmunoterapia, terapia dirigida— tendrá mayor probabilidad de respuesta y menor toxicidad. Foundation Medicine ofrece paneles genómicos comprehensivos para más de 300 genes relevantes en cáncer, con análisis computacional que genera recomendaciones de tratamiento para el oncólogo. Los ensayos del programa NCI-MATCH muestran que la selección de tratamiento guiada por genómica puede beneficiar al 10-15% de los pacientes con tumores sólidos refractarios.
Woebot es un chatbot de terapia cognitivo-conductual desarrollado por investigadores de Stanford. En un ensayo controlado aleatorizado publicado en JMIR Mental Health en 2017, los estudiantes universitarios asignados a Woebot mostraron reducciones significativas en síntomas de depresión y ansiedad medidos por el PHQ-9 tras dos semanas de uso, comparado con el grupo control. Si bien el efecto fue modesto y el seguimiento breve, el potencial de acceso —Woebot puede atender a millones de usuarios simultáneamente, sin listas de espera— es relevante en un mundo donde el 50% de personas con trastornos mentales no reciben ningún tratamiento.
| Vía regulatoria | Descripción | Ejemplo |
|---|---|---|
| 510(k) Pre-market Notification | Demostrar equivalencia sustancial con un predicado ya aprobado | Software de análisis de ECG equivalente a lectores anteriores |
| De Novo | Nueva clase de dispositivo sin predicado; FDA crea una nueva categoría regulatoria | IDx-DR (retinopatía diabética), primer dispositivo de IA autónomo aprobado |
| PMA (Pre-market Approval) | Mayor nivel de evidencia; para dispositivos de alto riesgo | Software de diagnóstico autónomo de clase III |
| SaMD (Software as Medical Device) | Marco internacional (IMDRF) para software médico independiente de hardware | Aplicaciones de diagnóstico móvil |
Un estudio publicado en el New England Journal of Medicine en 2020 documentó que los pulsioxímetros —dispositivos que miden la saturación de oxígeno en sangre— sobreestiman consistentemente la saturación en pacientes con piel oscura porque los algoritmos de calibración fueron desarrollados principalmente con datos de personas de piel clara. Durante la pandemia de COVID-19, esto resultó en que pacientes afroamericanos e hispanos llegaron a cuidados intensivos con hipoxemia más grave porque sus lecturas de oxígeno aparentaban ser más altas de lo real, retrasando la escalada de tratamiento.
Un modelo entrenado en datos del Massachusetts General Hospital puede no funcionar igualmente bien en el Hospital General de México o en el Hospital Público de Bogotá. Las diferencias en equipos de imagen, protocolos clínicos, prevalencia de enfermedades y características demográficas de las poblaciones pueden degradar significativamente el rendimiento de un modelo entrenado en otro contexto. La validación local antes del despliegue es una necesidad, no un lujo.
El desarrollo de modelos de IA en salud requiere grandes volúmenes de datos de pacientes. En Estados Unidos, la Health Insurance Portability and Accountability Act (HIPAA) regula el uso de datos de salud; en Europa, el GDPR añade capas adicionales de protección. La federated learning —donde los modelos se entrenan localmente en cada hospital sin que los datos de pacientes salgan del centro— es una de las soluciones técnicas más prometedoras, pero aún en etapas tempranas de adopción hospitalaria.
Si un sistema de IA comete un error diagnóstico, ¿quién es responsable? ¿El fabricante del software? ¿El médico que confió en su recomendación? ¿El hospital que lo adquirió? Esta pregunta sin respuesta legal clara desincentiva la adopción. La tendencia regulatoria es hacia responsabilidad compartida, con el médico manteniendo la responsabilidad última de las decisiones clínicas, mientras el fabricante responde por la performance documentada del dispositivo.