Cuando los algoritmos toman decisiones sobre libertad, crédito, empleo y salud, la justicia matemática no es opcional: es una obligación ética y social
Cada día, sistemas de inteligencia artificial toman o informan decisiones que afectan profundamente la vida de millones de personas: si un acusado obtiene libertad bajo fianza o permanece detenido, si una solicitud de préstamo es aprobada o rechazada, si un currículum llega a manos de un reclutador o es filtrado automáticamente, si un paciente recibe atención urgente o es enviado a casa. Estas no son decisiones triviales de recomendación de películas. Son decisiones con consecuencias reales y a menudo irreversibles.
La promesa de los algoritmos era eliminar el sesgo humano —la fatiga, el prejuicio consciente e inconsciente, la variabilidad de criterio entre decisores. La realidad documentada es más compleja: los algoritmos no eliminan el sesgo, lo automatizan y lo escalan. Un juez sesgado afecta a las personas que comparecen ante él; un algoritmo sesgado afecta a millones simultáneamente con velocidad y apariencia de objetividad matemática.
COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) es un algoritmo ampliamente usado en el sistema judicial de Estados Unidos para predecir la probabilidad de reincidencia de acusados, informando decisiones de libertad bajo fianza, sentencias y libertad condicional. En 2016, ProPublica publicó un análisis que se convirtió en referencia fundamental del campo:
Reuters reveló en octubre de 2018 que Amazon desarrolló y posteriormente descartó un sistema de IA para screening de currículums. El sistema fue entrenado sobre una década de contrataciones históricas de Amazon —predominantemente masculinas en roles de ingeniería— y aprendió a penalizar implícitamente indicadores de género femenino. El sistema penalizaba CVs que contenían la palabra "mujeres" (como en "directora de club de mujeres en STEM") y rebajaba la puntuación de graduadas de dos universidades femeninas históricas. Amazon descubrió el problema en 2015, intentó correcciones que no funcionaron completamente, y abandonó el sistema en 2017 sin haberlo desplegado en producción.
Joy Buolamwini del MIT Media Lab y Timnit Gebru publicaron en 2018 "Gender Shades", un estudio que evaluó sistemas comerciales de reconocimiento facial de IBM, Microsoft y Face++. Los resultados revelaron disparidades dramáticas:
| Grupo demográfico | Tasa de error (media de 3 sistemas) |
|---|---|
| Hombres de piel clara | 0,8% |
| Mujeres de piel clara | 8,1% |
| Hombres de piel oscura | 12,0% |
| Mujeres de piel oscura | 34,7% |
Las razones son técnicas pero tienen raíz social: los datasets de entrenamiento para reconocimiento facial (IJB-A, Adience) contenían mayoritariamente rostros de personas blancas y masculinas. Los modelos optimizaron su rendimiento en los grupos más representados en los datos.
Un estudio publicado en el New England Journal of Medicine en diciembre de 2020 documentó que los pulsioxímetros —dispositivos que miden la saturación de oxígeno en sangre mediante luz infrarroja y son estándar en todos los hospitales del mundo— sobreestiman sistemáticamente la saturación en pacientes con piel más oscura. Los algoritmos de calibración de estos dispositivos fueron desarrollados décadas antes principalmente con sujetos de piel clara. Durante la pandemia de COVID-19, este sesgo tuvo consecuencias documentadas: pacientes afroamericanos e hispanos llegaban a unidades de cuidado intensivo con hipoxemia más severa que los pacientes blancos con lecturas similares del pulsioxímetro, porque las lecturas incorrectas retrasaban la escalada del tratamiento.
| Tipo de sesgo | Origen | Ejemplo |
|---|---|---|
| Sesgo preexistente | Desigualdades históricas en los datos de entrenamiento | Modelo de crédito entrenado en datos históricos refleja discriminación crediticia pasada |
| Sesgo de medición | El proxy medido no captura bien el concepto real | Usar arrestos (no crímenes) como proxy de criminalidad — los arrestos son sesgados racialmente |
| Sesgo de agregación | Un modelo único para grupos heterogéneos | Modelo médico entrenado en mayoría caucásica aplicado a poblaciones diversas |
| Sesgo de evaluación | Benchmark de evaluación no representa todos los grupos | Dataset de test de reconocimiento facial predominantemente masculino y blanco |
| Sesgo emergente | Retroalimentación del sistema crea loops que amplifican desigualdades | Sistema predictivo policial que dirige más patrullaje a áreas históricamente vigiladas → más arrestos → confirma el modelo |
Uno de los resultados más importantes y perturbadores de la justicia algorítmica es el teorema de imposibilidad demostrado formalmente por Alexandra Chouldechova en 2017: cuando las tasas base de un resultado difieren entre grupos (por ejemplo, la tasa de reincidencia real es diferente entre grupos raciales en el sistema penal estadounidense, en parte como consecuencia de la desigualdad sistémica), es matemáticamente imposible satisfacer simultáneamente tres criterios de equidad razonables.
LIME (Local Interpretable Model-agnostic Explanations), propuesto por Ribeiro et al. en 2016, genera explicaciones de predicciones individuales perturbando el input localmente y ajustando un modelo lineal simple que imita el comportamiento del modelo complejo en esa vecindad local.
SHAP (SHapley Additive exPlanations), desarrollado por Lundberg y Lee en 2017, aplica los valores de Shapley de la teoría de juegos cooperativos para distribuir la predicción de un modelo entre sus características de forma que sea justa, eficiente y consistente. La intuición: imagina que cada característica es un "jugador" en un juego cooperativo; el valor de Shapley calcula la contribución marginal promedio de cada jugador considerando todas las posibles coaliciones.
SHAP tiene ventajas sobre LIME: las explicaciones son globalmente consistentes (se pueden agregar para entender el comportamiento del modelo completo), tienen propiedades matemáticas deseables, y existen implementaciones eficientes para árboles de decisión (TreeSHAP, en O(TLD²) donde T=árboles, L=hojas, D=profundidad).
Las explicaciones contrafactuales responden directamente a la pregunta que más importa al afectado: "¿Qué debería cambiar para obtener una decisión diferente?" Son más accionables que las explicaciones basadas en importancia de características. "Tu solicitud fue rechazada. Si tu puntuación de crédito fuera 20 puntos mayor y no tuvieras deudas de tarjeta, sería aprobada" da al solicitante un camino claro de acción.
El Reglamento de IA de la Unión Europea, aprobado en 2024, es la primera regulación comprehensiva de IA en el mundo y establece un marco basado en riesgo.
| Categoría de riesgo | Ejemplos | Requisitos regulatorios |
|---|---|---|
| Riesgo inaceptable (PROHIBIDO) | Puntuación social por gobiernos, reconocimiento facial en tiempo real en espacios públicos (con excepciones), manipulación subliminal | Prohibición absoluta, sin excepciones para los primeros dos |
| Alto riesgo | IA en crédito, contratación, educación, justicia penal, infraestructura crítica | Evaluación de conformidad, registro, gestión de riesgos, supervisión humana, datos de alta calidad |
| Riesgo limitado | Chatbots, deepfakes, sistemas de recomendación | Obligaciones de transparencia: el usuario debe saber que interactúa con IA |
| Riesgo mínimo | Filtros de spam, videojuegos con IA | Sin obligaciones específicas; códigos de conducta voluntarios |
Además de los marcos regulatorios, existen intervenciones técnicas para reducir el sesgo en modelos de ML. Ninguna es perfecta y todas implican trade-offs:
Una de las lecciones más importantes del campo es que las soluciones técnicas al sesgo son insuficientes sin la participación de las comunidades que serán afectadas por los sistemas. El diseño participativo (participatory design) involucra a estas comunidades desde las primeras etapas: definición del problema, recolección de datos, evaluación del modelo y definición de criterios de éxito.
Ejemplos concretos: cuando Google desarrolló modelos de diagnóstico de enfermedades de la piel en África, trabajó con dermatólogos africanos y pacientes locales para garantizar que el dataset de entrenamiento y los criterios de evaluación fueran representativos de las condiciones locales. Cuando la ciudad de Auckland (Nueva Zelanda) desplegó un sistema de predicción de abandono escolar, involucró a comunidades Māori —el grupo con mayor riesgo según el modelo— en el diseño de las intervenciones, no solo en la validación del algoritmo.
aiincidents.org es una base de datos colaborativa que documenta más de 600 incidentes de IA del mundo real: desde vehículos autónomos que atropellaron peatones hasta algoritmos de moderación que censuran lenguajes minoritarios, pasando por sistemas de reconocimiento facial que identificaron incorrectamente a sospechosos inocentes. Esta base de datos es una herramienta invaluable para aprender de fallos reales y evitar repetirlos.
Como usuario, profesional o ciudadano, no eres un observador pasivo del despliegue de IA. Las acciones concretas que puedes tomar incluyen: