Inteligencia Artificial · Capítulo 19

IA Responsable: Sesgos, Transparencia y Justicia Algorítmica

Cuando los algoritmos toman decisiones sobre libertad, crédito, empleo y salud, la justicia matemática no es opcional: es una obligación ética y social

Las Apuestas: IA Tomando Decisiones que Importan

Cada día, sistemas de inteligencia artificial toman o informan decisiones que afectan profundamente la vida de millones de personas: si un acusado obtiene libertad bajo fianza o permanece detenido, si una solicitud de préstamo es aprobada o rechazada, si un currículum llega a manos de un reclutador o es filtrado automáticamente, si un paciente recibe atención urgente o es enviado a casa. Estas no son decisiones triviales de recomendación de películas. Son decisiones con consecuencias reales y a menudo irreversibles.

La promesa de los algoritmos era eliminar el sesgo humano —la fatiga, el prejuicio consciente e inconsciente, la variabilidad de criterio entre decisores. La realidad documentada es más compleja: los algoritmos no eliminan el sesgo, lo automatizan y lo escalan. Un juez sesgado afecta a las personas que comparecen ante él; un algoritmo sesgado afecta a millones simultáneamente con velocidad y apariencia de objetividad matemática.

Daños Documentados con Estadísticas

COMPAS: predicción de reincidencia y discriminación racial

COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) es un algoritmo ampliamente usado en el sistema judicial de Estados Unidos para predecir la probabilidad de reincidencia de acusados, informando decisiones de libertad bajo fianza, sentencias y libertad condicional. En 2016, ProPublica publicó un análisis que se convirtió en referencia fundamental del campo:

    Resultados del análisis de ProPublica sobre COMPAS (2016):
    Los acusados afroamericanos tenían una tasa de falso positivo (clasificados como alto riesgo cuando no reincidieron) del 44,9%
Los acusados blancos tenían una tasa de falso positivo de solo el 23,5%
Los acusados blancos tenían mayor tasa de falso negativo (clasificados como bajo riesgo cuando sí reincidieron): 47,7% vs 28,0%
La empresa Northpointe (hoy Equivant) argumentó que el modelo estaba "calibrado": para un mismo score de riesgo, la probabilidad de reincidencia era similar entre razas
Investigadores de Carnegie Mellon demostraron matemáticamente que estas dos propiedades —calibración igual + tasas de error iguales— son matemáticamente incompatibles cuando las tasas de reincidencia base difieren entre grupos

  

Amazon: el algoritmo de reclutamiento que penalizaba a mujeres

Reuters reveló en octubre de 2018 que Amazon desarrolló y posteriormente descartó un sistema de IA para screening de currículums. El sistema fue entrenado sobre una década de contrataciones históricas de Amazon —predominantemente masculinas en roles de ingeniería— y aprendió a penalizar implícitamente indicadores de género femenino. El sistema penalizaba CVs que contenían la palabra "mujeres" (como en "directora de club de mujeres en STEM") y rebajaba la puntuación de graduadas de dos universidades femeninas históricas. Amazon descubrió el problema en 2015, intentó correcciones que no funcionaron completamente, y abandonó el sistema en 2017 sin haberlo desplegado en producción.

Reconocimiento facial: error diferencial por género y raza

Joy Buolamwini del MIT Media Lab y Timnit Gebru publicaron en 2018 "Gender Shades", un estudio que evaluó sistemas comerciales de reconocimiento facial de IBM, Microsoft y Face++. Los resultados revelaron disparidades dramáticas:

Grupo demográfico	Tasa de error (media de 3 sistemas)
Hombres de piel clara	0,8%
Mujeres de piel clara	8,1%
Hombres de piel oscura	12,0%
Mujeres de piel oscura	34,7%

Las razones son técnicas pero tienen raíz social: los datasets de entrenamiento para reconocimiento facial (IJB-A, Adience) contenían mayoritariamente rostros de personas blancas y masculinas. Los modelos optimizaron su rendimiento en los grupos más representados en los datos.

Pulsioximetría y COVID-19: sesgo con consecuencias letales

Un estudio publicado en el New England Journal of Medicine en diciembre de 2020 documentó que los pulsioxímetros —dispositivos que miden la saturación de oxígeno en sangre mediante luz infrarroja y son estándar en todos los hospitales del mundo— sobreestiman sistemáticamente la saturación en pacientes con piel más oscura. Los algoritmos de calibración de estos dispositivos fueron desarrollados décadas antes principalmente con sujetos de piel clara. Durante la pandemia de COVID-19, este sesgo tuvo consecuencias documentadas: pacientes afroamericanos e hispanos llegaban a unidades de cuidado intensivo con hipoxemia más severa que los pacientes blancos con lecturas similares del pulsioxímetro, porque las lecturas incorrectas retrasaban la escalada del tratamiento.

Taxonomía del Sesgo Algorítmico

Tipo de sesgo	Origen	Ejemplo
Sesgo preexistente	Desigualdades históricas en los datos de entrenamiento	Modelo de crédito entrenado en datos históricos refleja discriminación crediticia pasada
Sesgo de medición	El proxy medido no captura bien el concepto real	Usar arrestos (no crímenes) como proxy de criminalidad — los arrestos son sesgados racialmente
Sesgo de agregación	Un modelo único para grupos heterogéneos	Modelo médico entrenado en mayoría caucásica aplicado a poblaciones diversas
Sesgo de evaluación	Benchmark de evaluación no representa todos los grupos	Dataset de test de reconocimiento facial predominantemente masculino y blanco
Sesgo emergente	Retroalimentación del sistema crea loops que amplifican desigualdades	Sistema predictivo policial que dirige más patrullaje a áreas históricamente vigiladas → más arrestos → confirma el modelo

El Teorema de Imposibilidad de la Justicia Algorítmica

Uno de los resultados más importantes y perturbadores de la justicia algorítmica es el teorema de imposibilidad demostrado formalmente por Alexandra Chouldechova en 2017: cuando las tasas base de un resultado difieren entre grupos (por ejemplo, la tasa de reincidencia real es diferente entre grupos raciales en el sistema penal estadounidense, en parte como consecuencia de la desigualdad sistémica), es matemáticamente imposible satisfacer simultáneamente tres criterios de equidad razonables.

    Las tres definiciones incompatibles de justicia algorítmica (cuando las tasas base difieren):
    Paridad demográfica: igual proporción de individuos de cada grupo recibe la decisión favorable (el mismo % de cada grupo es clasificado como "bajo riesgo").
Odds igualizados: igual tasa de verdaderos positivos Y falsos positivos entre grupos (igual sensibilidad y especificidad para todos los grupos).
Calibración: el mismo score de riesgo corresponde a la misma probabilidad real de resultado en todos los grupos.

    Ningún modelo puede satisfacer las tres simultáneamente cuando las tasas base difieren. La decisión de cuál definición priorizar es inevitablemente una decisión de valores, no técnica.
  

Métodos de Explicabilidad: Abrir la Caja Negra

LIME: explicaciones locales lineales

LIME (Local Interpretable Model-agnostic Explanations), propuesto por Ribeiro et al. en 2016, genera explicaciones de predicciones individuales perturbando el input localmente y ajustando un modelo lineal simple que imita el comportamiento del modelo complejo en esa vecindad local.

Ejemplo de explicación LIME para rechazo de préstamo:

Decisión: Préstamo RECHAZADO (probabilidad de default: 73%)

Factores que contribuyeron al rechazo:
— Ingresos mensuales < $2.000: +32% a la probabilidad de default
— 2 pagos atrasados en últimos 12 meses: +28% a la probabilidad de default
— Ratio deuda/ingreso > 0.45: +19% a la probabilidad de default

Factores que atenuaron el rechazo:
— Tiempo en empleo actual > 3 años: -12% a la probabilidad de default

Contrafactual: "Si sus ingresos fueran $3.500/mes y no tuviera pagos atrasados, el préstamo habría sido APROBADO."

SHAP: valores de Shapley de la teoría de juegos

SHAP (SHapley Additive exPlanations), desarrollado por Lundberg y Lee en 2017, aplica los valores de Shapley de la teoría de juegos cooperativos para distribuir la predicción de un modelo entre sus características de forma que sea justa, eficiente y consistente. La intuición: imagina que cada característica es un "jugador" en un juego cooperativo; el valor de Shapley calcula la contribución marginal promedio de cada jugador considerando todas las posibles coaliciones.

SHAP tiene ventajas sobre LIME: las explicaciones son globalmente consistentes (se pueden agregar para entender el comportamiento del modelo completo), tienen propiedades matemáticas deseables, y existen implementaciones eficientes para árboles de decisión (TreeSHAP, en O(TLD²) donde T=árboles, L=hojas, D=profundidad).

Explicaciones contrafactuales

Las explicaciones contrafactuales responden directamente a la pregunta que más importa al afectado: "¿Qué debería cambiar para obtener una decisión diferente?" Son más accionables que las explicaciones basadas en importancia de características. "Tu solicitud fue rechazada. Si tu puntuación de crédito fuera 20 puntos mayor y no tuvieras deudas de tarjeta, sería aprobada" da al solicitante un camino claro de acción.

El Reglamento Europeo de IA (EU AI Act, 2024)

El Reglamento de IA de la Unión Europea, aprobado en 2024, es la primera regulación comprehensiva de IA en el mundo y establece un marco basado en riesgo.

Categoría de riesgo	Ejemplos	Requisitos regulatorios
Riesgo inaceptable (PROHIBIDO)	Puntuación social por gobiernos, reconocimiento facial en tiempo real en espacios públicos (con excepciones), manipulación subliminal	Prohibición absoluta, sin excepciones para los primeros dos
Alto riesgo	IA en crédito, contratación, educación, justicia penal, infraestructura crítica	Evaluación de conformidad, registro, gestión de riesgos, supervisión humana, datos de alta calidad
Riesgo limitado	Chatbots, deepfakes, sistemas de recomendación	Obligaciones de transparencia: el usuario debe saber que interactúa con IA
Riesgo mínimo	Filtros de spam, videojuegos con IA	Sin obligaciones específicas; códigos de conducta voluntarios

Mitigaciones Técnicas del Sesgo

Además de los marcos regulatorios, existen intervenciones técnicas para reducir el sesgo en modelos de ML. Ninguna es perfecta y todas implican trade-offs:

Reponderación de datos: asignar mayor peso a instancias subrepresentadas durante el entrenamiento. Simple de implementar pero puede reducir la precisión general.
Debiasing adversarial: entrenar simultáneamente un clasificador principal y un discriminador que intenta predecir el atributo sensible (raza, género) a partir de las representaciones internas. El clasificador aprende representaciones que el discriminador no puede usar para predicciones de atributos sensibles.
Restricciones de equidad como regularización: añadir términos de penalización a la función de pérdida que penalizan disparidades entre grupos. Permite balancear precisión vs. equidad como un hiperparámetro.
Modelos separados por subgrupo: entrenar y optimizar modelos distintos para diferentes grupos demográficos. Puede mejorar la equidad pero aumenta la complejidad y puede violar leyes anti-discriminación.
Auditorías de equidad pre-despliegue: evaluación sistemática de métricas de equidad en datasets de test estratificados por grupo antes de desplegar.

Diseño Participativo: Involucrar a las Comunidades Afectadas

Una de las lecciones más importantes del campo es que las soluciones técnicas al sesgo son insuficientes sin la participación de las comunidades que serán afectadas por los sistemas. El diseño participativo (participatory design) involucra a estas comunidades desde las primeras etapas: definición del problema, recolección de datos, evaluación del modelo y definición de criterios de éxito.

Ejemplos concretos: cuando Google desarrolló modelos de diagnóstico de enfermedades de la piel en África, trabajó con dermatólogos africanos y pacientes locales para garantizar que el dataset de entrenamiento y los criterios de evaluación fueran representativos de las condiciones locales. Cuando la ciudad de Auckland (Nueva Zelanda) desplegó un sistema de predicción de abandono escolar, involucró a comunidades Māori —el grupo con mayor riesgo según el modelo— en el diseño de las intervenciones, no solo en la validación del algoritmo.

La Base de Datos de Incidentes de IA

aiincidents.org es una base de datos colaborativa que documenta más de 600 incidentes de IA del mundo real: desde vehículos autónomos que atropellaron peatones hasta algoritmos de moderación que censuran lenguajes minoritarios, pasando por sistemas de reconocimiento facial que identificaron incorrectamente a sospechosos inocentes. Esta base de datos es una herramienta invaluable para aprender de fallos reales y evitar repetirlos.

Tu Rol: Qué Hacer Cuando Encuentras IA Sesgada

Como usuario, profesional o ciudadano, no eres un observador pasivo del despliegue de IA. Las acciones concretas que puedes tomar incluyen:

Documentar y reportar: si sospechas que un sistema de IA tomó una decisión sesgada contra ti o alguien que conoces, documenta el caso. Muchas regulaciones (EU AI Act, Equal Credit Opportunity Act en EEUU) ofrecen mecanismos de reclamación.
Preguntar cómo se tomó la decisión: en muchos países, tienes derecho a solicitar una explicación de decisiones automatizadas que te afectan (GDPR Art. 22 en Europa).
Buscar auditorías independientes: como empleado o contratista, puedes abogar por auditorías de equidad de los sistemas de IA que tu organización usa o desarrolla.
Educarte y educar: la alfabetización en IA responsable es una forma de poder ciudadano. Compartir este conocimiento amplifica su impacto.

Resumen del Capítulo

COMPAS (2016) clasificó a afroamericanos como alto riesgo de reincidencia a tasa doble que blancos (44,9% vs 23,5% falsos positivos); el reconocimiento facial tiene tasas de error 43× mayores en mujeres de piel oscura vs hombres de piel clara.
El teorema de Chouldechova (2017) demuestra que paridad demográfica, odds igualizados y calibración son matemáticamente incompatibles cuando las tasas base difieren entre grupos — la elección de definición de equidad es una decisión de valores.
Los sesgos pueden ser preexistentes (datos históricos inequitativos), de medición (proxies imperfectos), de agregación (modelo único para grupos heterogéneos), de evaluación o emergentes (loops de retroalimentación).
LIME (explicaciones locales lineales), SHAP (valores de Shapley), y explicaciones contrafactuales son los principales métodos para hacer explicables las decisiones de IA de alto impacto.
El EU AI Act (2024) prohíbe puntuación social gubernamental y reconocimiento facial masivo en tiempo real; exige evaluación de conformidad para IA de alto riesgo (crédito, contratación, justicia).
Las mitigaciones técnicas (reponderación, debiasing adversarial, restricciones de equidad) son necesarias pero insuficientes sin diseño participativo que involucre a las comunidades afectadas.
Como ciudadano, tienes derecho a explicaciones de decisiones automatizadas (GDPR Art. 22) y canales de reclamación; la alfabetización en IA responsable es una forma de poder democrático.