Inteligencia Artificial · Capítulo 6

Visión por Computadora: Cuando las Máquinas Aprenden a Ver

Cómo las computadoras interpretan imágenes y vídeo — desde detectar tumores en radiografías hasta guiar automóviles autónomos.

Cómo las Computadoras "Ven" las Imágenes

Para un ser humano, ver una fotografía de un gato es instantáneo e involuntario. Para una computadora, una imagen es simplemente una matriz de números. Una imagen en color de 640×480 píxeles es en realidad tres matrices apiladas (una para el canal rojo, una para el verde, una para el azul), cada una con valores enteros entre 0 y 255. El reto de la visión por computadora es extraer significado de esos millones de números.

Una imagen de 4×4 píxeles en escala de grises: [[ 12, 45, 200, 255], [ 30, 80, 190, 240], [100, 150, 20, 15], [200, 210, 10, 5]] Donde 0 = negro puro, 255 = blanco puro. Un cambio brusco entre píxeles adyacentes (ej: 12→200) indica un borde en la imagen. Una imagen RGB de 224×224 píxeles tiene: 224 × 224 × 3 = 150,528 valores numéricos.

El cerebro humano tiene casi la mitad de su corteza dedicada al procesamiento visual, con 30 áreas especializadas que trabajan en paralelo. Replicar siquiera una fracción de esa capacidad en silicio fue uno de los grandes desafíos de la IA del siglo XX. La solución llegó con el deep learning.

El Desafío ImageNet y la Revolución de 2012

En 2009, Fei-Fei Li y su equipo de Stanford crearon ImageNet: un dataset de más de 14 millones de imágenes etiquetadas en 21,841 categorías. Esto fue posible gracias a Amazon Mechanical Turk, una plataforma donde miles de trabajadores humanos etiquetaron imágenes a pequeña escala, acumulando un esfuerzo colectivo masivo.

El ImageNet Large Scale Visual Recognition Challenge (ILSVRC) midió anualmente el progreso: clasificar correctamente imágenes entre 1,000 categorías. En 2011, el mejor sistema tenía una tasa de error del 26%. En 2012, el equipo de Geoffrey Hinton en la Universidad de Toronto presentó AlexNet, la primera CNN profunda en competir, y redujo el error al 15.3% — una mejora de casi 11 puntos porcentuales de golpe. Los investigadores quedaron atónitos. La era del deep learning había comenzado oficialmente.

Para 2015, el modelo ResNet-152 de Microsoft logró una tasa de error del 3.57% — por debajo del 5% de error humano en esa misma tarea. Las máquinas superaron a los humanos en reconocimiento de imágenes en condiciones controladas.

Detección de Objetos

La clasificación de imágenes responde "¿qué hay en esta imagen?". La detección de objetos va más lejos: "¿qué hay y dónde está?" Para cada objeto identificado, el modelo produce un bounding box (caja delimitadora) con coordenadas precisas.

YOLO: You Only Look Once

Los primeros sistemas de detección de objetos (R-CNN, 2013) eran lentos: primero proponían regiones de interés, luego clasificaban cada región por separado. Demasiado lento para aplicaciones en tiempo real. En 2015, Joseph Redmon presentó YOLO, que reformuló la detección como un único problema de regresión: la imagen entera pasa por la red una sola vez y produce simultáneamente las cajas delimitadoras y las clases de todos los objetos detectados.

YOLO divide la imagen en una cuadrícula de S×S celdas. Cada celda predice B cajas delimitadoras y C probabilidades de clase simultáneamente. Esto permite detección en tiempo real a 45-155 fotogramas por segundo, suficiente para aplicaciones en vídeo en vivo. YOLOv8 (2023) es el estándar de facto para detección en tiempo real en producción.

Segmentación de Imágenes

Más allá de las cajas delimitadoras, la segmentación asigna una etiqueta a cada píxel individual:

Segmentación semántica: Cada píxel recibe una categoría (carretera, cielo, peatón, edificio). No distingue entre dos peatones distintos — todos los píxeles de peatones tienen la misma etiqueta.
Segmentación de instancias: Distingue entre objetos individuales de la misma categoría. Peatón #1 y Peatón #2 tienen máscaras diferentes. Esencial en cirugía robótica para distinguir tejidos.
Segmentación panóptica: Combina ambas: cosas contables (personas, autos) tienen instancias; cosas no contables (cielo, carretera) tienen categorías semánticas.

Reconocimiento Facial: Tecnología y Controversia

El reconocimiento facial moderno funciona en tres etapas: detección del rostro en la imagen, extracción de un vector de características de 128-512 dimensiones (un "embedding" facial único para cada persona), y comparación con una base de datos de embeddings conocidos.

Los sistemas modernos como DeepFace (Facebook, 2014) y FaceNet (Google, 2015) alcanzaron una precisión del 97.35% y 99.63% respectivamente en el benchmark Labeled Faces in the Wild, comparado con el 97.53% humano. Sin embargo, esa precisión no se distribuye uniformemente.

    La brecha de precisión racial: Un estudio del MIT Media Lab (Joy Buolamwini y Timnit Gebru, 2018) evaluó sistemas de reconocimiento facial comerciales de IBM, Microsoft y Face++. Los resultados fueron alarmantes:
    Tasa de error en hombres de piel clara: 0.8%
Tasa de error en mujeres de piel oscura: hasta 34.7%

    La causa: los datasets de entrenamiento estaban sesgados hacia rostros de personas de piel clara. El sesgo en los datos produce sesgo en el modelo — con consecuencias reales cuando se usa para identificación policial.
  

El uso de reconocimiento facial en espacios públicos genera serios dilemas éticos. China implementó un sistema de "crédito social" que usa cámaras con reconocimiento facial para rastrear comportamientos ciudadanos y asignar puntuaciones que afectan el acceso a servicios. En Estados Unidos, varias ciudades (San Francisco, Boston, Portland) han prohibido su uso por parte de la policía. En Europa, el Reglamento General de Protección de Datos (GDPR) impone severas restricciones al uso de datos biométricos.

IA en Imágenes Médicas

La visión por computadora tiene quizás su aplicación más impactante en medicina, donde puede salvar vidas literalmente.

Detección de Cáncer

Un estudio publicado en Nature en enero de 2020 (McKinney et al., Google Health) demostró que un modelo de IA detectó cáncer de mama en mamografías con una reducción del 5.7% en falsos positivos y 9.4% en falsos negativos comparado con radiólogos. En términos prácticos: el modelo detectó un 11.5% más de cánceres que los radiólogos trabajando solos.

Para el cáncer de piel, un estudio publicado en Nature en 2017 (Esteva et al., Stanford) demostró que una CNN clasificó carcinomas y melanomas con una precisión equivalente a 21 dermatólogos certificados, usando solo fotografías de lesiones cutáneas en smartphones.

Retinopatía Diabética

La retinopatía diabética es la principal causa de ceguera en adultos en edad laboral. Requiere examinación de imágenes de la retina por oftalmólogos especializados, que escasean en países en desarrollo. El sistema IDx-DR de IDx fue el primer dispositivo de IA diagnóstica aprobado por la FDA (2018) que opera sin supervisión médica: toma fotografías de la retina y detecta retinopatía con 87.2% de sensibilidad y 90.7% de especificidad.

Vehículos Autónomos: La Visión en Acción

Un vehículo autónomo debe percibir el mundo con precisión suficiente para tomar decisiones de vida o muerte en fracciones de segundo. El pipeline de percepción combina múltiples tecnologías de visión:

Cámaras: Proporcionan imagen en color de alta resolución. Excelentes para leer señales de tráfico, detectar líneas de carril y reconocer semáforos. Baratas pero sensibles a condiciones de luz.
LiDAR: (Light Detection And Ranging) Emite pulsos láser y mide el tiempo de retorno para crear mapas 3D precisos del entorno. Funciona de noche y con poca visibilidad. El Tesla que no usa LiDAR es la excepción en la industria; Waymo usa LiDAR de alta definición en todos sus vehículos.
Radar: Mide distancia y velocidad de objetos con alta precisión, especialmente en condiciones adversas (lluvia, niebla). Menos preciso que LiDAR para detección de forma.

La fusión de estas fuentes sensoriales produce una representación del mundo que luego alimenta módulos de detección de objetos, predicción de trayectorias de otros agentes, y planificación de la ruta propia. Los vehículos de Waymo (subsidiaria de Alphabet/Google) han recorrido más de 20 millones de millas autónomas en carreteras públicas, un hito que demuestra la madurez de la tecnología aunque su despliegue masivo sigue siendo un desafío regulatorio y económico.

Realidad Aumentada y Filtros de Redes Sociales

Los filtros de Snapchat, Instagram y TikTok que superponen orejas de conejo, modifican expresiones faciales o colocan objetos virtuales en el mundo real usan visión por computadora en tiempo real:

Detección y segmentación del rostro en cada fotograma del vídeo
Estimación de 68 puntos faciales clave (ojos, nariz, boca, contorno) — "facial landmark detection"
Estimación de la pose 3D de la cabeza en el espacio
Renderizado del efecto virtual alineado con la geometría facial detectada

Todo esto ocurre a 30 fotogramas por segundo en el procesador de un smartphone, demostrando la eficiencia de los modelos de visión modernos.

Generación de Imágenes y Deepfakes

Las Redes Generativas Antagónicas (GANs), propuestas por Ian Goodfellow en 2014, consisten en dos redes que compiten: un generador que crea imágenes falsas intentando engañar al discriminador, y un discriminador que intenta distinguir imágenes reales de falsas. A medida que ambas mejoran, el generador produce imágenes cada vez más realistas.

Esta tecnología dio origen a los deepfakes: vídeos sintéticos donde el rostro de una persona se superpone convincentemente sobre el cuerpo de otra. Lo que en 2014 producía resultados evidentemente artificiales, en 2023 requiere análisis forense para detectarse. Las implicaciones para la desinformación son graves: ya existen casos documentados de deepfakes de líderes políticos pronunciando discursos que nunca ocurrieron.

    La carrera armamentística deepfake: Los mismos avances que permiten crear deepfakes permiten detectarlos. Empresas como Reality Defender, Sensity AI y el proyecto Content Authenticity Initiative (CAI) de Adobe desarrollan detectores de contenido sintético. La norma técnica C2PA (Coalition for Content Provenance and Authenticity) embebe metadatos criptográficos en imágenes para certificar su origen. Sin embargo, la carrera es asimétrica: crear un deepfake es cada vez más fácil y barato; detectarlo es cada vez más difícil.
  

Resumen del Capítulo

Para una computadora, una imagen es una matriz de números (valores de píxeles 0-255 por canal RGB); la visión por computadora extrae significado semántico de esos números mediante redes neuronales convolucionales.
AlexNet en 2012 redujo el error en ImageNet de 26% a 15.3% de golpe, iniciando la era del deep learning; para 2015, ResNet superó la precisión humana (3.57% de error vs 5% humano) en esa misma tarea.
YOLO reformuló la detección de objetos como un único problema de regresión, logrando detección en tiempo real (45-155 fps) al procesar la imagen completa en un solo paso de red.
Los sistemas de reconocimiento facial muestran disparidades de precisión graves: tasa de error de 0.8% en hombres de piel clara versus hasta 34.7% en mujeres de piel oscura (MIT Media Lab, 2018), consecuencia directa de datasets de entrenamiento sesgados.
En medicina, modelos de IA detectan cáncer de mama con 11.5% más casos que radiólogos solos (Nature, 2020) y clasifican melanomas al nivel de 21 dermatólogos certificados, con el primer sistema aprobado por la FDA operando sin supervisión médica.
Los vehículos autónomos fusionan cámaras, LiDAR y radar para percibir el entorno; Waymo ha recorrido más de 20 millones de millas autónomas en vías públicas.
Los deepfakes generados con GANs representan una amenaza creciente a la integridad informativa; estándares como C2PA buscan certificar la autenticidad del contenido digital mediante metadatos criptográficos.