Cómo las computadoras interpretan imágenes y vídeo — desde detectar tumores en radiografías hasta guiar automóviles autónomos.
Para un ser humano, ver una fotografía de un gato es instantáneo e involuntario. Para una computadora, una imagen es simplemente una matriz de números. Una imagen en color de 640×480 píxeles es en realidad tres matrices apiladas (una para el canal rojo, una para el verde, una para el azul), cada una con valores enteros entre 0 y 255. El reto de la visión por computadora es extraer significado de esos millones de números.
El cerebro humano tiene casi la mitad de su corteza dedicada al procesamiento visual, con 30 áreas especializadas que trabajan en paralelo. Replicar siquiera una fracción de esa capacidad en silicio fue uno de los grandes desafíos de la IA del siglo XX. La solución llegó con el deep learning.
En 2009, Fei-Fei Li y su equipo de Stanford crearon ImageNet: un dataset de más de 14 millones de imágenes etiquetadas en 21,841 categorías. Esto fue posible gracias a Amazon Mechanical Turk, una plataforma donde miles de trabajadores humanos etiquetaron imágenes a pequeña escala, acumulando un esfuerzo colectivo masivo.
El ImageNet Large Scale Visual Recognition Challenge (ILSVRC) midió anualmente el progreso: clasificar correctamente imágenes entre 1,000 categorías. En 2011, el mejor sistema tenía una tasa de error del 26%. En 2012, el equipo de Geoffrey Hinton en la Universidad de Toronto presentó AlexNet, la primera CNN profunda en competir, y redujo el error al 15.3% — una mejora de casi 11 puntos porcentuales de golpe. Los investigadores quedaron atónitos. La era del deep learning había comenzado oficialmente.
Para 2015, el modelo ResNet-152 de Microsoft logró una tasa de error del 3.57% — por debajo del 5% de error humano en esa misma tarea. Las máquinas superaron a los humanos en reconocimiento de imágenes en condiciones controladas.
La clasificación de imágenes responde "¿qué hay en esta imagen?". La detección de objetos va más lejos: "¿qué hay y dónde está?" Para cada objeto identificado, el modelo produce un bounding box (caja delimitadora) con coordenadas precisas.
Los primeros sistemas de detección de objetos (R-CNN, 2013) eran lentos: primero proponían regiones de interés, luego clasificaban cada región por separado. Demasiado lento para aplicaciones en tiempo real. En 2015, Joseph Redmon presentó YOLO, que reformuló la detección como un único problema de regresión: la imagen entera pasa por la red una sola vez y produce simultáneamente las cajas delimitadoras y las clases de todos los objetos detectados.
YOLO divide la imagen en una cuadrícula de S×S celdas. Cada celda predice B cajas delimitadoras y C probabilidades de clase simultáneamente. Esto permite detección en tiempo real a 45-155 fotogramas por segundo, suficiente para aplicaciones en vídeo en vivo. YOLOv8 (2023) es el estándar de facto para detección en tiempo real en producción.
Más allá de las cajas delimitadoras, la segmentación asigna una etiqueta a cada píxel individual:
El reconocimiento facial moderno funciona en tres etapas: detección del rostro en la imagen, extracción de un vector de características de 128-512 dimensiones (un "embedding" facial único para cada persona), y comparación con una base de datos de embeddings conocidos.
Los sistemas modernos como DeepFace (Facebook, 2014) y FaceNet (Google, 2015) alcanzaron una precisión del 97.35% y 99.63% respectivamente en el benchmark Labeled Faces in the Wild, comparado con el 97.53% humano. Sin embargo, esa precisión no se distribuye uniformemente.
El uso de reconocimiento facial en espacios públicos genera serios dilemas éticos. China implementó un sistema de "crédito social" que usa cámaras con reconocimiento facial para rastrear comportamientos ciudadanos y asignar puntuaciones que afectan el acceso a servicios. En Estados Unidos, varias ciudades (San Francisco, Boston, Portland) han prohibido su uso por parte de la policía. En Europa, el Reglamento General de Protección de Datos (GDPR) impone severas restricciones al uso de datos biométricos.
La visión por computadora tiene quizás su aplicación más impactante en medicina, donde puede salvar vidas literalmente.
Un estudio publicado en Nature en enero de 2020 (McKinney et al., Google Health) demostró que un modelo de IA detectó cáncer de mama en mamografías con una reducción del 5.7% en falsos positivos y 9.4% en falsos negativos comparado con radiólogos. En términos prácticos: el modelo detectó un 11.5% más de cánceres que los radiólogos trabajando solos.
Para el cáncer de piel, un estudio publicado en Nature en 2017 (Esteva et al., Stanford) demostró que una CNN clasificó carcinomas y melanomas con una precisión equivalente a 21 dermatólogos certificados, usando solo fotografías de lesiones cutáneas en smartphones.
La retinopatía diabética es la principal causa de ceguera en adultos en edad laboral. Requiere examinación de imágenes de la retina por oftalmólogos especializados, que escasean en países en desarrollo. El sistema IDx-DR de IDx fue el primer dispositivo de IA diagnóstica aprobado por la FDA (2018) que opera sin supervisión médica: toma fotografías de la retina y detecta retinopatía con 87.2% de sensibilidad y 90.7% de especificidad.
Un vehículo autónomo debe percibir el mundo con precisión suficiente para tomar decisiones de vida o muerte en fracciones de segundo. El pipeline de percepción combina múltiples tecnologías de visión:
La fusión de estas fuentes sensoriales produce una representación del mundo que luego alimenta módulos de detección de objetos, predicción de trayectorias de otros agentes, y planificación de la ruta propia. Los vehículos de Waymo (subsidiaria de Alphabet/Google) han recorrido más de 20 millones de millas autónomas en carreteras públicas, un hito que demuestra la madurez de la tecnología aunque su despliegue masivo sigue siendo un desafío regulatorio y económico.
Los filtros de Snapchat, Instagram y TikTok que superponen orejas de conejo, modifican expresiones faciales o colocan objetos virtuales en el mundo real usan visión por computadora en tiempo real:
Todo esto ocurre a 30 fotogramas por segundo en el procesador de un smartphone, demostrando la eficiencia de los modelos de visión modernos.
Las Redes Generativas Antagónicas (GANs), propuestas por Ian Goodfellow en 2014, consisten en dos redes que compiten: un generador que crea imágenes falsas intentando engañar al discriminador, y un discriminador que intenta distinguir imágenes reales de falsas. A medida que ambas mejoran, el generador produce imágenes cada vez más realistas.
Esta tecnología dio origen a los deepfakes: vídeos sintéticos donde el rostro de una persona se superpone convincentemente sobre el cuerpo de otra. Lo que en 2014 producía resultados evidentemente artificiales, en 2023 requiere análisis forense para detectarse. Las implicaciones para la desinformación son graves: ya existen casos documentados de deepfakes de líderes políticos pronunciando discursos que nunca ocurrieron.