Inteligencia Artificial · Capítulo 13

Big Data e Inteligencia Artificial: El Combustible del Aprendizaje

Por qué los datos son el recurso más valioso del siglo XXI y cómo la infraestructura moderna los convierte en inteligencia


Introducción: Los Datos como Infraestructura Cognitiva

En 2006, el matemático Clive Humby acuñó una frase que se ha vuelto ubicua en el mundo tecnológico: "Los datos son el nuevo petróleo". La analogía es imperfecta —los datos no se agotan cuando se usan, pueden compartirse sin reducir la cantidad disponible, y su valor depende enteramente de cómo se procesan— pero captura algo fundamental: en la economía de la IA, los datos son el insumo primario sin el cual los algoritmos más sofisticados son inútiles.

Actualmente se crean aproximadamente 2,5 quintillones de bytes de datos cada día. Para dar escala a este número: si cada byte fuera un grano de arena, habría suficientes para llenar 2.500 millones de playas. YouTube recibe 500 horas de video cada minuto; el NYSE genera 1 terabyte de datos de trading por día; los sensores del Large Hadron Collider del CERN producen 15 petabytes anuales. Este capítulo examina qué es el Big Data, cómo se almacena y procesa, y cómo la IA extrae valor de él.

Las 5 Vs del Big Data

Las cinco dimensiones del Big Data:

Por Qué Más Datos Supera a Mejores Algoritmos

En 2001, Michele Banko y Eric Brill publicaron un estudio seminal en el ACL que demostró algo contraintuitivo: para tareas de desambiguación de lenguaje natural, algoritmos simples entrenados con enormes cantidades de datos superaban consistentemente a algoritmos sofisticados entrenados con menos datos. La conclusión: si tienes suficientes datos, incluso modelos simples funcionan bien; sin datos suficientes, ni los algoritmos más elegantes compensan la escasez.

ImageNet ilustra este principio a escala. Antes de 2012, los sistemas de reconocimiento de imágenes eran moderadamente precisos. Luego Fei-Fei Li y su equipo construyeron ImageNet: 14 millones de imágenes etiquetadas manualmente en 1.000 categorías. Con este dataset, AlexNet en 2012 redujo la tasa de error en ImageNet Challenge del 26% al 15% en un año, desencadenando la revolución del deep learning. Sin ImageNet, AlexNet no habría podido aprender. La arquitectura importaba, pero los datos importaban más.

Infraestructura: Cómo se Procesan Datos a Gran Escala

Hadoop y MapReduce

Apache Hadoop fue el primer framework de código abierto para procesamiento distribuido de big data, inspirado en papers de Google de 2003-2004. El paradigma MapReduce divide el procesamiento en dos fases:

Ejemplo de MapReduce: contar palabras en 1 millón de documentos

Fase Map (ejecutada en paralelo en 1.000 máquinas):
Máquina 1 procesa documentos 1-1.000 → emite ("inteligencia", 1), ("artificial", 1), ("datos", 2), ...
Máquina 2 procesa documentos 1.001-2.000 → emite ("inteligencia", 3), ("artificial", 1), ...

Fase Reduce (agrupa por clave):
"inteligencia": sum(1+3+...) = 48.291
"artificial": sum(1+1+...) = 31.847

Resultado: conteo total de palabras en el corpus completo, procesado en minutos en lugar de días.

Apache Spark: 100× más rápido para ML

Hadoop tenía un problema crítico para machine learning: cada iteración del algoritmo requería leer y escribir datos en disco, lo cual es extremadamente lento. Apache Spark, desarrollado en UC Berkeley en 2009, resuelve esto manteniendo los datos en memoria (RAM) entre iteraciones. Para algoritmos iterativos como el descenso de gradiente —que puede requerir cientos de pasadas sobre los datos— esto significa una mejora de hasta 100× en velocidad. Spark se convirtió rápidamente en el estándar para procesamiento de big data con ML.

Data Lakes vs Data Warehouses

DimensiónData WarehouseData Lake
EsquemaSchema-on-write (definido antes de cargar)Schema-on-read (definido al consultar)
Tipos de datosSolo estructuradosTodos los tipos (raw)
UsuariosAnalistas de negocio, BIData scientists, ingenieros ML
TecnologíasSnowflake, Redshift, BigQueryAWS S3+Athena, Azure Data Lake, Google GCS
Costo por TBAlto (procesamiento incluido)Bajo almacenamiento, pago por consulta
RiesgoRigidez para nuevos casos de usoPuede convertirse en "data swamp" sin gobernanza

Calidad de Datos: El Problema Invisible

Los data scientists pasan aproximadamente el 80% de su tiempo en tareas de limpieza y preparación de datos, y solo el 20% en modelado. Este desequilibrio frustra a muchos que entran al campo esperando construir modelos sofisticados. La realidad es que un modelo brillante sobre datos sucios produce predicciones basura — el principio de "garbage in, garbage out" (GIGO) es inmutable.

Tipos comunes de problemas de calidad

Economía del Etiquetado de Datos

El aprendizaje supervisado —la técnica más poderosa en ML— requiere datos etiquetados: imágenes con anotaciones, texto con categorías, audio con transcripciones. Crear estas etiquetas a escala es uno de los mayores cuellos de botella y costos en el desarrollo de IA.

La cadena de suministro de datos etiquetados:

— Amazon Mechanical Turk: plataforma de microtareas donde trabajadores ("Turkers") etiquetan datos por centavos por tarea. Un Turker experimentado gana $8-12/hora en promedio en EEUU.
— Scale AI: startup valorada en $13,8B que organiza la anotación profesional a gran escala para empresas como Meta, Toyota y el Departamento de Defensa de EEUU. Su reciente ronda de financiamiento valoró la empresa en $14B.
— Datos sintéticos: generar datos artificiales que preservan las estadísticas del conjunto real. NVIDIA Omniverse genera imágenes sintéticas fotorrealistas de escenas de conducción para entrenar sistemas de vehículos autónomos, evitando el costo y riesgo de recolectar millones de km de datos reales.
— Self-supervised learning: técnicas como BERT y GPT que aprenden de texto no etiquetado prediciendo palabras ocultas o siguientes, reduciendo la necesidad de etiquetado manual.

Privacidad y Técnicas de Preservación

Privacidad diferencial

La privacidad diferencial (differential privacy), desarrollada formalmente por Cynthia Dwork en 2006, proporciona una garantía matemática rigurosa: los resultados de un análisis no revelan si un individuo específico estaba o no en el dataset. La técnica añade ruido aleatorio calibrado a los resultados de consultas estadísticas de forma que las estadísticas agregadas son preservadas pero los datos individuales quedan protegidos.

Apple aplica privacidad diferencial en iOS para recolectar estadísticas de uso del teclado, detección de emojis populares y sugerencias de QuickType, sin que Apple pueda ver los textos individuales de ningún usuario. Google la usa para Chrome y Android. El parámetro ε (epsilon) controla el trade-off: ε pequeño = más privacidad pero menos utilidad estadística; ε grande = menos privacidad pero estadísticas más precisas.

Aprendizaje federado

El aprendizaje federado (federated learning), introducido por Google en 2017, invierte el paradigma tradicional: en lugar de llevar los datos al modelo, lleva el modelo a los datos. El modelo se entrena localmente en el dispositivo del usuario (teléfono, hospital, banco), y solo los gradientes actualizados —no los datos crudos— se envían al servidor central para agregar.

Google Keyboard (GBoard) usa aprendizaje federado para mejorar las sugerencias de texto en cientos de millones de teléfonos sin que Google vea nunca los mensajes de los usuarios. En salud, instituciones como el Cleveland Clinic, el Johns Hopkins Hospital y el Charité de Berlín pueden colaborar para entrenar modelos médicos sin compartir registros de pacientes, superando las barreras regulatorias de HIPAA y GDPR.

Datasets Abiertos Fundamentales

DatasetTamañoUso principalImpacto
ImageNet14M imágenes, 1.000 clasesVisión computacionalDesencadenó revolución deep learning 2012
Common CrawlPetabytes de texto web (mensual)Preentrenamiento LLMsBase de GPT-3, Llama, Mistral
Wikipedia~4,4M artículos (inglés)NLP, QA, preentrenamientoBenchmark universal de comprensión
LAION-5B5.800M pares imagen-textoModelos de imagen generativaEntrenamiento de Stable Diffusion
LibriSpeech1.000 horas de audioReconocimiento de vozBenchmark estándar de ASR
The Pile825 GB de texto diversoEntrenamiento LLMsEleutherAI, modelos open source

El Flywheel de Datos: Por Qué Google y Meta Son Difíciles de Superar

El flywheel (volante de inercia) de datos describe una dinámica de auto-refuerzo: una empresa con más usuarios genera más datos; esos datos mejoran sus modelos de IA; los mejores modelos ofrecen mejor experiencia; la mejor experiencia atrae más usuarios; más usuarios generan más datos. Una vez que este volante comienza a girar, genera una ventaja competitiva que se auto-amplifica.

El flywheel de datos de Google:
8.500 millones de búsquedas diarias → datos de clics, reformulaciones, tiempos de permanencia → mejores resultados de búsqueda → más usuarios eligen Google → más búsquedas. Google ha estado acumulando estos datos desde 1998. Un nuevo buscador con el mejor algoritmo posible, pero sin datos de comportamiento de usuario a escala, no puede competir.

Para empresas que no son plataformas digitales, la respuesta estratégica no es competir en volumen de datos genéricos, sino construir ventajas en datos únicos del dominio: el fabricante de maquinaria industrial tiene datos de sensores que solo él posee; el hospital tiene historiales clínicos específicos de su población; el retailer conoce los patrones de compra de sus clientes locales. Estos datos de nicho, correctamente explotados, pueden crear ventajas competitivas sostenibles incluso contra gigantes tecnológicos.

Gobernanza de Datos: Catalogar, Rastrear, Monitorear

A medida que las organizaciones acumulan datos en múltiples sistemas, la pregunta "¿dónde están los datos sobre X?" se vuelve sorprendentemente difícil de responder. La gobernanza de datos responde a esto mediante:

Resumen del Capítulo