Inteligencia Artificial · Capítulo 13

Big Data e Inteligencia Artificial: El Combustible del Aprendizaje

Por qué los datos son el recurso más valioso del siglo XXI y cómo la infraestructura moderna los convierte en inteligencia

Introducción: Los Datos como Infraestructura Cognitiva

En 2006, el matemático Clive Humby acuñó una frase que se ha vuelto ubicua en el mundo tecnológico: "Los datos son el nuevo petróleo". La analogía es imperfecta —los datos no se agotan cuando se usan, pueden compartirse sin reducir la cantidad disponible, y su valor depende enteramente de cómo se procesan— pero captura algo fundamental: en la economía de la IA, los datos son el insumo primario sin el cual los algoritmos más sofisticados son inútiles.

Actualmente se crean aproximadamente 2,5 quintillones de bytes de datos cada día. Para dar escala a este número: si cada byte fuera un grano de arena, habría suficientes para llenar 2.500 millones de playas. YouTube recibe 500 horas de video cada minuto; el NYSE genera 1 terabyte de datos de trading por día; los sensores del Large Hadron Collider del CERN producen 15 petabytes anuales. Este capítulo examina qué es el Big Data, cómo se almacena y procesa, y cómo la IA extrae valor de él.

Las 5 Vs del Big Data

    Las cinco dimensiones del Big Data:
    Volumen: La cantidad de datos. 2,5 quintillones de bytes diarios; Walmart procesa más de 2,5 petabytes por hora.
Velocidad: La rapidez con que se generan y deben procesarse. Twitter: 500 millones de tweets/día. Detección de fraude en tarjeta: decisión en <100 milisegundos.
Variedad: Los tipos de datos. Estructurados (tablas SQL), semi-estructurados (JSON, XML), no estructurados (texto, imágenes, video, audio). El 80% de los datos empresariales son no estructurados.
Veracidad: La calidad y confiabilidad de los datos. Datos incorrectos, incompletos o sesgados llevan a modelos incorrectos.
Valor: El insight útil extraído de los datos. Es el objetivo final; sin valor, los otros cuatro son irrelevantes.

  

Por Qué Más Datos Supera a Mejores Algoritmos

En 2001, Michele Banko y Eric Brill publicaron un estudio seminal en el ACL que demostró algo contraintuitivo: para tareas de desambiguación de lenguaje natural, algoritmos simples entrenados con enormes cantidades de datos superaban consistentemente a algoritmos sofisticados entrenados con menos datos. La conclusión: si tienes suficientes datos, incluso modelos simples funcionan bien; sin datos suficientes, ni los algoritmos más elegantes compensan la escasez.

ImageNet ilustra este principio a escala. Antes de 2012, los sistemas de reconocimiento de imágenes eran moderadamente precisos. Luego Fei-Fei Li y su equipo construyeron ImageNet: 14 millones de imágenes etiquetadas manualmente en 1.000 categorías. Con este dataset, AlexNet en 2012 redujo la tasa de error en ImageNet Challenge del 26% al 15% en un año, desencadenando la revolución del deep learning. Sin ImageNet, AlexNet no habría podido aprender. La arquitectura importaba, pero los datos importaban más.

Infraestructura: Cómo se Procesan Datos a Gran Escala

Hadoop y MapReduce

Apache Hadoop fue el primer framework de código abierto para procesamiento distribuido de big data, inspirado en papers de Google de 2003-2004. El paradigma MapReduce divide el procesamiento en dos fases:

Map: cada nodo del clúster procesa una porción de los datos de forma independiente, emitiendo pares clave-valor.
Reduce: los resultados se agregan por clave para producir el resultado final.

Ejemplo de MapReduce: contar palabras en 1 millón de documentos

Fase Map (ejecutada en paralelo en 1.000 máquinas):
Máquina 1 procesa documentos 1-1.000 → emite ("inteligencia", 1), ("artificial", 1), ("datos", 2), ...
Máquina 2 procesa documentos 1.001-2.000 → emite ("inteligencia", 3), ("artificial", 1), ...

Fase Reduce (agrupa por clave):
"inteligencia": sum(1+3+...) = 48.291
"artificial": sum(1+1+...) = 31.847

Resultado: conteo total de palabras en el corpus completo, procesado en minutos en lugar de días.

Apache Spark: 100× más rápido para ML

Hadoop tenía un problema crítico para machine learning: cada iteración del algoritmo requería leer y escribir datos en disco, lo cual es extremadamente lento. Apache Spark, desarrollado en UC Berkeley en 2009, resuelve esto manteniendo los datos en memoria (RAM) entre iteraciones. Para algoritmos iterativos como el descenso de gradiente —que puede requerir cientos de pasadas sobre los datos— esto significa una mejora de hasta 100× en velocidad. Spark se convirtió rápidamente en el estándar para procesamiento de big data con ML.

Data Lakes vs Data Warehouses

Dimensión	Data Warehouse	Data Lake
Esquema	Schema-on-write (definido antes de cargar)	Schema-on-read (definido al consultar)
Tipos de datos	Solo estructurados	Todos los tipos (raw)
Usuarios	Analistas de negocio, BI	Data scientists, ingenieros ML
Tecnologías	Snowflake, Redshift, BigQuery	AWS S3+Athena, Azure Data Lake, Google GCS
Costo por TB	Alto (procesamiento incluido)	Bajo almacenamiento, pago por consulta
Riesgo	Rigidez para nuevos casos de uso	Puede convertirse en "data swamp" sin gobernanza

Calidad de Datos: El Problema Invisible

Los data scientists pasan aproximadamente el 80% de su tiempo en tareas de limpieza y preparación de datos, y solo el 20% en modelado. Este desequilibrio frustra a muchos que entran al campo esperando construir modelos sofisticados. La realidad es que un modelo brillante sobre datos sucios produce predicciones basura — el principio de "garbage in, garbage out" (GIGO) es inmutable.

Tipos comunes de problemas de calidad

Valores faltantes: un cliente que no proporcionó su edad, un sensor que falló durante 3 horas, un campo que no existía en versiones anteriores del sistema. Estrategias: imputación (media, mediana, modelo predictivo), eliminación de filas, o crear una variable indicadora de "dato faltante".
Duplicados: el mismo registro ingresado dos veces con pequeñas variaciones ("Juan García" vs "J. García" vs "JUAN GARCIA"). En bases de datos de clientes, las tasas de duplicación del 10-30% son comunes sin sistemas de deduplicación.
Formatos inconsistentes: fechas en DD/MM/AAAA, MM-DD-YY y AAAAMMDD en el mismo dataset. Países registrados como "México", "Mexico", "MX", "MEX". Teléfonos con y sin código de país, con y sin guiones.
Outliers: valores atípicos que pueden ser errores de entrada (edad = 999 años) o hechos reales (una transacción de $10 millones en una cuenta habitualmente de $500). Distinguir entre ambos requiere conocimiento del dominio.
Sesgo de selección: los datos recolectados no representan la población de interés. Si entrenas un modelo de crédito solo con clientes que previamente obtuvieron crédito, no sabes nada sobre las personas a quienes siempre se les rechazó.

Economía del Etiquetado de Datos

El aprendizaje supervisado —la técnica más poderosa en ML— requiere datos etiquetados: imágenes con anotaciones, texto con categorías, audio con transcripciones. Crear estas etiquetas a escala es uno de los mayores cuellos de botella y costos en el desarrollo de IA.

La cadena de suministro de datos etiquetados:

— Amazon Mechanical Turk: plataforma de microtareas donde trabajadores ("Turkers") etiquetan datos por centavos por tarea. Un Turker experimentado gana $8-12/hora en promedio en EEUU.
— Scale AI: startup valorada en $13,8B que organiza la anotación profesional a gran escala para empresas como Meta, Toyota y el Departamento de Defensa de EEUU. Su reciente ronda de financiamiento valoró la empresa en $14B.
— Datos sintéticos: generar datos artificiales que preservan las estadísticas del conjunto real. NVIDIA Omniverse genera imágenes sintéticas fotorrealistas de escenas de conducción para entrenar sistemas de vehículos autónomos, evitando el costo y riesgo de recolectar millones de km de datos reales.
— Self-supervised learning: técnicas como BERT y GPT que aprenden de texto no etiquetado prediciendo palabras ocultas o siguientes, reduciendo la necesidad de etiquetado manual.

Privacidad y Técnicas de Preservación

Privacidad diferencial

La privacidad diferencial (differential privacy), desarrollada formalmente por Cynthia Dwork en 2006, proporciona una garantía matemática rigurosa: los resultados de un análisis no revelan si un individuo específico estaba o no en el dataset. La técnica añade ruido aleatorio calibrado a los resultados de consultas estadísticas de forma que las estadísticas agregadas son preservadas pero los datos individuales quedan protegidos.

Apple aplica privacidad diferencial en iOS para recolectar estadísticas de uso del teclado, detección de emojis populares y sugerencias de QuickType, sin que Apple pueda ver los textos individuales de ningún usuario. Google la usa para Chrome y Android. El parámetro ε (epsilon) controla el trade-off: ε pequeño = más privacidad pero menos utilidad estadística; ε grande = menos privacidad pero estadísticas más precisas.

Aprendizaje federado

El aprendizaje federado (federated learning), introducido por Google en 2017, invierte el paradigma tradicional: en lugar de llevar los datos al modelo, lleva el modelo a los datos. El modelo se entrena localmente en el dispositivo del usuario (teléfono, hospital, banco), y solo los gradientes actualizados —no los datos crudos— se envían al servidor central para agregar.

Google Keyboard (GBoard) usa aprendizaje federado para mejorar las sugerencias de texto en cientos de millones de teléfonos sin que Google vea nunca los mensajes de los usuarios. En salud, instituciones como el Cleveland Clinic, el Johns Hopkins Hospital y el Charité de Berlín pueden colaborar para entrenar modelos médicos sin compartir registros de pacientes, superando las barreras regulatorias de HIPAA y GDPR.

Datasets Abiertos Fundamentales

Dataset	Tamaño	Uso principal	Impacto
ImageNet	14M imágenes, 1.000 clases	Visión computacional	Desencadenó revolución deep learning 2012
Common Crawl	Petabytes de texto web (mensual)	Preentrenamiento LLMs	Base de GPT-3, Llama, Mistral
Wikipedia	~4,4M artículos (inglés)	NLP, QA, preentrenamiento	Benchmark universal de comprensión
LAION-5B	5.800M pares imagen-texto	Modelos de imagen generativa	Entrenamiento de Stable Diffusion
LibriSpeech	1.000 horas de audio	Reconocimiento de voz	Benchmark estándar de ASR
The Pile	825 GB de texto diverso	Entrenamiento LLMs	EleutherAI, modelos open source

El Flywheel de Datos: Por Qué Google y Meta Son Difíciles de Superar

El flywheel (volante de inercia) de datos describe una dinámica de auto-refuerzo: una empresa con más usuarios genera más datos; esos datos mejoran sus modelos de IA; los mejores modelos ofrecen mejor experiencia; la mejor experiencia atrae más usuarios; más usuarios generan más datos. Una vez que este volante comienza a girar, genera una ventaja competitiva que se auto-amplifica.

    El flywheel de datos de Google:

    8.500 millones de búsquedas diarias → datos de clics, reformulaciones, tiempos de permanencia → mejores resultados de búsqueda → más usuarios eligen Google → más búsquedas. Google ha estado acumulando estos datos desde 1998. Un nuevo buscador con el mejor algoritmo posible, pero sin datos de comportamiento de usuario a escala, no puede competir.

Para empresas que no son plataformas digitales, la respuesta estratégica no es competir en volumen de datos genéricos, sino construir ventajas en datos únicos del dominio: el fabricante de maquinaria industrial tiene datos de sensores que solo él posee; el hospital tiene historiales clínicos específicos de su población; el retailer conoce los patrones de compra de sus clientes locales. Estos datos de nicho, correctamente explotados, pueden crear ventajas competitivas sostenibles incluso contra gigantes tecnológicos.

Gobernanza de Datos: Catalogar, Rastrear, Monitorear

A medida que las organizaciones acumulan datos en múltiples sistemas, la pregunta "¿dónde están los datos sobre X?" se vuelve sorprendentemente difícil de responder. La gobernanza de datos responde a esto mediante:

Catálogos de datos: inventarios de todos los datasets disponibles, con metadatos sobre su origen, formato, calidad y responsable. Herramientas: Alation, Collibra, Apache Atlas.
Linaje de datos (data lineage): rastrear cómo fluyen los datos desde su origen hasta los dashboards y modelos finales. Esencial para auditorías regulatorias y diagnóstico de errores.
Monitoreo de calidad: sistemas automáticos que alertan cuando los datos cambian inesperadamente (data drift), faltan valores donde no debería haberlos, o las distribuciones se desvían de los patrones históricos.
Clasificación de sensibilidad: identificar qué datos son PII (Personally Identifiable Information), confidenciales o públicos, y aplicar controles de acceso apropiados.

Resumen del Capítulo

Las 5 Vs del Big Data (Volumen, Velocidad, Variedad, Veracidad, Valor) definen las dimensiones del desafío; se crean 2,5 quintillones de bytes diariamente.
Más datos supera a mejores algoritmos: ImageNet y el estudio Banko-Brill demuestran que la escala de datos es el factor más determinante en el rendimiento de los modelos.
Apache Spark es 100× más rápido que Hadoop para ML por mantener datos en memoria; la arquitectura cloud (S3, BigQuery, Azure Data Lake) ha democratizado el acceso a infraestructura de big data.
Los data scientists dedican el 80% de su tiempo a limpieza de datos; valores faltantes, duplicados, formatos inconsistentes y sesgo de selección son los problemas más comunes.
La privacidad diferencial (Apple, Google) y el aprendizaje federado (GBoard, salud hospitalaria) permiten entrenar modelos sin exponer datos individuales.
El flywheel de datos (más usuarios→datos→mejor IA→más usuarios) es la principal fuente de ventaja competitiva de Google, Meta y Amazon, difícil de superar sin datos únicos de dominio.
La gobernanza de datos (catálogos, linaje, monitoreo de calidad) es la infraestructura organizacional que convierte datos en un activo gestionable y auditable.