Inteligencia Artificial · Capítulo 7

IA Generativa: ChatGPT, DALL-E, Midjourney y la Revolución Creativa

La IA que crea — texto, imágenes, música, vídeo y código — y está redefiniendo los límites entre la creatividad humana y la artificial.

¿Qué es la IA Generativa?

La inteligencia artificial generativa es la rama de la IA que produce contenido nuevo y original: texto, imágenes, audio, vídeo, código, datos sintéticos. A diferencia de la IA discriminativa (que clasifica o predice), la IA generativa crea. Cuando le pides a ChatGPT que escriba un poema, a DALL-E que genere una ilustración, o a Suno que componga una canción, estás usando IA generativa.

El año 2022 fue el punto de inflexión: la publicación de ChatGPT en noviembre de ese año hizo que la IA generativa pasara de ser un tema académico a una tecnología de uso masivo. ChatGPT alcanzó 100 millones de usuarios en dos meses — la adopción más rápida de cualquier aplicación de consumo en la historia, superando a TikTok (9 meses) e Instagram (2.5 años).

Grandes Modelos de Lenguaje (LLMs)

En el corazón de ChatGPT, Claude, Gemini y todos los asistentes de IA de texto están los Grandes Modelos de Lenguaje (LLMs, por sus siglas en inglés). Son redes neuronales de la arquitectura Transformer, entrenadas en cantidades masivas de texto para predecir la siguiente palabra (o token) dada la secuencia anterior.

    ¿Qué son los parámetros? Los parámetros son los números (pesos) que definen el comportamiento de la red neuronal. Un modelo con más parámetros puede aprender relaciones más complejas. Sin embargo, más parámetros no es siempre mejor: requieren más datos para entrenarse, más computación para inferencia, y pueden ser superados por modelos más pequeños con mejores datos y técnicas de entrenamiento.
  

Modelo	Año	Parámetros (aprox.)	Hito
GPT-1 (OpenAI)	2018	117 millones	Primer modelo GPT; demostró transferencia de aprendizaje en NLP
GPT-2 (OpenAI)	2019	1,500 millones	OpenAI retrasó su lanzamiento por preocupaciones de uso indebido
GPT-3 (OpenAI)	2020	175,000 millones	Primera demostración de capacidades emergentes sorprendentes
PaLM (Google)	2022	540,000 millones	Razonamiento de varios pasos; codificación avanzada
GPT-4 (OpenAI)	2023	>1 billón (estimado)	Aprobó el examen de abogacía en el percentil 90; entrada multimodal
Claude 3 Opus (Anthropic)	2024	No publicado	Superó a GPT-4 en múltiples benchmarks de razonamiento
Gemini Ultra (Google)	2024	No publicado	Primer modelo en superar expertos humanos en MMLU

Cómo se Construyó ChatGPT: El Proceso de Tres Etapas

Etapa 1: Preentrenamiento

El modelo aprende a predecir la siguiente palabra en texto de internet. OpenAI usó aproximadamente 570 GB de texto filtrado de Common Crawl (una copia de gran parte de la web), libros, Wikipedia y otras fuentes. A esta escala, el modelo no solo aprende gramática sino que absorbe vastos conocimientos sobre el mundo, el razonamiento matemático, la programación, la historia y prácticamente cualquier tema documentado en texto humano.

Etapa 2: Ajuste Fino Supervisado (SFT)

El modelo preentrenado responde preguntas de forma competente pero impredecible: puede ser ofensivo, divagar o no seguir instrucciones. En la segunda etapa, un equipo de trabajadores humanos crea conversaciones de ejemplo demostrando cómo debería comportarse el modelo — respuestas útiles, inofensivas y honestas. El modelo se ajusta fino sobre estos ejemplos para imitar el comportamiento deseable.

Etapa 3: RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana)

Esta es la etapa que más diferencia a ChatGPT de un modelo GPT estándar. Los trabajadores humanos comparan pares de respuestas del modelo y ordenan cuál es mejor. Un modelo de recompensa aprende a predecir qué respuestas prefieren los humanos. Luego, usando aprendizaje por refuerzo (PPO — Proximal Policy Optimization), el modelo principal se optimiza para producir respuestas que el modelo de recompensa califica como buenas. Este ciclo convierte un potente predictor de texto en un asistente útil y alineado con los valores humanos.

Prompts del Sistema, Temperatura y Contexto

Cuando usas ChatGPT, Claude o Gemini, hay una arquitectura de conversación bajo el capó:

Estructura de una conversación con un LLM: [SYSTEM PROMPT] "Eres un tutor de matemáticas amable y paciente. Explica conceptos paso a paso. Usa ejemplos concretos. Nunca des la respuesta directa; guía al estudiante a descubrirla." [USER] "No entiendo cómo resolver ecuaciones cuadráticas." [ASSISTANT] "¡Excelente pregunta! Empecemos con lo básico. ¿Sabes qué es una ecuación de segundo grado?..." [USER] "Sí, es cuando hay x al cuadrado." [ASSISTANT] "¡Exacto! Ahora, ¿puedes decirme cuántas soluciones puede tener una ecuación así?..."

El prompt del sistema establece el comportamiento del modelo para toda la conversación. El historial de conversación permite al modelo mantener contexto entre mensajes. El tamaño del historial que el modelo puede "recordar" se llama ventana de contexto: GPT-3.5 puede manejar ~4,000 tokens; GPT-4 Turbo hasta 128,000 tokens (aproximadamente un libro de 100,000 palabras).

La temperatura controla la aleatoriedad de las respuestas. Con temperatura 0, el modelo siempre elige el token más probable — respuestas deterministas y conservadoras. Con temperatura 1, hay más variabilidad y creatividad. Con temperatura 2, las respuestas se vuelven caóticas e incoherentes. Para tareas de análisis de datos: temperatura 0; para escritura creativa: 0.7-1.0.

Generación de Imágenes: Modelos de Difusión

Mientras los LLMs generan texto token a token, los modelos de generación de imágenes como DALL-E 3, Midjourney y Stable Diffusion usan un enfoque radicalmente diferente: los modelos de difusión.

    El proceso de difusión en dos fases:

    Fase de entrenamiento (forward diffusion): Se toma una imagen real y se le añade ruido gaussiano gradualmente en T pasos (típicamente T=1000), hasta que la imagen se convierte en puro ruido aleatorio. La red neuronal aprende a predecir cuánto ruido fue añadido en cada paso.

    Generación (reverse diffusion): Se comienza con puro ruido aleatorio y se aplica el proceso inverso T veces, eliminando gradualmente el ruido. Guiado por el texto del prompt (mediante un mecanismo de atención cruzada), el modelo "esculpe" la imagen desde el ruido hacia una imagen coherente que corresponde a la descripción.

CLIP (Contrastive Language-Image Pre-Training, OpenAI 2021) es el componente que conecta texto con imágenes: fue entrenado en 400 millones de pares imagen-texto de internet para aprender que la representación vectorial de "una manzana roja" debe ser cercana a la representación vectorial de una foto de una manzana roja. Este embedding compartido texto-imagen es lo que permite a los modelos de difusión seguir instrucciones textuales.

Herramienta	Fortaleza	Limitación	Acceso
DALL-E 3	Integración con ChatGPT; sigue instrucciones textuales con alta precisión; buen texto en imágenes	Estilo puede ser genérico; control artístico limitado	ChatGPT Plus (pago)
Midjourney v6	Calidad artística excepcional; estilos fotorrealistas e ilustrativos	Solo via Discord; no genera texto en imágenes bien	Suscripción $10-$60/mes
Stable Diffusion	Código abierto; ejecutable localmente; altamente personalizable	Requiere conocimiento técnico; hardware potente para calidad alta	Gratis (open source)
Adobe Firefly	Entrenado solo en imágenes con licencia; seguro para uso comercial	Calidad inferior a Midjourney en estilos artísticos complejos	Adobe Creative Cloud

Generación de Vídeo, Música y Código

Vídeo: Sora (OpenAI, 2024)

En febrero de 2024, OpenAI presentó Sora: un modelo capaz de generar vídeos de hasta 60 segundos a partir de descripciones textuales, con coherencia física y temporal sorprendente. Sora usa una arquitectura de diffusion transformer que opera sobre "parches espacio-temporales" del vídeo. Las demostraciones incluyeron una escena de mamuts lanudos corriendo en la nieve, calles de Tokio animadas y planos cinematográficos de alta calidad — todos generados desde texto. El acceso masivo al público se dio gradualmente desde finales de 2024.

Música: Suno y Udio

Suno v3 (2024) puede generar canciones completas con letra, instrumentación y voz a partir de una descripción textual: "una canción de rock alternativo sobre nostalgia de los años 90, con guitarras distorsionadas y letra en español". La calidad alcanzada en 2024 es suficiente para confundirse con grabaciones independientes reales. Udio ofrece capacidades similares con más control sobre los géneros.

Código: GitHub Copilot y Claude

GitHub Copilot (Microsoft/OpenAI) completó más de 46% del código escrito por sus usuarios en 2023, según datos de GitHub. Los desarrolladores que lo usan completan tareas un 55% más rápido, según un estudio controlado de GitHub. Claude de Anthropic destaca especialmente en tareas de programación complejas. Estos asistentes de código han redefinido el flujo de trabajo del desarrollo de software.

IA Multimodal

Los modelos de IA modernos superaron la restricción de un solo tipo de datos. GPT-4V (V de "vision"), Claude 3 y Gemini pueden procesar simultáneamente texto e imágenes como entrada. Gemini Ultra de Google fue diseñado desde cero como modelo multimodal nativo, procesando texto, imágenes, audio y vídeo en un único modelo unificado. Esto abre posibilidades como analizar un gráfico y responder preguntas sobre él, describir el contenido de una foto o transcribir y analizar audio.

Ingeniería de Prompts

La calidad de la respuesta de un LLM depende enormemente de cómo se formula la petición. La ingeniería de prompts es la disciplina de diseñar instrucciones efectivas.

Prompt mediocre: "Escribe sobre cambio climático" Prompt de ingeniería avanzada: "Actúa como un científico climático con 20 años de experiencia. Explica los tres mecanismos de retroalimentación positiva más importantes del cambio climático a un estudiante de preparatoria que ya entiende conceptos básicos de química. Usa analogías cotidianas. Limita la respuesta a 400 palabras. Termina con dos preguntas de reflexión que inviten al estudiante a pensar críticamente sobre el tema." Técnicas clave: - Asignar un rol ("actúa como...") - Especificar audiencia y nivel - Pedir formato específico - Chain-of-thought: "piensa paso a paso" - Few-shot: proporcionar ejemplos del output deseado

Alucinaciones y Limitaciones Actuales

Los LLMs alucinan — inventan hechos con la misma confianza con la que dicen verdades. ¿Por qué? Porque están entrenados para predecir el siguiente token más plausible, no para ser verídicos. Si el contexto sugiere que debería venir una fecha o un nombre, el modelo genera uno que "suena correcto" aunque sea incorrecto. Esto es especialmente problemático para citas bibliográficas, estadísticas específicas y eventos recientes.

Otras limitaciones importantes:

Fecha de corte del conocimiento: Los modelos tienen una fecha hasta la cual se entrenaron. No saben lo que ocurrió después (aunque algunos tienen acceso a búsqueda web).
Sin memoria entre sesiones: Cada conversación comienza desde cero, a menos que se implemente memoria explícita.
Aritmética y razonamiento formal: Los LLMs cometen errores en matemáticas que un estudiante de primaria no cometería, porque procesan números como tokens, no como valores numéricos.
Sesgo: Los modelos heredan los sesgos presentes en sus datos de entrenamiento (internet), que incluye perspectivas sobrerrepresentadas de países anglófonos de ingresos altos.

Resumen del Capítulo

La IA generativa crea contenido nuevo (texto, imágenes, audio, vídeo, código); ChatGPT alcanzó 100 millones de usuarios en 2 meses, la adopción más rápida de cualquier aplicación en la historia.
Los LLMs se construyen en tres etapas: preentrenamiento en texto masivo de internet (predicción del siguiente token), ajuste fino supervisado con ejemplos humanos, y RLHF donde humanos califican respuestas para entrenar un modelo de recompensa que guía la optimización.
La temperatura controla la aleatoriedad: temperatura 0 produce respuestas deterministas; temperatura alta produce creatividad (y eventual incoherencia); la ventana de contexto determina cuánto "recuerda" el modelo en una conversación.
Los modelos de difusión generan imágenes partiendo de ruido aleatorio puro y eliminando ese ruido gradualmente, guiados por el texto del prompt mediante representaciones CLIP que alinean el espacio de texto e imágenes.
La IA generativa ya produce vídeo (Sora), música completa (Suno/Udio) y código (GitHub Copilot completa el 46% del código de sus usuarios); los modelos multimodales como Gemini procesan texto, imagen, audio y vídeo en un único modelo unificado.
Las alucinaciones son una limitación estructural: los LLMs predicen tokens plausibles, no verdades verificadas; también carecen de conocimiento de eventos post-entrenamiento, memoria entre sesiones y capacidad aritmética confiable.
La ingeniería de prompts — especificar rol, audiencia, formato, nivel de detalle y técnicas como chain-of-thought — mejora dramáticamente la calidad de las respuestas de los LLMs.