La IA que crea — texto, imágenes, música, vídeo y código — y está redefiniendo los límites entre la creatividad humana y la artificial.
La inteligencia artificial generativa es la rama de la IA que produce contenido nuevo y original: texto, imágenes, audio, vídeo, código, datos sintéticos. A diferencia de la IA discriminativa (que clasifica o predice), la IA generativa crea. Cuando le pides a ChatGPT que escriba un poema, a DALL-E que genere una ilustración, o a Suno que componga una canción, estás usando IA generativa.
El año 2022 fue el punto de inflexión: la publicación de ChatGPT en noviembre de ese año hizo que la IA generativa pasara de ser un tema académico a una tecnología de uso masivo. ChatGPT alcanzó 100 millones de usuarios en dos meses — la adopción más rápida de cualquier aplicación de consumo en la historia, superando a TikTok (9 meses) e Instagram (2.5 años).
En el corazón de ChatGPT, Claude, Gemini y todos los asistentes de IA de texto están los Grandes Modelos de Lenguaje (LLMs, por sus siglas en inglés). Son redes neuronales de la arquitectura Transformer, entrenadas en cantidades masivas de texto para predecir la siguiente palabra (o token) dada la secuencia anterior.
| Modelo | Año | Parámetros (aprox.) | Hito |
|---|---|---|---|
| GPT-1 (OpenAI) | 2018 | 117 millones | Primer modelo GPT; demostró transferencia de aprendizaje en NLP |
| GPT-2 (OpenAI) | 2019 | 1,500 millones | OpenAI retrasó su lanzamiento por preocupaciones de uso indebido |
| GPT-3 (OpenAI) | 2020 | 175,000 millones | Primera demostración de capacidades emergentes sorprendentes |
| PaLM (Google) | 2022 | 540,000 millones | Razonamiento de varios pasos; codificación avanzada |
| GPT-4 (OpenAI) | 2023 | >1 billón (estimado) | Aprobó el examen de abogacía en el percentil 90; entrada multimodal |
| Claude 3 Opus (Anthropic) | 2024 | No publicado | Superó a GPT-4 en múltiples benchmarks de razonamiento |
| Gemini Ultra (Google) | 2024 | No publicado | Primer modelo en superar expertos humanos en MMLU |
El modelo aprende a predecir la siguiente palabra en texto de internet. OpenAI usó aproximadamente 570 GB de texto filtrado de Common Crawl (una copia de gran parte de la web), libros, Wikipedia y otras fuentes. A esta escala, el modelo no solo aprende gramática sino que absorbe vastos conocimientos sobre el mundo, el razonamiento matemático, la programación, la historia y prácticamente cualquier tema documentado en texto humano.
El modelo preentrenado responde preguntas de forma competente pero impredecible: puede ser ofensivo, divagar o no seguir instrucciones. En la segunda etapa, un equipo de trabajadores humanos crea conversaciones de ejemplo demostrando cómo debería comportarse el modelo — respuestas útiles, inofensivas y honestas. El modelo se ajusta fino sobre estos ejemplos para imitar el comportamiento deseable.
Esta es la etapa que más diferencia a ChatGPT de un modelo GPT estándar. Los trabajadores humanos comparan pares de respuestas del modelo y ordenan cuál es mejor. Un modelo de recompensa aprende a predecir qué respuestas prefieren los humanos. Luego, usando aprendizaje por refuerzo (PPO — Proximal Policy Optimization), el modelo principal se optimiza para producir respuestas que el modelo de recompensa califica como buenas. Este ciclo convierte un potente predictor de texto en un asistente útil y alineado con los valores humanos.
Cuando usas ChatGPT, Claude o Gemini, hay una arquitectura de conversación bajo el capó:
El prompt del sistema establece el comportamiento del modelo para toda la conversación. El historial de conversación permite al modelo mantener contexto entre mensajes. El tamaño del historial que el modelo puede "recordar" se llama ventana de contexto: GPT-3.5 puede manejar ~4,000 tokens; GPT-4 Turbo hasta 128,000 tokens (aproximadamente un libro de 100,000 palabras).
La temperatura controla la aleatoriedad de las respuestas. Con temperatura 0, el modelo siempre elige el token más probable — respuestas deterministas y conservadoras. Con temperatura 1, hay más variabilidad y creatividad. Con temperatura 2, las respuestas se vuelven caóticas e incoherentes. Para tareas de análisis de datos: temperatura 0; para escritura creativa: 0.7-1.0.
Mientras los LLMs generan texto token a token, los modelos de generación de imágenes como DALL-E 3, Midjourney y Stable Diffusion usan un enfoque radicalmente diferente: los modelos de difusión.
CLIP (Contrastive Language-Image Pre-Training, OpenAI 2021) es el componente que conecta texto con imágenes: fue entrenado en 400 millones de pares imagen-texto de internet para aprender que la representación vectorial de "una manzana roja" debe ser cercana a la representación vectorial de una foto de una manzana roja. Este embedding compartido texto-imagen es lo que permite a los modelos de difusión seguir instrucciones textuales.
| Herramienta | Fortaleza | Limitación | Acceso |
|---|---|---|---|
| DALL-E 3 | Integración con ChatGPT; sigue instrucciones textuales con alta precisión; buen texto en imágenes | Estilo puede ser genérico; control artístico limitado | ChatGPT Plus (pago) |
| Midjourney v6 | Calidad artística excepcional; estilos fotorrealistas e ilustrativos | Solo via Discord; no genera texto en imágenes bien | Suscripción $10-$60/mes |
| Stable Diffusion | Código abierto; ejecutable localmente; altamente personalizable | Requiere conocimiento técnico; hardware potente para calidad alta | Gratis (open source) |
| Adobe Firefly | Entrenado solo en imágenes con licencia; seguro para uso comercial | Calidad inferior a Midjourney en estilos artísticos complejos | Adobe Creative Cloud |
En febrero de 2024, OpenAI presentó Sora: un modelo capaz de generar vídeos de hasta 60 segundos a partir de descripciones textuales, con coherencia física y temporal sorprendente. Sora usa una arquitectura de diffusion transformer que opera sobre "parches espacio-temporales" del vídeo. Las demostraciones incluyeron una escena de mamuts lanudos corriendo en la nieve, calles de Tokio animadas y planos cinematográficos de alta calidad — todos generados desde texto. El acceso masivo al público se dio gradualmente desde finales de 2024.
Suno v3 (2024) puede generar canciones completas con letra, instrumentación y voz a partir de una descripción textual: "una canción de rock alternativo sobre nostalgia de los años 90, con guitarras distorsionadas y letra en español". La calidad alcanzada en 2024 es suficiente para confundirse con grabaciones independientes reales. Udio ofrece capacidades similares con más control sobre los géneros.
GitHub Copilot (Microsoft/OpenAI) completó más de 46% del código escrito por sus usuarios en 2023, según datos de GitHub. Los desarrolladores que lo usan completan tareas un 55% más rápido, según un estudio controlado de GitHub. Claude de Anthropic destaca especialmente en tareas de programación complejas. Estos asistentes de código han redefinido el flujo de trabajo del desarrollo de software.
Los modelos de IA modernos superaron la restricción de un solo tipo de datos. GPT-4V (V de "vision"), Claude 3 y Gemini pueden procesar simultáneamente texto e imágenes como entrada. Gemini Ultra de Google fue diseñado desde cero como modelo multimodal nativo, procesando texto, imágenes, audio y vídeo en un único modelo unificado. Esto abre posibilidades como analizar un gráfico y responder preguntas sobre él, describir el contenido de una foto o transcribir y analizar audio.
La calidad de la respuesta de un LLM depende enormemente de cómo se formula la petición. La ingeniería de prompts es la disciplina de diseñar instrucciones efectivas.
Los LLMs alucinan — inventan hechos con la misma confianza con la que dicen verdades. ¿Por qué? Porque están entrenados para predecir el siguiente token más plausible, no para ser verídicos. Si el contexto sugiere que debería venir una fecha o un nombre, el modelo genera uno que "suena correcto" aunque sea incorrecto. Esto es especialmente problemático para citas bibliográficas, estadísticas específicas y eventos recientes.
Otras limitaciones importantes: