Inteligencia Artificial · Capítulo 21
Modelos de Lenguaje Grande (LLMs)
Cómo funcionan ChatGPT, Claude y Gemini por dentro: la tecnología detrás de la revolución de la IA conversacional.
¿Qué es un LLM?
Un Modelo de Lenguaje Grande (LLM, Large Language Model) es una red neuronal entrenada con enormes cantidades de texto para predecir y generar lenguaje humano de forma coherente.
Dato clave: GPT-4 fue entrenado con cientos de miles de millones de palabras de texto — equivalente a millones de libros — y tiene cientos de miles de millones de parámetros ajustables.
Cómo Funciona un LLM
| Etapa | Qué Ocurre |
|---|
| Pre-entrenamiento | El modelo aprende patrones del lenguaje analizando texto masivo de internet |
| Tokenización | El texto se divide en fragmentos (tokens) que el modelo puede procesar |
| Arquitectura Transformer | Permite al modelo entender el contexto de cada palabra en relación a todas las demás |
| Ajuste fino (Fine-tuning) | Se entrena adicionalmente con ejemplos de conversaciones útiles y seguras |
Predicción de palabra por palabra: Un LLM no "entiende" como un humano — predice la siguiente palabra más probable basándose en patrones estadísticos aprendidos de billones de ejemplos de texto.
Limitaciones de los LLMs
- Alucinaciones: pueden generar información falsa con total confianza
- Sin conocimiento en tiempo real: su conocimiento tiene una fecha de corte
- Sesgo de los datos de entrenamiento: reflejan los sesgos presentes en el texto usado para entrenarlos
Resumen
- Un LLM predice y genera lenguaje basándose en patrones aprendidos de texto masivo
- La arquitectura Transformer permite entender el contexto de las palabras
- Los LLMs pueden "alucinar" información falsa con aparente seguridad
- Su conocimiento tiene una fecha de corte de entrenamiento