Inteligencia Artificial · Capítulo 5

Procesamiento del Lenguaje Natural (NLP): Cuando las Máquinas Entienden el Idioma

El lenguaje humano es la forma de comunicación más compleja que existe; enseñárselo a una computadora es uno de los mayores desafíos de la IA.

¿Por Qué el Lenguaje es Tan Difícil para las Computadoras?

Cuando lees la frase "Vi al hombre con el telescopio", tu cerebro la entiende sin esfuerzo, aunque es profundamente ambigua. ¿Usaste el telescopio para verlo? ¿O él llevaba el telescopio? Un humano resuelve esta ambiguedad en milisegundos usando contexto, conocimiento del mundo y modelos mentales sofisticados que desarrolló a lo largo de años. Para una computadora, esto es enormemente difícil.

El lenguaje humano presenta al menos seis tipos de complejidad que lo distinguen de cualquier lenguaje formal:

Ambigüedad léxica: La palabra "banco" puede ser una institución financiera, un asiento, o la orilla de un río. El contexto decide.
Ambigüedad sintáctica: "El pollo está listo para comer" — ¿quién va a comer a quién?
Correferencia: En "María le dijo a Ana que ella había ganado", ¿quién ganó?
Sarcasmo e ironía: "¡Qué gran idea!" puede significar exactamente lo opuesto.
Conocimiento implícito: "Pedro salió de la cárcel y buscó trabajo" implica que Pedro estaba preso antes, aunque no se dice explícitamente.
Variación cultural y dialectal: El español de México, Argentina y España tiene vocabulario, expresiones y hasta gramática que difieren significativamente.

Enfoques Tradicionales de NLP

Antes del deep learning, el NLP se basaba en representaciones estadísticas simples que ignoraban el significado profundo pero capturaban patrones superficiales útiles.

Bolsa de Palabras (Bag of Words)

Representa un documento como un vector de frecuencias de palabras, ignorando el orden. Un vocabulario de 10,000 palabras produce vectores de 10,000 dimensiones donde cada posición indica cuántas veces aparece esa palabra en el documento. Eficaz para clasificación de texto simple, pero pierde todo el contexto: "el perro muerde al hombre" y "el hombre muerde al perro" producen representaciones idénticas.

TF-IDF

Term Frequency-Inverse Document Frequency mejora la bolsa de palabras ponderando las palabras: una palabra que aparece mucho en un documento pero raramente en el corpus tiene un peso alto (es "característica" de ese documento). Palabras como "el", "de", "la" aparecen en todos los documentos y reciben peso bajo. TF-IDF fue el estándar en motores de búsqueda durante décadas.

N-gramas

Captura secuencias de n palabras consecutivas. Los bigramas (n=2) de "el gato come pescado" son: "el gato", "gato come", "come pescado". Añade algo de contexto local pero escala mal: el número de posibles bigramas es el cuadrado del vocabulario.

Word Embeddings: Palabras como Vectores

En 2013, un equipo de Google liderado por Tomas Mikolov publicó Word2Vec, que revolucionó el NLP. La idea central: en lugar de representar palabras como vectores dispersos de frecuencias, aprender representaciones densas de 100-300 dimensiones donde palabras con significados similares tienen vectores similares.

    La magia de Word2Vec: El modelo se entrena para predecir palabras dado su contexto (o contexto dada la palabra). Como subproducto, aprende representaciones que capturan relaciones semánticas y sintácticas:

    vector("rey") - vector("hombre") + vector("mujer") ≈ vector("reina")

    vector("París") - vector("Francia") + vector("Alemania") ≈ vector("Berlín")

    vector("correr") - vector("corría") ≈ vector("caminar") - vector("caminaba")

Estas relaciones emergen de forma completamente no supervisada, simplemente de predecir palabras en su contexto en corpus de texto masivos. GloVe (Global Vectors, Stanford 2014) alcanzó resultados similares mediante un enfoque diferente basado en co-ocurrencia global de palabras.

El problema de los embeddings estáticos: la misma palabra siempre tiene el mismo vector, sin importar el contexto. "Banco" tiene un solo vector aunque signifique cosas muy diferentes en "Banco de México" y "me senté en el banco del parque". Los modelos modernos como BERT resuelven esto con embeddings contextualizados.

La Revolución del Transformer y el Mecanismo de Atención

En 2017, investigadores de Google publicaron el paper "Attention Is All You Need", introduciendo la arquitectura Transformer. Hoy, prácticamente todos los modelos de NLP de última generación —BERT, GPT, T5, Claude, Gemini— son variantes de esta arquitectura.

El componente central es el mecanismo de atención. La intuición: al procesar cada palabra, el modelo "atiende" a otras palabras de la secuencia con pesos que indican su relevancia. Para entender "banco" en "el cliente entró al banco a depositar dinero", el modelo aprende a dar peso alto a "cliente", "depositar" y "dinero", y peso bajo a "entró" y "al".

Mecanismo de atención (simplificado): Para procesar la palabra "banco" en la oración: "El cliente entró al banco a depositar dinero" Pesos de atención calculados: "El" → 0.02 "cliente" → 0.18 "entró" → 0.05 "al" → 0.03 "banco" → 0.12 (la propia palabra) "a" → 0.02 "depositar"→ 0.31 "dinero" → 0.27 ------ Total = 1.00 La representación contextualizada de "banco" es una combinación ponderada de todas las representaciones, dominada por "depositar" y "dinero" → significado financiero.

La atención multi-cabeza (multi-head attention) ejecuta este proceso en paralelo múltiples veces (ej: 8 o 16 "cabezas"), cada una aprendiendo a atender a distintos tipos de relaciones: una cabeza puede enfocarse en relaciones sintácticas (sujeto-verbo), otra en correferencias, otra en negaciones semánticas.

BERT (2018, Google)

BERT (Bidirectional Encoder Representations from Transformers) se preentrenó en 3,300 millones de palabras de Wikipedia y BookCorpus con dos tareas: predecir palabras enmascaradas aleatoriamente ("El gato [MASK] sobre la alfombra" → "estaba") y predecir si dos oraciones son consecutivas. Este preentrenamiento bidireccional le da a BERT un profundo entendimiento del contexto, tanto a izquierda como a derecha de cada palabra. BERT batió los récords del estado del arte en 11 tareas de NLP el mismo mes de su publicación.

GPT (2018-presente, OpenAI)

Mientras BERT es un "encoder" (entiende texto), GPT es un "decoder" (genera texto). Se entrena para predecir la siguiente palabra dada la secuencia anterior. GPT-1 tenía 117 millones de parámetros; GPT-4 se estima en más de un billón. La diferencia en capacidad es exponencial y se manifiesta en habilidades emergentes: GPT-4 puede razonar, traducir, programar, componer poesía y mantener conversaciones coherentes sobre temas complejos.

Tareas Principales de NLP

Tarea	Descripción	Aplicación real
Tokenización	Dividir texto en unidades mínimas (tokens)	Paso previo a cualquier procesamiento
POS Tagging	Etiquetar cada palabra con su categoría gramatical (sustantivo, verbo, etc.)	Análisis sintáctico, asistentes de escritura
NER	Reconocer entidades nombradas: personas, lugares, organizaciones, fechas	Extracción de información de contratos, noticias
Análisis de sentimiento	Clasificar si un texto expresa opinión positiva, negativa o neutra	Monitoreo de redes sociales, reseñas de productos
Traducción automática	Traducir texto entre idiomas	Google Translate, DeepL
Resumen automático	Condensar documentos largos en resúmenes	Resumen de noticias, documentos legales
Respuesta a preguntas (QA)	Responder preguntas basadas en un contexto dado	Asistentes virtuales, búsqueda empresarial
Clasificación de texto	Asignar categorías a textos	Clasificación de tickets de soporte, spam

Métricas de Evaluación en NLP

La puntuación BLEU (Bilingual Evaluation Understudy) mide la calidad de las traducciones comparando n-gramas entre la traducción automática y traducciones de referencia hechas por humanos. Un BLEU de 0.6 es considerado muy bueno; 0.4-0.5 es aceptable para usos prácticos. Para resúmenes se usa la métrica ROUGE; para modelos de lenguaje se usa la perplejidad (qué tan sorprendido está el modelo ante texto nuevo; menor perplejidad = mejor modelo).

Aplicaciones Reales del NLP

Motores de búsqueda: Google usa BERT desde 2019 para entender la intención de búsqueda, no solo palabras clave. El lanzamiento de BERT mejoró el 10% de todas las búsquedas en inglés.
Asistentes virtuales: Siri, Alexa, Google Assistant combinan reconocimiento de voz + NLP para entender comandos en lenguaje natural.
Autocompletado: Gmail's Smart Compose y el teclado de tu teléfono usan modelos de lenguaje para predecir las siguientes palabras.
Detección de fraude en seguros: NLP analiza descripciones de siniestros buscando inconsistencias o patrones de fraude.
Análisis de sentimiento en finanzas: Fondos de inversión usan NLP para analizar millones de noticias y tweets financieros, tomando decisiones de trading antes que los humanos puedan leerlas.
Diagnóstico médico desde notas: Los sistemas de NLP extraen diagnósticos, medicamentos y síntomas de las notas clínicas escritas por médicos, estructurando información que antes era inutilizable por ser texto libre.

Limitaciones Críticas del NLP Moderno

    Alucinaciones: Los modelos de lenguaje generativos (GPT, Claude, Gemini) producen texto fluido y convincente incluso cuando inventan hechos. No "saben" cuándo no saben algo; generan la continuación estadísticamente más plausible de la secuencia de tokens, que puede ser completamente falsa. Esta es la limitación más importante y difícil de resolver en los modelos actuales.

    Sesgo en los datos de entrenamiento: Si el corpus de entrenamiento contiene sesgos humanos (racismo, sexismo, estereotipos), el modelo los amplifica. Estudios han mostrado que Word2Vec asocia palabras de carreras de programación con nombres masculinos y palabras domésticas con nombres femeninos, reflejando sesgos históricos del texto en internet.

    Falta de sentido común genuino: Los modelos pueden fallar en inferencias simples que cualquier niño de 5 años resuelve trivialmente, pero que requieren conocimiento del mundo físico y social que no se aprende de texto.

Resumen del Capítulo

El lenguaje natural es extraordinariamente difícil para las computadoras por su ambigüedad en múltiples niveles (léxica, sintáctica, pragmática), dependencia del contexto, sarcasmo y conocimiento implícito del mundo.
Los enfoques tradicionales (bolsa de palabras, TF-IDF, n-gramas) capturan patrones superficiales pero ignoran el orden y el significado; fueron reemplazados por representaciones vectoriales densas.
Word2Vec (Google, 2013) aprendió que las relaciones semánticas se codifican como operaciones vectoriales: rey - hombre + mujer ≈ reina; los embeddings contextualizados de BERT superaron esta limitación al producir distintos vectores para la misma palabra según el contexto.
El Transformer (2017) y su mecanismo de atención revolucionaron el NLP: cada token "atiende" a todos los demás con pesos aprendidos, capturando dependencias de largo alcance de forma más eficiente que las RNNs.
Las tareas de NLP incluyen tokenización, POS tagging, NER, análisis de sentimiento, traducción, resumen, QA y clasificación; los modelos modernos como BERT y GPT dominan casi todas mediante preentrenamiento masivo seguido de ajuste fino.
Las alucinaciones (inventar hechos con confianza), el sesgo en datos de entrenamiento y la falta de sentido común genuino son las limitaciones más críticas de los sistemas de NLP actuales.