Matemáticas · Capítulo 13

Estadística Básica: Análisis e Interpretación de Datos

Cómo recolectar, organizar, resumir y visualizar datos para extraer conclusiones válidas sobre el mundo


Introducción: Por Qué la Estadística es Esencial

Vivimos en la era del dato. Cada decisión médica relevante se basa en estudios clínicos; cada política pública debería basarse en evidencia estadística; cada empresa toma decisiones de inversión analizando datos históricos. La estadística es el lenguaje en que el mundo resume su conocimiento empírico. Sin comprensión estadística, somos incapaces de evaluar si una afirmación está respaldada por evidencia o es meramente anecdótica.

La estadística se divide en dos grandes ramas: la estadística descriptiva, que resume y describe datos existentes, y la estadística inferencial, que usa muestras para hacer generalizaciones sobre poblaciones. Este capítulo se enfoca en la estadística descriptiva como fundamento indispensable.

Tipos de Datos

Clasificación de datos:

Recolección de Datos: Censo vs. Muestreo

Un censo mide a todos los individuos de la población de interés. Es ideal pero frecuentemente impractical: ¿cómo encuestarías a los 130 millones de mexicanos? ¿o analizarías la calidad de cada tornillo producido en una fábrica (el análisis lo destruiría)?

Un muestreo selecciona una parte representativa de la población. La clave es la representatividad —que la muestra refleje fielmente las características de la población— lo cual depende del método de selección.

Método de muestreoDescripciónVentajaRiesgo
Aleatorio simpleCada individuo tiene igual probabilidad de ser seleccionadoSin sesgo sistemáticoPuede no cubrir subgrupos pequeños
EstratificadoDividir en estratos (grupos) y muestrear proporcionalmente de cada unoGarantiza representación de subgruposRequiere conocer los estratos de antemano
Por conglomeradosSeleccionar grupos (escuelas, barrios) y estudiar todos dentro del grupoEconómico cuando la población está geográficamente dispersaMayor varianza que el aleatorio simple
Por convenienciaSeleccionar los más accesibles (estudiantes de tu clase)Muy fácil y baratoAlto riesgo de sesgo de selección; resultados no generalizables

Medidas de Tendencia Central

Media aritmética

La media (o promedio) es la suma de todos los valores dividida entre el número de observaciones.

Fórmula: x̄ = (x₁ + x₂ + ... + xₙ) / n = Σxᵢ / n
Ejemplo completo: Notas de 10 estudiantes en un examen: 72, 85, 91, 68, 77, 83, 95, 70, 88, 61

Paso 1 — Sumar todos los valores:
72 + 85 + 91 + 68 + 77 + 83 + 95 + 70 + 88 + 61 = 790

Paso 2 — Dividir entre n = 10:
x̄ = 790 / 10 = 79

La media del grupo es 79 puntos.

Efecto de los valores extremos (outliers): Si el peor estudiante hubiera sacado 11 en lugar de 61, la media bajaría a (790 − 61 + 11)/10 = 74. La media es sensible a valores atípicos.

Mediana

La mediana es el valor central cuando los datos están ordenados. Divide la distribución en dos mitades iguales.

Cálculo de la mediana con los mismos datos:

Paso 1 — Ordenar de menor a mayor:
61, 68, 70, 72, 77, 83, 85, 88, 91, 95

Paso 2 — n = 10 (par) → la mediana es el promedio de los valores en las posiciones n/2 y n/2+1:
Posición 5: 77 | Posición 6: 83

Mediana = (77 + 83) / 2 = 80

Para n impar (ejemplo: 7 valores: 3, 5, 7, 9, 11, 13, 15) → posición central = (7+1)/2 = 4ª posición → Mediana = 9

Moda

La moda es el valor que aparece con mayor frecuencia. Una distribución puede ser unimodal (una sola moda), bimodal (dos modas) o multimodal.

Ejemplos:
Datos: 3, 5, 5, 7, 8, 9, 9, 9, 11 → Moda = 9 (aparece 3 veces)
Datos: 2, 4, 4, 6, 8, 8, 10 → Modas = 4 y 8 (bimodal)
Tallas de zapato en una tienda: la moda es la talla más vendida, independientemente de la media.
¿Cuándo usar cada medida?

Medidas de Dispersión

Rango

El rango es simplemente la diferencia entre el valor máximo y el mínimo: Rango = Máximo − Mínimo. En nuestro ejemplo: 95 − 61 = 34. El rango es fácil de calcular pero muy sensible a outliers y no usa la información de los valores intermedios.

Varianza y desviación estándar

La desviación estándar mide el "alejamiento típico" de los datos respecto a su media. Es la medida de dispersión más usada en estadística.

Fórmulas:
Varianza muestral: s² = Σ(xᵢ − x̄)² / (n−1)
Desviación estándar muestral: s = √s²

Nota: dividimos entre (n−1), no n, porque estamos estimando la varianza de una población a partir de una muestra (corrección de Bessel).
Cálculo paso a paso con 5 valores simples: 4, 7, 13, 16, 10

Paso 1 — Calcular la media: x̄ = (4+7+13+16+10)/5 = 50/5 = 10

Paso 2 — Calcular cada desviación (xᵢ − x̄) y su cuadrado:
4 − 10 = −6 → (−6)² = 36
7 − 10 = −3 → (−3)² = 9
13 − 10 = 3 → 3² = 9
16 − 10 = 6 → 6² = 36
10 − 10 = 0 → 0² = 0

Paso 3 — Sumar los cuadrados: 36 + 9 + 9 + 36 + 0 = 90

Paso 4 — Dividir entre (n−1) = 4: s² = 90/4 = 22,5

Paso 5 — Raíz cuadrada: s = √22,5 ≈ 4,74

Interpretación: los valores se alejan, en promedio, 4,74 unidades de la media de 10.

Diagrama de Caja (Box Plot)

El diagrama de caja resume visualmente la distribución usando cinco estadísticos: mínimo, Q1 (percentil 25), Q2 = mediana (percentil 50), Q3 (percentil 75) y máximo.

Construcción de box plot con datos: 3, 7, 8, 10, 14, 15, 18, 20, 24, 26

n = 10, datos ya ordenados.

Mediana (Q2): promedio de posiciones 5 y 6 = (14+15)/2 = 14,5
Q1: mediana de la mitad inferior {3,7,8,10,14} = 8
Q3: mediana de la mitad superior {15,18,20,24,26} = 20
IQR (rango intercuartílico) = Q3 − Q1 = 20 − 8 = 12

Límites de bigotes:
— Inferior: Q1 − 1,5×IQR = 8 − 18 = −10 → el dato más pequeño ≥ −10 es 3 → bigote en 3
— Superior: Q3 + 1,5×IQR = 20 + 18 = 38 → el dato más grande ≤ 38 es 26 → bigote en 26

No hay outliers en este dataset. Los outliers son puntos fuera de los bigotes, graficados como puntos individuales.

Visualización de Datos

Tipo de gráficoCuándo usarCaracterística clave
Diagrama de barrasDatos categóricos (frecuencias por categoría)Barras separadas; no hay orden implícito entre categorías nominales
HistogramaDatos cuantitativos continuos agrupados en intervalosBarras contiguas; el área representa la frecuencia
Gráfico de pastelPartes de un todo (cuando las categorías suman 100%)Cada sector es proporcional a la frecuencia relativa
Diagrama de dispersiónRelación entre dos variables cuantitativasCada punto = una observación; permite ver correlación
Box plotComparar distribuciones entre gruposMuestra mediana, cuartiles y outliers simultáneamente

Correlación: Relación Entre Variables

El coeficiente de correlación de Pearson (r) mide la fuerza y dirección de la relación lineal entre dos variables cuantitativas. Su rango va de −1 a +1.

Interpretación del coeficiente r: Advertencia fundamental: correlación ≠ causalidad. Las ventas de helado y las muertes por ahogamiento están correlacionadas positivamente (r ≈ 0,85). Causa real: el calor del verano aumenta ambas independientemente.

Estadísticas Engañosas: Cómo Detectarlas

El conocimiento estadístico no sirve solo para calcular sino para detectar cuando otros nos manipulan con números.

Introducción a la Distribución Normal

La distribución normal (la famosa "campana de Gauss") describe la distribución de muchas variables naturales: alturas, pesos, errores de medición, puntuaciones en tests estandarizados. Es simétrica alrededor de la media, y sus propiedades más importantes son:

La regla empírica (68-95-99,7): Ejemplo: si la altura media de adultos es 170 cm con σ = 8 cm, entonces el 95% mide entre 154 cm y 186 cm; solo el 0,3% mide menos de 146 cm o más de 194 cm.

Resumen del Capítulo