Matemáticas · Capítulo 13

Estadística Básica: Análisis e Interpretación de Datos

Cómo recolectar, organizar, resumir y visualizar datos para extraer conclusiones válidas sobre el mundo

Introducción: Por Qué la Estadística es Esencial

Vivimos en la era del dato. Cada decisión médica relevante se basa en estudios clínicos; cada política pública debería basarse en evidencia estadística; cada empresa toma decisiones de inversión analizando datos históricos. La estadística es el lenguaje en que el mundo resume su conocimiento empírico. Sin comprensión estadística, somos incapaces de evaluar si una afirmación está respaldada por evidencia o es meramente anecdótica.

La estadística se divide en dos grandes ramas: la estadística descriptiva, que resume y describe datos existentes, y la estadística inferencial, que usa muestras para hacer generalizaciones sobre poblaciones. Este capítulo se enfoca en la estadística descriptiva como fundamento indispensable.

Tipos de Datos

    Clasificación de datos:
    Cuantitativos discretos: valores contables, separados por brechas claras. Ejemplos: número de hijos (0, 1, 2, 3...), número de autos, cantidad de estudiantes en un salón.
Cuantitativos continuos: pueden tomar cualquier valor en un intervalo. Ejemplos: altura (1,75 m; 1,753 m...), temperatura, peso, tiempo.
Cualitativos nominales: categorías sin orden inherente. Ejemplos: color de ojos, país de origen, tipo de sangre, género.
Cualitativos ordinales: categorías con orden significativo pero sin distancias numéricas definidas. Ejemplos: nivel educativo (primaria < secundaria < universidad), satisfacción (muy malo, malo, regular, bueno, excelente).

  

Recolección de Datos: Censo vs. Muestreo

Un censo mide a todos los individuos de la población de interés. Es ideal pero frecuentemente impractical: ¿cómo encuestarías a los 130 millones de mexicanos? ¿o analizarías la calidad de cada tornillo producido en una fábrica (el análisis lo destruiría)?

Un muestreo selecciona una parte representativa de la población. La clave es la representatividad —que la muestra refleje fielmente las características de la población— lo cual depende del método de selección.

Método de muestreo	Descripción	Ventaja	Riesgo
Aleatorio simple	Cada individuo tiene igual probabilidad de ser seleccionado	Sin sesgo sistemático	Puede no cubrir subgrupos pequeños
Estratificado	Dividir en estratos (grupos) y muestrear proporcionalmente de cada uno	Garantiza representación de subgrupos	Requiere conocer los estratos de antemano
Por conglomerados	Seleccionar grupos (escuelas, barrios) y estudiar todos dentro del grupo	Económico cuando la población está geográficamente dispersa	Mayor varianza que el aleatorio simple
Por conveniencia	Seleccionar los más accesibles (estudiantes de tu clase)	Muy fácil y barato	Alto riesgo de sesgo de selección; resultados no generalizables

Medidas de Tendencia Central

Media aritmética

La media (o promedio) es la suma de todos los valores dividida entre el número de observaciones.

Fórmula: x̄ = (x₁ + x₂ + ... + xₙ) / n = Σxᵢ / n

Ejemplo completo: Notas de 10 estudiantes en un examen: 72, 85, 91, 68, 77, 83, 95, 70, 88, 61

Paso 1 — Sumar todos los valores:
72 + 85 + 91 + 68 + 77 + 83 + 95 + 70 + 88 + 61 = 790

Paso 2 — Dividir entre n = 10:
x̄ = 790 / 10 = 79

La media del grupo es 79 puntos.

Efecto de los valores extremos (outliers): Si el peor estudiante hubiera sacado 11 en lugar de 61, la media bajaría a (790 − 61 + 11)/10 = 74. La media es sensible a valores atípicos.

Mediana

La mediana es el valor central cuando los datos están ordenados. Divide la distribución en dos mitades iguales.

Cálculo de la mediana con los mismos datos:

Paso 1 — Ordenar de menor a mayor:
61, 68, 70, 72, 77, 83, 85, 88, 91, 95

Paso 2 — n = 10 (par) → la mediana es el promedio de los valores en las posiciones n/2 y n/2+1:
Posición 5: 77 | Posición 6: 83

Mediana = (77 + 83) / 2 = 80

Para n impar (ejemplo: 7 valores: 3, 5, 7, 9, 11, 13, 15) → posición central = (7+1)/2 = 4ª posición → Mediana = 9

Moda

La moda es el valor que aparece con mayor frecuencia. Una distribución puede ser unimodal (una sola moda), bimodal (dos modas) o multimodal.

Ejemplos:
Datos: 3, 5, 5, 7, 8, 9, 9, 9, 11 → Moda = 9 (aparece 3 veces)
Datos: 2, 4, 4, 6, 8, 8, 10 → Modas = 4 y 8 (bimodal)
Tallas de zapato en una tienda: la moda es la talla más vendida, independientemente de la media.

    ¿Cuándo usar cada medida?
    Media: cuando los datos son simétricos y sin outliers extremos (calificaciones en un examen bien diseñado, alturas de personas adultas).
Mediana: cuando hay outliers o distribuciones asimétricas. El ingreso familiar se reporta con mediana porque unos pocos millonarios elevarían artificialmente la media.
Moda: para datos categóricos o discretos donde "el más común" es la pregunta relevante (color más popular, talla más vendida, opción más elegida en encuesta).

  

Medidas de Dispersión

Rango

El rango es simplemente la diferencia entre el valor máximo y el mínimo: Rango = Máximo − Mínimo. En nuestro ejemplo: 95 − 61 = 34. El rango es fácil de calcular pero muy sensible a outliers y no usa la información de los valores intermedios.

Varianza y desviación estándar

La desviación estándar mide el "alejamiento típico" de los datos respecto a su media. Es la medida de dispersión más usada en estadística.

    Fórmulas:

    Varianza muestral: s² = Σ(xᵢ − x̄)² / (n−1)

    Desviación estándar muestral: s = √s²

    Nota: dividimos entre (n−1), no n, porque estamos estimando la varianza de una población a partir de una muestra (corrección de Bessel).

Cálculo paso a paso con 5 valores simples: 4, 7, 13, 16, 10

Paso 1 — Calcular la media: x̄ = (4+7+13+16+10)/5 = 50/5 = 10

Paso 2 — Calcular cada desviación (xᵢ − x̄) y su cuadrado:
4 − 10 = −6 → (−6)² = 36
7 − 10 = −3 → (−3)² = 9
13 − 10 = 3 → 3² = 9
16 − 10 = 6 → 6² = 36
10 − 10 = 0 → 0² = 0

Paso 3 — Sumar los cuadrados: 36 + 9 + 9 + 36 + 0 = 90

Paso 4 — Dividir entre (n−1) = 4: s² = 90/4 = 22,5

Paso 5 — Raíz cuadrada: s = √22,5 ≈ 4,74

Interpretación: los valores se alejan, en promedio, 4,74 unidades de la media de 10.

Diagrama de Caja (Box Plot)

El diagrama de caja resume visualmente la distribución usando cinco estadísticos: mínimo, Q1 (percentil 25), Q2 = mediana (percentil 50), Q3 (percentil 75) y máximo.

Construcción de box plot con datos: 3, 7, 8, 10, 14, 15, 18, 20, 24, 26

n = 10, datos ya ordenados.

Mediana (Q2): promedio de posiciones 5 y 6 = (14+15)/2 = 14,5
Q1: mediana de la mitad inferior {3,7,8,10,14} = 8
Q3: mediana de la mitad superior {15,18,20,24,26} = 20
IQR (rango intercuartílico) = Q3 − Q1 = 20 − 8 = 12

Límites de bigotes:
— Inferior: Q1 − 1,5×IQR = 8 − 18 = −10 → el dato más pequeño ≥ −10 es 3 → bigote en 3
— Superior: Q3 + 1,5×IQR = 20 + 18 = 38 → el dato más grande ≤ 38 es 26 → bigote en 26

No hay outliers en este dataset. Los outliers son puntos fuera de los bigotes, graficados como puntos individuales.

Visualización de Datos

Tipo de gráfico	Cuándo usar	Característica clave
Diagrama de barras	Datos categóricos (frecuencias por categoría)	Barras separadas; no hay orden implícito entre categorías nominales
Histograma	Datos cuantitativos continuos agrupados en intervalos	Barras contiguas; el área representa la frecuencia
Gráfico de pastel	Partes de un todo (cuando las categorías suman 100%)	Cada sector es proporcional a la frecuencia relativa
Diagrama de dispersión	Relación entre dos variables cuantitativas	Cada punto = una observación; permite ver correlación
Box plot	Comparar distribuciones entre grupos	Muestra mediana, cuartiles y outliers simultáneamente

Correlación: Relación Entre Variables

El coeficiente de correlación de Pearson (r) mide la fuerza y dirección de la relación lineal entre dos variables cuantitativas. Su rango va de −1 a +1.

    Interpretación del coeficiente r:
    r = +1: correlación positiva perfecta (cuando X sube, Y sube exactamente en proporción)
r cercano a +1 (0,7 a 0,9): correlación positiva fuerte (altura vs. peso)
r cercano a 0 (−0,2 a +0,2): correlación débil o inexistente
r cercano a −1 (−0,7 a −0,9): correlación negativa fuerte (ejercicio aeróbico vs. frecuencia cardíaca en reposo)
r = −1: correlación negativa perfecta

    Advertencia fundamental: correlación ≠ causalidad. Las ventas de helado y las muertes por ahogamiento están correlacionadas positivamente (r ≈ 0,85). Causa real: el calor del verano aumenta ambas independientemente.
  

Estadísticas Engañosas: Cómo Detectarlas

El conocimiento estadístico no sirve solo para calcular sino para detectar cuando otros nos manipulan con números.

Ejes truncados: un gráfico de barras que empieza en 95% en lugar de 0% hace que diferencias pequeñas parezcan enormes. Siempre verifica si el eje Y empieza en cero.
Períodos de tiempo cherry-picked: mostrar solo el período donde una tendencia favorable es más pronunciada, omitiendo el contexto más amplio.
Porcentajes sin base: "nuestro producto reduce el riesgo en un 50%" — ¿del 2% al 1% o del 40% al 20%? La reducción absoluta importa tanto como la relativa.
Confundir media con mediana: "el salario promedio en nuestra empresa es $80,000" puede ser técnicamente cierto si el CEO gana $2M mientras el 90% de los empleados gana $40,000.

Introducción a la Distribución Normal

La distribución normal (la famosa "campana de Gauss") describe la distribución de muchas variables naturales: alturas, pesos, errores de medición, puntuaciones en tests estandarizados. Es simétrica alrededor de la media, y sus propiedades más importantes son:

    La regla empírica (68-95-99,7):
    El 68% de los datos cae dentro de 1 desviación estándar de la media (entre μ−σ y μ+σ)
El 95% cae dentro de 2 desviaciones estándar (entre μ−2σ y μ+2σ)
El 99,7% cae dentro de 3 desviaciones estándar (entre μ−3σ y μ+3σ)

    Ejemplo: si la altura media de adultos es 170 cm con σ = 8 cm, entonces el 95% mide entre 154 cm y 186 cm; solo el 0,3% mide menos de 146 cm o más de 194 cm.
  

Resumen del Capítulo

Los datos son cuantitativos (discretos o continuos) o cualitativos (nominales u ordinales); el tipo de dato determina qué estadísticos son apropiados.
La media es sensible a outliers; la mediana es robusta; la moda indica el valor más frecuente. La mediana es preferible para distribuciones asimétricas como ingresos.
La desviación estándar s = √[Σ(xᵢ−x̄)²/(n−1)] mide el alejamiento típico de los datos respecto a su media; es la medida de dispersión más informativa.
El diagrama de caja (box plot) resume Q1, mediana, Q3, IQR y outliers; los bigotes se extienden hasta Q1−1,5·IQR y Q3+1,5·IQR.
La correlación de Pearson r ∈ [−1, +1] mide la relación lineal entre dos variables; la correlación no implica causalidad (ejemplo clásico: helado y ahogamientos).
Las estadísticas pueden ser manipuladas mediante ejes truncados, períodos cherry-picked, porcentajes sin base y confusión de media con mediana.
La distribución normal sigue la regla 68-95-99,7: el 68%, 95% y 99,7% de los datos caen dentro de 1, 2 y 3 desviaciones estándar de la media.