Matemáticas · Capítulo 13
Estadística Básica: Análisis e Interpretación de Datos
Cómo recolectar, organizar, resumir y visualizar datos para extraer conclusiones válidas sobre el mundo
Introducción: Por Qué la Estadística es Esencial
Vivimos en la era del dato. Cada decisión médica relevante se basa en estudios clínicos; cada política pública debería basarse en evidencia estadística; cada empresa toma decisiones de inversión analizando datos históricos. La estadística es el lenguaje en que el mundo resume su conocimiento empírico. Sin comprensión estadística, somos incapaces de evaluar si una afirmación está respaldada por evidencia o es meramente anecdótica.
La estadística se divide en dos grandes ramas: la estadística descriptiva, que resume y describe datos existentes, y la estadística inferencial, que usa muestras para hacer generalizaciones sobre poblaciones. Este capítulo se enfoca en la estadística descriptiva como fundamento indispensable.
Tipos de Datos
Clasificación de datos:
- Cuantitativos discretos: valores contables, separados por brechas claras. Ejemplos: número de hijos (0, 1, 2, 3...), número de autos, cantidad de estudiantes en un salón.
- Cuantitativos continuos: pueden tomar cualquier valor en un intervalo. Ejemplos: altura (1,75 m; 1,753 m...), temperatura, peso, tiempo.
- Cualitativos nominales: categorías sin orden inherente. Ejemplos: color de ojos, país de origen, tipo de sangre, género.
- Cualitativos ordinales: categorías con orden significativo pero sin distancias numéricas definidas. Ejemplos: nivel educativo (primaria < secundaria < universidad), satisfacción (muy malo, malo, regular, bueno, excelente).
Recolección de Datos: Censo vs. Muestreo
Un censo mide a todos los individuos de la población de interés. Es ideal pero frecuentemente impractical: ¿cómo encuestarías a los 130 millones de mexicanos? ¿o analizarías la calidad de cada tornillo producido en una fábrica (el análisis lo destruiría)?
Un muestreo selecciona una parte representativa de la población. La clave es la representatividad —que la muestra refleje fielmente las características de la población— lo cual depende del método de selección.
| Método de muestreo | Descripción | Ventaja | Riesgo |
| Aleatorio simple | Cada individuo tiene igual probabilidad de ser seleccionado | Sin sesgo sistemático | Puede no cubrir subgrupos pequeños |
| Estratificado | Dividir en estratos (grupos) y muestrear proporcionalmente de cada uno | Garantiza representación de subgrupos | Requiere conocer los estratos de antemano |
| Por conglomerados | Seleccionar grupos (escuelas, barrios) y estudiar todos dentro del grupo | Económico cuando la población está geográficamente dispersa | Mayor varianza que el aleatorio simple |
| Por conveniencia | Seleccionar los más accesibles (estudiantes de tu clase) | Muy fácil y barato | Alto riesgo de sesgo de selección; resultados no generalizables |
Medidas de Tendencia Central
Media aritmética
La media (o promedio) es la suma de todos los valores dividida entre el número de observaciones.
Fórmula: x̄ = (x₁ + x₂ + ... + xₙ) / n = Σxᵢ / n
Ejemplo completo: Notas de 10 estudiantes en un examen: 72, 85, 91, 68, 77, 83, 95, 70, 88, 61
Paso 1 — Sumar todos los valores:
72 + 85 + 91 + 68 + 77 + 83 + 95 + 70 + 88 + 61 = 790
Paso 2 — Dividir entre n = 10:
x̄ = 790 / 10 = 79
La media del grupo es 79 puntos.
Efecto de los valores extremos (outliers): Si el peor estudiante hubiera sacado 11 en lugar de 61, la media bajaría a (790 − 61 + 11)/10 = 74. La media es sensible a valores atípicos.
Mediana
La mediana es el valor central cuando los datos están ordenados. Divide la distribución en dos mitades iguales.
Cálculo de la mediana con los mismos datos:
Paso 1 — Ordenar de menor a mayor:
61, 68, 70, 72, 77, 83, 85, 88, 91, 95
Paso 2 — n = 10 (par) → la mediana es el promedio de los valores en las posiciones n/2 y n/2+1:
Posición 5: 77 | Posición 6: 83
Mediana = (77 + 83) / 2 = 80
Para n impar (ejemplo: 7 valores: 3, 5, 7, 9, 11, 13, 15) → posición central = (7+1)/2 = 4ª posición → Mediana = 9
Moda
La moda es el valor que aparece con mayor frecuencia. Una distribución puede ser unimodal (una sola moda), bimodal (dos modas) o multimodal.
Ejemplos:
Datos: 3, 5, 5, 7, 8, 9, 9, 9, 11 → Moda = 9 (aparece 3 veces)
Datos: 2, 4, 4, 6, 8, 8, 10 → Modas = 4 y 8 (bimodal)
Tallas de zapato en una tienda: la moda es la talla más vendida, independientemente de la media.
¿Cuándo usar cada medida?
- Media: cuando los datos son simétricos y sin outliers extremos (calificaciones en un examen bien diseñado, alturas de personas adultas).
- Mediana: cuando hay outliers o distribuciones asimétricas. El ingreso familiar se reporta con mediana porque unos pocos millonarios elevarían artificialmente la media.
- Moda: para datos categóricos o discretos donde "el más común" es la pregunta relevante (color más popular, talla más vendida, opción más elegida en encuesta).
Medidas de Dispersión
Rango
El rango es simplemente la diferencia entre el valor máximo y el mínimo: Rango = Máximo − Mínimo. En nuestro ejemplo: 95 − 61 = 34. El rango es fácil de calcular pero muy sensible a outliers y no usa la información de los valores intermedios.
Varianza y desviación estándar
La desviación estándar mide el "alejamiento típico" de los datos respecto a su media. Es la medida de dispersión más usada en estadística.
Fórmulas:
Varianza muestral: s² = Σ(xᵢ − x̄)² / (n−1)
Desviación estándar muestral: s = √s²
Nota: dividimos entre (n−1), no n, porque estamos estimando la varianza de una población a partir de una muestra (corrección de Bessel).
Cálculo paso a paso con 5 valores simples: 4, 7, 13, 16, 10
Paso 1 — Calcular la media: x̄ = (4+7+13+16+10)/5 = 50/5 = 10
Paso 2 — Calcular cada desviación (xᵢ − x̄) y su cuadrado:
4 − 10 = −6 → (−6)² = 36
7 − 10 = −3 → (−3)² = 9
13 − 10 = 3 → 3² = 9
16 − 10 = 6 → 6² = 36
10 − 10 = 0 → 0² = 0
Paso 3 — Sumar los cuadrados: 36 + 9 + 9 + 36 + 0 = 90
Paso 4 — Dividir entre (n−1) = 4: s² = 90/4 = 22,5
Paso 5 — Raíz cuadrada: s = √22,5 ≈ 4,74
Interpretación: los valores se alejan, en promedio, 4,74 unidades de la media de 10.
Diagrama de Caja (Box Plot)
El diagrama de caja resume visualmente la distribución usando cinco estadísticos: mínimo, Q1 (percentil 25), Q2 = mediana (percentil 50), Q3 (percentil 75) y máximo.
Construcción de box plot con datos: 3, 7, 8, 10, 14, 15, 18, 20, 24, 26
n = 10, datos ya ordenados.
Mediana (Q2): promedio de posiciones 5 y 6 = (14+15)/2 = 14,5
Q1: mediana de la mitad inferior {3,7,8,10,14} = 8
Q3: mediana de la mitad superior {15,18,20,24,26} = 20
IQR (rango intercuartílico) = Q3 − Q1 = 20 − 8 = 12
Límites de bigotes:
— Inferior: Q1 − 1,5×IQR = 8 − 18 = −10 → el dato más pequeño ≥ −10 es 3 → bigote en 3
— Superior: Q3 + 1,5×IQR = 20 + 18 = 38 → el dato más grande ≤ 38 es 26 → bigote en 26
No hay outliers en este dataset. Los outliers son puntos fuera de los bigotes, graficados como puntos individuales.
Visualización de Datos
| Tipo de gráfico | Cuándo usar | Característica clave |
| Diagrama de barras | Datos categóricos (frecuencias por categoría) | Barras separadas; no hay orden implícito entre categorías nominales |
| Histograma | Datos cuantitativos continuos agrupados en intervalos | Barras contiguas; el área representa la frecuencia |
| Gráfico de pastel | Partes de un todo (cuando las categorías suman 100%) | Cada sector es proporcional a la frecuencia relativa |
| Diagrama de dispersión | Relación entre dos variables cuantitativas | Cada punto = una observación; permite ver correlación |
| Box plot | Comparar distribuciones entre grupos | Muestra mediana, cuartiles y outliers simultáneamente |
Correlación: Relación Entre Variables
El coeficiente de correlación de Pearson (r) mide la fuerza y dirección de la relación lineal entre dos variables cuantitativas. Su rango va de −1 a +1.
Interpretación del coeficiente r:
- r = +1: correlación positiva perfecta (cuando X sube, Y sube exactamente en proporción)
- r cercano a +1 (0,7 a 0,9): correlación positiva fuerte (altura vs. peso)
- r cercano a 0 (−0,2 a +0,2): correlación débil o inexistente
- r cercano a −1 (−0,7 a −0,9): correlación negativa fuerte (ejercicio aeróbico vs. frecuencia cardíaca en reposo)
- r = −1: correlación negativa perfecta
Advertencia fundamental: correlación ≠ causalidad. Las ventas de helado y las muertes por ahogamiento están correlacionadas positivamente (r ≈ 0,85). Causa real: el calor del verano aumenta ambas independientemente.
Estadísticas Engañosas: Cómo Detectarlas
El conocimiento estadístico no sirve solo para calcular sino para detectar cuando otros nos manipulan con números.
- Ejes truncados: un gráfico de barras que empieza en 95% en lugar de 0% hace que diferencias pequeñas parezcan enormes. Siempre verifica si el eje Y empieza en cero.
- Períodos de tiempo cherry-picked: mostrar solo el período donde una tendencia favorable es más pronunciada, omitiendo el contexto más amplio.
- Porcentajes sin base: "nuestro producto reduce el riesgo en un 50%" — ¿del 2% al 1% o del 40% al 20%? La reducción absoluta importa tanto como la relativa.
- Confundir media con mediana: "el salario promedio en nuestra empresa es $80,000" puede ser técnicamente cierto si el CEO gana $2M mientras el 90% de los empleados gana $40,000.
Introducción a la Distribución Normal
La distribución normal (la famosa "campana de Gauss") describe la distribución de muchas variables naturales: alturas, pesos, errores de medición, puntuaciones en tests estandarizados. Es simétrica alrededor de la media, y sus propiedades más importantes son:
La regla empírica (68-95-99,7):
- El 68% de los datos cae dentro de 1 desviación estándar de la media (entre μ−σ y μ+σ)
- El 95% cae dentro de 2 desviaciones estándar (entre μ−2σ y μ+2σ)
- El 99,7% cae dentro de 3 desviaciones estándar (entre μ−3σ y μ+3σ)
Ejemplo: si la altura media de adultos es 170 cm con σ = 8 cm, entonces el 95% mide entre 154 cm y 186 cm; solo el 0,3% mide menos de 146 cm o más de 194 cm.
Resumen del Capítulo
- Los datos son cuantitativos (discretos o continuos) o cualitativos (nominales u ordinales); el tipo de dato determina qué estadísticos son apropiados.
- La media es sensible a outliers; la mediana es robusta; la moda indica el valor más frecuente. La mediana es preferible para distribuciones asimétricas como ingresos.
- La desviación estándar s = √[Σ(xᵢ−x̄)²/(n−1)] mide el alejamiento típico de los datos respecto a su media; es la medida de dispersión más informativa.
- El diagrama de caja (box plot) resume Q1, mediana, Q3, IQR y outliers; los bigotes se extienden hasta Q1−1,5·IQR y Q3+1,5·IQR.
- La correlación de Pearson r ∈ [−1, +1] mide la relación lineal entre dos variables; la correlación no implica causalidad (ejemplo clásico: helado y ahogamientos).
- Las estadísticas pueden ser manipuladas mediante ejes truncados, períodos cherry-picked, porcentajes sin base y confusión de media con mediana.
- La distribución normal sigue la regla 68-95-99,7: el 68%, 95% y 99,7% de los datos caen dentro de 1, 2 y 3 desviaciones estándar de la media.