Análisis de correlación para datos nominales: prueba χ²

Diego Villalba

Recordatorio: correlación

  • Ya vimos correlación para variables numéricas (Pearson, Spearman)
  • Mide la dependencia lineal entre variables continuas

r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i-\bar{x})^2 \sum(y_i-\bar{y})^2}}

  • Pero el mundo real está lleno de datos categóricos

Problema

Warning

¿Qué hacemos cuando los datos son categóricos (nominales)?

Ejemplos cotidianos:

  • ¿El sexo biológico está relacionado con la preferencia de marca?
  • ¿El nivel educativo influye en el partido político votado?
  • ¿El tipo de tratamiento médico afecta el resultado clínico?

Idea clave: independencia estadística

Dos variables categóricas X e Y son independientes si:

P(X = x_i, Y = y_j) = P(X = x_i) \cdot P(Y = y_j) \quad \forall\, i, j

La probabilidad de X no cambia aunque conozcamos Y, y viceversa.

Matemáticamente, si la probabilidad conjunta no se factoriza, entonces las variables están relacionadas.

De probabilidad a frecuencias

En la práctica no observamos probabilidades, sino conteos.

La frecuencia esperada bajo independencia es:

e_{ij} = \frac{(\text{total fila}_i) \times (\text{total columna}_j)}{n}

Esto deriva directamente de estimar P(X=i) \approx n_i/n \quad \text{y} \quad P(Y=j) \approx n_j/n

Ejemplo: de independencia a frecuencias esperadas

Se tiene realiza una encuesta a n=100 personas sobre su género y bebida preferida:

  • X: Género → {Hombre, Mujer}, Y: Bebida → {Café, Té}
  • Queremos ver cómo la independencia se traduce en una tabla de datos

Totales observados (marginales)

Al realizazr EDA, lo primero que vemos son los marginales:

  • Total hombres: 50 | Total mujeres: 50
  • Total café: 60 | Total té: 40

Probabilidades marginales

Podemos estimar probabilidades directamente de frecuencias relativas:

P(X=\text{Hombre}) = \frac{50}{100} = 0.5, \quad P(Y=\text{Café}) = \frac{60}{100} = 0.6

Si fueran independientes, la probabilidad conjunta se factoriza tomando el valor:

P(\text{Hombre} | \text{Café}) = P(\text{Hombre}) \times P(\text{Café}) = 0.5 \times 0.6 = 0.30

Paso a frecuencias esperadas

Multiplicamos la probabilidad conjunta por n:

e_{11} = P(\text{Hombre}) \cdot P(\text{Café}) \cdot n = 0.5 \times 0.6 \times 100 = 30

Es decir, si no hubiera relación entre género y bebida, esperaríamos que 30 hombres prefieran café.

De manera general, para cualquier celda (i,j) de la tabla:

e_{ij} = \frac{(\text{total fila}_i)(\text{total columna}_j)}{n}

Tabla esperada completa

La tabla esperada como modelo baseline

  • Representa cómo se verían los datos si no hubiera ninguna relación
  • Es nuestro modelo nulo de referencia
  • Si los datos reales se parecen → no hay evidencia de asociación
  • Si los datos reales se alejan → hay algo que explicar

χ² cuantifica exactamente que tan lejos están los datos observados de esta tabla esperada bajo independencia.

χ² como distancia a la independencia

Interpretación del gráfico

  • En k = 30: los datos coinciden exactamente con la tabla esperada → χ² = 0
  • Mientras k crece: más hombres toman café de lo esperado → asociación creciente
  • La línea roja punteada marca el umbral de decisión con α = 0.05
  • A la derecha de ese umbral: rechazamos independencia

Los marginales permanecen fijos — solo cambia la distribución interna.

Nuestra herramienta: prueba χ²

Mide qué tan lejos están las frecuencias observadas de lo que esperaríamos si no hubiera relación.

\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

  • O_{ij}: frecuencia observada en celda (i,j)
  • E_{ij}: frecuencia esperada bajo independencia
  • Suma sobre todas las r \times c celdas de la tabla de contingencia

¿Por qué dividir entre E_{ij}?

Tip

La división normaliza el error relativo, no el absoluto.

Una diferencia de 10 personas es muy relevante si se esperaban 12,
pero despreciable si se esperaban 1,000.

\frac{(O_{ij} - E_{ij})^2}{E_{ij}} \approx Z_{ij}^2 \quad \text{(contribución chi-cuadrado de la celda)}

Distribución de χ² (intuición)

Bajo H_0 (independencia):

  • Las diferencias (o_{ij} - e_{ij}) son solo azar
  • No hay estructura real, solo fluctuaciones

El estadístico:

\chi^2 = \sum \frac{(o_{ij} - e_{ij})^2}{e_{ij}}

mide qué tan grandes son esas desviaciones

¿Por qué sigue una χ²?

Cada término:

\frac{o_{ij} - e_{ij}}{\sqrt{e_{ij}}}

se comporta como:

\mathcal{N}(0,1)

Entonces:

\chi^2 = \sum Z^2

Suma de normales al cuadrado → distribución χ²

Grados de libertad

(r-1)(c-1)

  • No todas las celdas son libres
  • Los totales por fila y columna están fijos

Ejemplo 2×2:

A B Total
X ? ? fijo
Y ? ? fijo

Si conoces 3 celdas, la cuarta queda determinada

Los grados de libertad reflejan cuántos parámetros se estimaron libremente en la tabla.

Más g.l. = más formas en las que los datos pueden variar

Región de rechazo y p-value

El p-value es la probabilidad de obtener un χ² tan extremo como el observado, asumiendo que H_0 es cierto: p = P(\chi^2 \ge \chi^2_{\text{obs}} \mid H_0)

Decisión

  • Si p-value < 0.05 → rechazamos H_0
  • Si p-value \ge 0.05 → no hay evidencia suficiente

Aquí:

  • p \approx 0.0215 \; < \; 0.05

La desviación observada es poco probable bajo independencia

El p-value mide qué tan sorprendentes son los datos si no hubiera relación

Supuestos de la prueba χ²

Important

La prueba NO es válida si se violan estos supuestos.

  1. Independencia de las observaciones
  2. Tamaño de muestra suficiente: n \geq 20
  3. Frecuencias esperadas \geq 5 en al menos el 80% de las celdas
  4. Ninguna celda con E_{ij} = 0

Si E_{ij} < 5: usar prueba exacta de Fisher (tablas 2×2) o combinar categorías.

Ejemplo: Tabaquismo × Ejercicio

Ejercicio Frecuente Nunca Ocasional
Fumar
Exceso 4 38 6
No fuma 65 18 31
Ocasional 26 22 35
Regular 5 34 16
χ² = 95.5706
p-value = 0.000000
Grados de libertad = 6

Frecuencias esperadas (mínima = 14.08)
¿Todas ≥ 5? ✓ Sí

Fuerza de asociación: V de Cramér

El χ² no indica la magnitud de la relación, solo si existe.
Para cuantificarla usamos la V de Cramér:

V = \sqrt{\frac{\chi^2 / n}{\min(r-1,\, c-1)}} \in [0, 1]

V Interpretación
0.00 – 0.10 Asociación negligible
0.10 – 0.20 Asociación débil
0.20 – 0.40 Asociación moderada
> 0.40 Asociación fuerte
V de Cramér = 0.3991
Interpretación: Asociación moderada

Visualización: Observadas vs Esperadas

Residuos estandarizados

¿Qué celdas específicas explican el χ²?

r_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}(1 - p_{i\cdot})(1 - p_{\cdot j})}}

Valores |r_{ij}| > 2 indican celdas con desviaciones significativas.

Residuos estandarizados

Existe evidencia estadistica fuerte de que el habito de fumar esta asociado con el nivel de ejercicio.

Ejemplo: Vacunas y COVID-19

Asintomático Leve Grave
Vacunado 447 47 6
No vacunado 253 172 75

Estos datos representan el estado clínico de personas infectadas con COVID-19, clasificadas según su condición de vacunación.

  • Filas: indican si la persona está vacunada o no
  • Columnas: describen la severidad de la enfermedad (asintomático, leve, grave)

Ejemplo: Vacunas y COVID-19

El objetivo es analizar si existe una asociación entre la vacunación y la severidad de los síntomas.

En particular, buscamos responder:

¿La distribución de severidad es la misma en vacunados y no vacunados, o la vacunación está relacionada con una menor gravedad?

Visualización: Vacunas y severidad


χ² = 183.89 | p = 1.17e-40 | V de Cramér = 0.429

Frecuecias observadas

Contribución de cada celda

Interpretación

  • El valor de χ² es alto → hay desviaciones importantes respecto a la independencia
  • El p-value es extremadamente pequeño → la relación no es atribuible al azar
  • El V de Cramér indica la fuerza de la asociación

Observando las gráficas:

  • En vacunados predominan los casos asintomáticos
  • En no vacunados aumentan notablemente los casos graves
  • Las mayores contribuciones al χ² provienen de:
    • “Vacunado–Asintomático”
    • “No vacunado–Grave”

Estas celdas son las que rompen la independencia

χ² y reducción de datos

Hasta ahora usamos χ² para:

  • Detectar dependencia entre variables categóricas
  • Evaluar significancia estadística

Sin embargo, también es una herramienta clave para:

χ² también sirve para reducir dimensionalidad

  • Si dos variables están fuertemente asociadas contienen información redundante

Redundancia en variables categóricas

Dos variables X e Y son redundantes si:

P(X,Y) \neq P(X)P(Y) \quad \text{(dependencia fuerte)}

  • Conocer X da información sobre Y
  • Ambas variables aportan contenido similar

En la práctica

  • Mantener ambas → ruido + sobreajuste
  • Eliminar una → modelo más simple

χ² + V de Cramér permiten detectar esta redundancia

Caso real: Encuesta de satisfacción — Aerolínea

Una aerolínea recolecta datos de 1,000 pasajeros y queremos predecir Satisfacción con las siguientes variables:

  • Clase: Económica, Business, Primera
  • Tipo_viaje: Negocio, Vacaciones
  • Frecuencia: Frecuente, Ocasional, Primera vez
  • Retraso: Sin retraso, Leve (<30min), Grave (>30min)
  • Satisfacción: Baja, Media, Alta ← variable objetivo
  • Asiento_preferido: Ventana, Pasillo, Centro ← ¿aporta algo?
  • Momento_compra: Anticipado, Último momento ← ¿aporta algo?

Dataset

Clase Tipo_viaje Frecuencia Retraso Satisfacción Asiento Momento_compra
Económica Negocio Ocasional Leve Media Ventana Último momento
Primera Negocio Frecuente Leve Alta Pasillo Último momento
Business Vacaciones Ocasional Sin retraso Alta Centro Último momento
Económica Vacaciones Ocasional Leve Baja Ventana Último momento
Económica Vacaciones Ocasional Leve Baja Centro Anticipado
Económica Vacaciones Primera vez Grave Baja Ventana Último momento
Económica Vacaciones Ocasional Grave Baja Pasillo Anticipado
Business Negocio Ocasional Sin retraso Media Pasillo Anticipado

Paso 2: ¿Qué tan asociada está cada variable con Satisfacción?

Variable χ² p-value V de Cramér Fuerza
Retraso 108.79 0.0000 0.233 Moderada
Clase 74.03 0.0000 0.192 Moderada
Tipo_viaje 9.79 0.0075 0.099 Débil
Frecuencia 16.60 0.0023 0.091 Débil
Asiento 2.05 0.7265 0.032 Débil
Momento_compra 0.60 0.7401 0.025 Débil

Paso 3: Visualizar fuerza de asociación con Satisfacción

Paso 4: ¿Hay redundancia entre predictoras?

Antes de eliminar, verificamos si alguna predictora útil es redundante con otra.

Paso 5: Distribución de Satisfacción por variable clave

Paso 6: Impacto real en el modelo

Implementamos un modelo de clasificación (Random Forest) para comparar el rendimiento con diferentes conjuntos de variables desde mayor a menor redundancia:

Decisión final

Conclusión

  • Asiento y Momento de compra eliminadas: V ≈ 0 → ruido puro
  • Frecuencia y Tipo de viaje: moderadas pero redundantes con Clase
  • Con solo 2 variables (Clase + Retraso) se obtiene accuracy equivalente
  • El proceso es transparente y justificable estadísticamente

χ² no solo limpia el dataset — explica por qué cada variable entra o sale

Conclusión del ejemplo

  • Clima eliminada: V = 0.8+ con Región → información completamente redundante
  • Día eliminada: V ≈ 0.0 → ruido puro, no aporta señal
  • Accuracy prácticamente igual con la mitad de variables
  • Modelos más simples → más interpretables, más rápidos, menos sobreajuste

χ² + V de Cramér = criterio estadístico formal para justificar la reducción

Conclusión

Lo que la prueba χ² nos da

  • Decisión formal: rechazar o no la independencia con control del error tipo I
  • Diagnóstico celda a celda: residuos estandarizados revelan dónde está la relación
  • Magnitud: V de Cramér cuantifica qué tan fuerte es la asociación
  • Herramienta indispensable en EDA categórico, estudios clínicos, ciencias sociales y ML
  • Siempre verificar supuestos antes de interpretar
  • Combinar con visualizaciones para comunicar los hallazgos