Análisis de correlación para datos nominales: prueba χ²

Recordatorio: correlación

Ya vimos correlación para variables numéricas (Pearson, Spearman)
Mide la dependencia lineal entre variables continuas

r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i-\bar{x})^2 \sum(y_i-\bar{y})^2}}

Pero el mundo real está lleno de datos categóricos…

Problema

Warning

¿Qué hacemos cuando los datos son categóricos (nominales)?

Ejemplos cotidianos:

¿El sexo biológico está relacionado con la preferencia de marca?
¿El nivel educativo influye en el partido político votado?
¿El tipo de tratamiento médico afecta el resultado clínico?

Idea clave: independencia estadística

Dos variables categóricas X e Y son independientes si:

P(X = x_i, Y = y_j) = P(X = x_i) \cdot P(Y = y_j) \quad \forall\, i, j

La probabilidad de X no cambia aunque conozcamos Y, y viceversa.

Matemáticamente, si la probabilidad conjunta no se factoriza, entonces las variables están relacionadas.

De probabilidad a frecuencias

En la práctica no observamos probabilidades, sino conteos.

La frecuencia esperada bajo independencia es:

e_{ij} = \frac{(\text{total fila}_i) \times (\text{total columna}_j)}{n}

Esto deriva directamente de estimar P(X=i) \approx n_i/n \quad \text{y} \quad P(Y=j) \approx n_j/n

Ejemplo: de independencia a frecuencias esperadas

Se tiene realiza una encuesta a n=100 personas sobre su género y bebida preferida:

X: Género → {Hombre, Mujer}, Y: Bebida → {Café, Té}
Queremos ver cómo la independencia se traduce en una tabla de datos

Totales observados (marginales)

Al realizazr EDA, lo primero que vemos son los marginales:

Total hombres: 50 | Total mujeres: 50
Total café: 60 | Total té: 40

Probabilidades marginales

Podemos estimar probabilidades directamente de frecuencias relativas:

P(X=\text{Hombre}) = \frac{50}{100} = 0.5, \quad P(Y=\text{Café}) = \frac{60}{100} = 0.6

Si fueran independientes, la probabilidad conjunta se factoriza tomando el valor:

P(\text{Hombre} | \text{Café}) = P(\text{Hombre}) \times P(\text{Café}) = 0.5 \times 0.6 = 0.30

Paso a frecuencias esperadas

Multiplicamos la probabilidad conjunta por n:

e_{11} = P(\text{Hombre}) \cdot P(\text{Café}) \cdot n = 0.5 \times 0.6 \times 100 = 30

Es decir, si no hubiera relación entre género y bebida, esperaríamos que 30 hombres prefieran café.

De manera general, para cualquier celda (i,j) de la tabla:

e_{ij} = \frac{(\text{total fila}_i)(\text{total columna}_j)}{n}

Tabla esperada completa

La tabla esperada como modelo baseline

Representa cómo se verían los datos si no hubiera ninguna relación
Es nuestro modelo nulo de referencia
Si los datos reales se parecen → no hay evidencia de asociación
Si los datos reales se alejan → hay algo que explicar

χ² cuantifica exactamente que tan lejos están los datos observados de esta tabla esperada bajo independencia.

χ² como distancia a la independencia

Interpretación del gráfico

En k = 30: los datos coinciden exactamente con la tabla esperada → χ² = 0
Mientras k crece: más hombres toman café de lo esperado → asociación creciente
La línea roja punteada marca el umbral de decisión con α = 0.05
A la derecha de ese umbral: rechazamos independencia

Los marginales permanecen fijos — solo cambia la distribución interna.

Nuestra herramienta: prueba χ²

Mide qué tan lejos están las frecuencias observadas de lo que esperaríamos si no hubiera relación.

\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

O_{ij}: frecuencia observada en celda (i,j)
E_{ij}: frecuencia esperada bajo independencia
Suma sobre todas las r \times c celdas de la tabla de contingencia

¿Por qué dividir entre E_{ij}?

Tip

La división normaliza el error relativo, no el absoluto.

Una diferencia de 10 personas es muy relevante si se esperaban 12,
pero despreciable si se esperaban 1,000.

\frac{(O_{ij} - E_{ij})^2}{E_{ij}} \approx Z_{ij}^2 \quad \text{(contribución chi-cuadrado de la celda)}

Distribución de χ² (intuición)

Bajo H_0 (independencia):

Las diferencias (o_{ij} - e_{ij}) son solo azar
No hay estructura real, solo fluctuaciones

El estadístico:

\chi^2 = \sum \frac{(o_{ij} - e_{ij})^2}{e_{ij}}

mide qué tan grandes son esas desviaciones

¿Por qué sigue una χ²?

Cada término:

\frac{o_{ij} - e_{ij}}{\sqrt{e_{ij}}}

se comporta como:

\mathcal{N}(0,1)

Entonces:

\chi^2 = \sum Z^2

Suma de normales al cuadrado → distribución χ²

Grados de libertad

(r-1)(c-1)

No todas las celdas son libres
Los totales por fila y columna están fijos

Ejemplo 2×2:

	A	B	Total
X	?	?	fijo
Y	?	?	fijo

Si conoces 3 celdas, la cuarta queda determinada

Los grados de libertad reflejan cuántos parámetros se estimaron libremente en la tabla.

Más g.l. = más formas en las que los datos pueden variar

Región de rechazo y p-value

El p-value es la probabilidad de obtener un χ² tan extremo como el observado, asumiendo que H_0 es cierto: p = P(\chi^2 \ge \chi^2_{\text{obs}} \mid H_0)

Decisión

Si p-value < 0.05 → rechazamos H_0
Si p-value \ge 0.05 → no hay evidencia suficiente

Aquí:

p \approx 0.0215 \; < \; 0.05

La desviación observada es poco probable bajo independencia

El p-value mide qué tan sorprendentes son los datos si no hubiera relación

Supuestos de la prueba χ²

Important

La prueba NO es válida si se violan estos supuestos.

Independencia de las observaciones
Tamaño de muestra suficiente: n \geq 20
Frecuencias esperadas \geq 5 en al menos el 80% de las celdas
Ninguna celda con E_{ij} = 0

Si E_{ij} < 5: usar prueba exacta de Fisher (tablas 2×2) o combinar categorías.

Ejemplo: Tabaquismo × Ejercicio

Ejercicio	Frecuente	Nunca	Ocasional
Fumar
Exceso	4	38	6
No fuma	65	18	31
Ocasional	26	22	35
Regular	5	34	16

χ² = 95.5706
p-value = 0.000000
Grados de libertad = 6

Frecuencias esperadas (mínima = 14.08)
¿Todas ≥ 5? ✓ Sí

Fuerza de asociación: V de Cramér

El χ² no indica la magnitud de la relación, solo si existe.
Para cuantificarla usamos la V de Cramér:

V = \sqrt{\frac{\chi^2 / n}{\min(r-1,\, c-1)}} \in [0, 1]

V	Interpretación
0.00 – 0.10	Asociación negligible
0.10 – 0.20	Asociación débil
0.20 – 0.40	Asociación moderada
> 0.40	Asociación fuerte

V de Cramér = 0.3991
Interpretación: Asociación moderada

Visualización: Observadas vs Esperadas

Residuos estandarizados

¿Qué celdas específicas explican el χ²?

r_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}(1 - p_{i\cdot})(1 - p_{\cdot j})}}

Valores |r_{ij}| > 2 indican celdas con desviaciones significativas.

Residuos estandarizados

Existe evidencia estadistica fuerte de que el habito de fumar esta asociado con el nivel de ejercicio.

Ejemplo: Vacunas y COVID-19

	Asintomático	Leve	Grave
Vacunado	447	47	6
No vacunado	253	172	75

Estos datos representan el estado clínico de personas infectadas con COVID-19, clasificadas según su condición de vacunación.

Filas: indican si la persona está vacunada o no
Columnas: describen la severidad de la enfermedad (asintomático, leve, grave)

Ejemplo: Vacunas y COVID-19

El objetivo es analizar si existe una asociación entre la vacunación y la severidad de los síntomas.

En particular, buscamos responder:

¿La distribución de severidad es la misma en vacunados y no vacunados, o la vacunación está relacionada con una menor gravedad?

Visualización: Vacunas y severidad


χ² = 183.89 | p = 1.17e-40 | V de Cramér = 0.429

Frecuecias observadas

Contribución de cada celda

Interpretación

El valor de χ² es alto → hay desviaciones importantes respecto a la independencia
El p-value es extremadamente pequeño → la relación no es atribuible al azar
El V de Cramér indica la fuerza de la asociación

Observando las gráficas:

En vacunados predominan los casos asintomáticos
En no vacunados aumentan notablemente los casos graves
Las mayores contribuciones al χ² provienen de:
- “Vacunado–Asintomático”
- “No vacunado–Grave”

Estas celdas son las que rompen la independencia

χ² y reducción de datos

Hasta ahora usamos χ² para:

Detectar dependencia entre variables categóricas
Evaluar significancia estadística

Sin embargo, también es una herramienta clave para:

χ² también sirve para reducir dimensionalidad

Si dos variables están fuertemente asociadas contienen información redundante

Redundancia en variables categóricas

Dos variables X e Y son redundantes si:

P(X,Y) \neq P(X)P(Y) \quad \text{(dependencia fuerte)}

Conocer X da información sobre Y
Ambas variables aportan contenido similar

En la práctica

Mantener ambas → ruido + sobreajuste
Eliminar una → modelo más simple

χ² + V de Cramér permiten detectar esta redundancia

Caso real: Encuesta de satisfacción — Aerolínea

Una aerolínea recolecta datos de 1,000 pasajeros y queremos predecir Satisfacción con las siguientes variables:

Clase: Económica, Business, Primera
Tipo_viaje: Negocio, Vacaciones
Frecuencia: Frecuente, Ocasional, Primera vez
Retraso: Sin retraso, Leve (<30min), Grave (>30min)
Satisfacción: Baja, Media, Alta ← variable objetivo
Asiento_preferido: Ventana, Pasillo, Centro ← ¿aporta algo?
Momento_compra: Anticipado, Último momento ← ¿aporta algo?

Dataset

Clase	Tipo_viaje	Frecuencia	Retraso	Satisfacción	Asiento	Momento_compra
Económica	Negocio	Ocasional	Leve	Media	Ventana	Último momento
Primera	Negocio	Frecuente	Leve	Alta	Pasillo	Último momento
Business	Vacaciones	Ocasional	Sin retraso	Alta	Centro	Último momento
Económica	Vacaciones	Ocasional	Leve	Baja	Ventana	Último momento
Económica	Vacaciones	Ocasional	Leve	Baja	Centro	Anticipado
Económica	Vacaciones	Primera vez	Grave	Baja	Ventana	Último momento
Económica	Vacaciones	Ocasional	Grave	Baja	Pasillo	Anticipado
Business	Negocio	Ocasional	Sin retraso	Media	Pasillo	Anticipado

Paso 2: ¿Qué tan asociada está cada variable con Satisfacción?

Variable	χ²	p-value	V de Cramér	Fuerza
Retraso	108.79	0.0000	0.233	Moderada
Clase	74.03	0.0000	0.192	Moderada
Tipo_viaje	9.79	0.0075	0.099	Débil
Frecuencia	16.60	0.0023	0.091	Débil
Asiento	2.05	0.7265	0.032	Débil
Momento_compra	0.60	0.7401	0.025	Débil

Paso 3: Visualizar fuerza de asociación con Satisfacción

Paso 4: ¿Hay redundancia entre predictoras?

Antes de eliminar, verificamos si alguna predictora útil es redundante con otra.

Paso 5: Distribución de Satisfacción por variable clave

Paso 6: Impacto real en el modelo

Implementamos un modelo de clasificación (Random Forest) para comparar el rendimiento con diferentes conjuntos de variables desde mayor a menor redundancia:

Decisión final

Conclusión

Asiento y Momento de compra eliminadas: V ≈ 0 → ruido puro
Frecuencia y Tipo de viaje: moderadas pero redundantes con Clase
Con solo 2 variables (Clase + Retraso) se obtiene accuracy equivalente
El proceso es transparente y justificable estadísticamente

χ² no solo limpia el dataset — explica por qué cada variable entra o sale

Conclusión del ejemplo

Clima eliminada: V = 0.8+ con Región → información completamente redundante
Día eliminada: V ≈ 0.0 → ruido puro, no aporta señal
Accuracy prácticamente igual con la mitad de variables
Modelos más simples → más interpretables, más rápidos, menos sobreajuste

χ² + V de Cramér = criterio estadístico formal para justificar la reducción

Conclusión

Lo que la prueba χ² nos da

Decisión formal: rechazar o no la independencia con control del error tipo I
Diagnóstico celda a celda: residuos estandarizados revelan dónde está la relación
Magnitud: V de Cramér cuantifica qué tan fuerte es la asociación

Herramienta indispensable en EDA categórico, estudios clínicos, ciencias sociales y ML
Siempre verificar supuestos antes de interpretar
Combinar con visualizaciones para comunicar los hallazgos