r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i-\bar{x})^2 \sum(y_i-\bar{y})^2}}
Warning
¿Qué hacemos cuando los datos son categóricos (nominales)?
Ejemplos cotidianos:
Dos variables categóricas X e Y son independientes si:
P(X = x_i, Y = y_j) = P(X = x_i) \cdot P(Y = y_j) \quad \forall\, i, j
La probabilidad de X no cambia aunque conozcamos Y, y viceversa.
Matemáticamente, si la probabilidad conjunta no se factoriza, entonces las variables están relacionadas.
En la práctica no observamos probabilidades, sino conteos.
La frecuencia esperada bajo independencia es:
e_{ij} = \frac{(\text{total fila}_i) \times (\text{total columna}_j)}{n}
Esto deriva directamente de estimar P(X=i) \approx n_i/n \quad \text{y} \quad P(Y=j) \approx n_j/n
Se tiene realiza una encuesta a n=100 personas sobre su género y bebida preferida:
Al realizazr EDA, lo primero que vemos son los marginales:
Podemos estimar probabilidades directamente de frecuencias relativas:
P(X=\text{Hombre}) = \frac{50}{100} = 0.5, \quad P(Y=\text{Café}) = \frac{60}{100} = 0.6
Si fueran independientes, la probabilidad conjunta se factoriza tomando el valor:
P(\text{Hombre} | \text{Café}) = P(\text{Hombre}) \times P(\text{Café}) = 0.5 \times 0.6 = 0.30
Multiplicamos la probabilidad conjunta por n:
e_{11} = P(\text{Hombre}) \cdot P(\text{Café}) \cdot n = 0.5 \times 0.6 \times 100 = 30
Es decir, si no hubiera relación entre género y bebida, esperaríamos que 30 hombres prefieran café.
De manera general, para cualquier celda (i,j) de la tabla:
e_{ij} = \frac{(\text{total fila}_i)(\text{total columna}_j)}{n}
χ² cuantifica exactamente que tan lejos están los datos observados de esta tabla esperada bajo independencia.
Los marginales permanecen fijos — solo cambia la distribución interna.
Mide qué tan lejos están las frecuencias observadas de lo que esperaríamos si no hubiera relación.
\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
Tip
La división normaliza el error relativo, no el absoluto.
Una diferencia de 10 personas es muy relevante si se esperaban 12,
pero despreciable si se esperaban 1,000.
\frac{(O_{ij} - E_{ij})^2}{E_{ij}} \approx Z_{ij}^2 \quad \text{(contribución chi-cuadrado de la celda)}
Bajo H_0 (independencia):
El estadístico:
\chi^2 = \sum \frac{(o_{ij} - e_{ij})^2}{e_{ij}}
mide qué tan grandes son esas desviaciones
Cada término:
\frac{o_{ij} - e_{ij}}{\sqrt{e_{ij}}}
se comporta como:
\mathcal{N}(0,1)
Entonces:
\chi^2 = \sum Z^2
Suma de normales al cuadrado → distribución χ²
(r-1)(c-1)
Ejemplo 2×2:
| A | B | Total | |
|---|---|---|---|
| X | ? | ? | fijo |
| Y | ? | ? | fijo |
Si conoces 3 celdas, la cuarta queda determinada
Los grados de libertad reflejan cuántos parámetros se estimaron libremente en la tabla.
Más g.l. = más formas en las que los datos pueden variar
El p-value es la probabilidad de obtener un χ² tan extremo como el observado, asumiendo que H_0 es cierto: p = P(\chi^2 \ge \chi^2_{\text{obs}} \mid H_0)
Aquí:
La desviación observada es poco probable bajo independencia
El p-value mide qué tan sorprendentes son los datos si no hubiera relación
Important
La prueba NO es válida si se violan estos supuestos.
Si E_{ij} < 5: usar prueba exacta de Fisher (tablas 2×2) o combinar categorías.
| Ejercicio | Frecuente | Nunca | Ocasional |
|---|---|---|---|
| Fumar | |||
| Exceso | 4 | 38 | 6 |
| No fuma | 65 | 18 | 31 |
| Ocasional | 26 | 22 | 35 |
| Regular | 5 | 34 | 16 |
χ² = 95.5706
p-value = 0.000000
Grados de libertad = 6
Frecuencias esperadas (mínima = 14.08)
¿Todas ≥ 5? ✓ Sí
El χ² no indica la magnitud de la relación, solo si existe.
Para cuantificarla usamos la V de Cramér:
V = \sqrt{\frac{\chi^2 / n}{\min(r-1,\, c-1)}} \in [0, 1]
| V | Interpretación |
|---|---|
| 0.00 – 0.10 | Asociación negligible |
| 0.10 – 0.20 | Asociación débil |
| 0.20 – 0.40 | Asociación moderada |
| > 0.40 | Asociación fuerte |
V de Cramér = 0.3991
Interpretación: Asociación moderada
¿Qué celdas específicas explican el χ²?
r_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}(1 - p_{i\cdot})(1 - p_{\cdot j})}}
Valores |r_{ij}| > 2 indican celdas con desviaciones significativas.
Existe evidencia estadistica fuerte de que el habito de fumar esta asociado con el nivel de ejercicio.
| Asintomático | Leve | Grave | |
|---|---|---|---|
| Vacunado | 447 | 47 | 6 |
| No vacunado | 253 | 172 | 75 |
Estos datos representan el estado clínico de personas infectadas con COVID-19, clasificadas según su condición de vacunación.
El objetivo es analizar si existe una asociación entre la vacunación y la severidad de los síntomas.
En particular, buscamos responder:
¿La distribución de severidad es la misma en vacunados y no vacunados, o la vacunación está relacionada con una menor gravedad?
χ² = 183.89 | p = 1.17e-40 | V de Cramér = 0.429
Observando las gráficas:
Estas celdas son las que rompen la independencia
Hasta ahora usamos χ² para:
Sin embargo, también es una herramienta clave para:
χ² también sirve para reducir dimensionalidad
Dos variables X e Y son redundantes si:
P(X,Y) \neq P(X)P(Y) \quad \text{(dependencia fuerte)}
En la práctica
χ² + V de Cramér permiten detectar esta redundancia
Una aerolínea recolecta datos de 1,000 pasajeros y queremos predecir Satisfacción con las siguientes variables:
Clase: Económica, Business, PrimeraTipo_viaje: Negocio, VacacionesFrecuencia: Frecuente, Ocasional, Primera vezRetraso: Sin retraso, Leve (<30min), Grave (>30min)Satisfacción: Baja, Media, Alta ← variable objetivoAsiento_preferido: Ventana, Pasillo, Centro ← ¿aporta algo?Momento_compra: Anticipado, Último momento ← ¿aporta algo?| Clase | Tipo_viaje | Frecuencia | Retraso | Satisfacción | Asiento | Momento_compra |
|---|---|---|---|---|---|---|
| Económica | Negocio | Ocasional | Leve | Media | Ventana | Último momento |
| Primera | Negocio | Frecuente | Leve | Alta | Pasillo | Último momento |
| Business | Vacaciones | Ocasional | Sin retraso | Alta | Centro | Último momento |
| Económica | Vacaciones | Ocasional | Leve | Baja | Ventana | Último momento |
| Económica | Vacaciones | Ocasional | Leve | Baja | Centro | Anticipado |
| Económica | Vacaciones | Primera vez | Grave | Baja | Ventana | Último momento |
| Económica | Vacaciones | Ocasional | Grave | Baja | Pasillo | Anticipado |
| Business | Negocio | Ocasional | Sin retraso | Media | Pasillo | Anticipado |
| Variable | χ² | p-value | V de Cramér | Fuerza |
|---|---|---|---|---|
| Retraso | 108.79 | 0.0000 | 0.233 | Moderada |
| Clase | 74.03 | 0.0000 | 0.192 | Moderada |
| Tipo_viaje | 9.79 | 0.0075 | 0.099 | Débil |
| Frecuencia | 16.60 | 0.0023 | 0.091 | Débil |
| Asiento | 2.05 | 0.7265 | 0.032 | Débil |
| Momento_compra | 0.60 | 0.7401 | 0.025 | Débil |
Antes de eliminar, verificamos si alguna predictora útil es redundante con otra.
Implementamos un modelo de clasificación (Random Forest) para comparar el rendimiento con diferentes conjuntos de variables desde mayor a menor redundancia:
χ² no solo limpia el dataset — explica por qué cada variable entra o sale
χ² + V de Cramér = criterio estadístico formal para justificar la reducción
Lo que la prueba χ² nos da

Facultad de Ciencias UNAM · Minería de Datos · 2026