Media verdadera: 12.043, promedio verdadero: 12.043
Media observada: 11.119, promedio observado: 11.119
Proporción missing: 28.650%
MCAR, MAR, MNAR con ejemplos sintéticos y BigMart
dropnaNo basta con saber cuántos datos faltan.
Hay que pensar por qué faltan.
Porque el mecanismo de ausencia determina:
Los datos faltantes pueden producir:
Pérdida más probable en valores altos
Media verdadera: 12.043, promedio verdadero: 12.043
Media observada: 11.119, promedio observado: 11.119
Proporción missing: 28.650%
Antes de emplear cualquier técnica, conviene preguntar:
Falta toda la observación
| X1 | X2 | Y |
|---|---|---|
| ? | ? | ? |
Ejemplo:
una persona no responde ninguna parte de una encuesta.
Faltan solo algunas variables
| X1 | X2 | Y |
|---|---|---|
| ✓ | ? | ✓ |
Ejemplo:
un registro sí existe, pero una de sus variables no fue capturada.
La probabilidad de missing no depende de ninguna variable.
f(R \mid Y, X, \theta) = f(R \mid \theta)
Se puede entender como que “Se perdieron filas al azar.”
Ejemplo: falla aleatoria en el sistema de captura de datos.
Proporción missing: 20.57%
Media verdadera: 12.0425
Media observada: 12.0411
Desv. estándar verdadera: 2.1935
Desv. estándar observada: 2.1811
Si ignoramos los faltantes bajo MCAR:
La probabilidad de missing depende solo de variables observadas.
f(R \mid Y, X, \theta) = f(R \mid Y_{obs}, X, \theta)
Se entiende como “Faltan más datos en ciertos grupos observables.”
Ejemplo:
Item_Weightfalta más en ciertosOutlet_Typeque sí conocemos.
Proporción missing por grupo:
Outlet_Type missing
0 Grocery Store 0.763
1 Mini Market 0.173
2 Supermarket 0.031
Media verdadera: 12.177 Media observada: 13.693
Si ignoramos los faltantes bajo MAR:
La probabilidad de missing depende del propio valor faltante.
f(R \mid Y, X, \theta) = f(R \mid Y_{obs}, Y_{mis}, X, \theta)
Es decit “Los valores faltan precisamente por su valor.”
Ejemplo:
Item_Weightfalta más en productos muy pesados, justamente por su peso.
Media verdadera: 12.012
Media observada: 10.716
Proporción missing: 62.44%
Si ignoramos los faltantes bajo MNAR:
Una vez que entendemos cómo y por qué aparecen los datos faltantes,
la siguiente pregunta natural es:
¿Qué estrategias existen para tratarlos?
No todas las técnicas son igual de adecuadas:
su validez depende del mecanismo de ausencia,
de la cantidad de missing values
y del papel que juega la variable en el análisis.
Casos completos
eliminar observaciones incompletas; simple, pero pierde información.
Imputación simple
media, mediana o moda; rápida, pero subestima varianza.
Imputación múltiple
genera varias imputaciones y combina resultados; incorpora incertidumbre.
Modelos de regresión / KNN
usan variables observadas para imputar; útiles especialmente bajo MAR.
Consiste en reemplazar valores faltantes por un valor representativo de la variable.
Es decir , si no conocemos un valor, podemos sustituirlo por una estimación simple calculada a partir de los datos observados.
Sea una variable Y con valores faltantes, la imputación por media reemplaza:
Y_{mis} \leftarrow \bar{Y}_{obs}
donde
\bar{Y}_{obs} = \frac{1}{n_{obs}} \sum_{i=1}^{n_{obs}} Y_i
La imputación simple suele:
En lugar de crear un solo dataset imputado, generamos varias versiones plausibles. Esto poque cada valor faltante puede tener varias estimaciones posibles.
La imputación múltiple:
Sea q_i la estimación del parámetro en el dataset imputado i. la estimación final y su varianza:
\bar{q} = \frac{1}{m} \sum_{i=1}^{m} q_i \qquad T = \bar{U} + \left(1 + \frac{1}{m}\right) B
donde
En lugar de usar un único valor global, estimamos los faltantes usando información de observaciones similares.
Es decir, si un valor falta, buscamos observaciones parecidas en otras variables y usamos sus valores para estimarlo.
Ejemplo:
Para una observación con valor faltante x_i:
\hat{x}_i = \frac{1}{k}\sum_{j \in N_k(i)} x_j
donde N_k(i) son los k vecinos más cercanos.
Pregunta: si un patrón de missing cambia por Region, ¿qué mecanismo parece más plausible?
| Region | Promo | missing | |
|---|---|---|---|
| 0 | Centro | 0 | 0.171785 |
| 1 | Centro | 1 | 0.198907 |
| 2 | Norte | 0 | 0.091124 |
| 3 | Norte | 1 | 0.075691 |
| 4 | Sur | 0 | 0.338710 |
| 5 | Sur | 1 | 0.320567 |
dropna sería aceptable aquí?Manejar datos faltantes no es una tarea de limpieza menor.
Es una decisión estadística que afecta inferencia, predicción y credibilidad.
Tomar un dataset real como BigMart y comparar cómo cambian las predicciones de ventas bajo distintas imputaciones.
