3  Introducción a Minería de Datos y Frameworks de Proceso

4 Introducción

La minería de datos es una disciplina formal dentro del proceso de Descubrimiento de Conocimiento en Bases de Datos (KDD). Su propósito no se reduce a consultar información almacenada, sino a inferir estructura: patrones, regularidades, relaciones estadísticamente significativas y modelos predictivos que capturen comportamientos latentes en datos observacionales. En términos técnicos, esto implica articular una cadena coherente que va desde la definición del problema hasta el despliegue y monitoreo del resultado, con etapas explícitas de validación y retroalimentación.

En el desarrollo moderno del campo, el crecimiento en volumen, variedad y velocidad de los datos hizo necesaria la estandarización de prácticas; de ahí emergen frameworks de proceso que funcionan como guías end-to-end para conducir proyectos de analítica y minería de datos de manera consistente.

5 Recuperación de datos versus minería de datos

La recuperación de datos responde preguntas totalmente definidas por el usuario antes de acceder al sistema. En un lenguaje operativo, es una transformación de la forma: “dame los registros que satisfacen condición C”, donde C es conocida y el resultado es un subconjunto del repositorio.

La minería de datos, por contraste, busca responder preguntas donde la forma de la relación es desconocida. El objetivo no es filtrar, sino aprender: estimar funciones, reglas o estructuras que expliquen o anticipen un fenómeno. Por ejemplo, en lugar de “listar cancelaciones”, la pregunta se vuelve “¿qué variables anticipan una cancelación y con qué confiabilidad?”, lo que obliga a definir variables, construir un conjunto de entrenamiento, controlar sesgos, seleccionar un criterio de evaluación y cuantificar incertidumbre.

flowchart LR
  A[(Base de datos)] --> B["Recuperación de datos<br/>(SQL/consultas)"]
  B --> C["Resultado:<br/>registros que cumplen C"]

  A --> D["Minería de datos<br/>(modelado)"]
  D --> E["Resultado:<br/>modelo/patrones"]
  E --> F["Acción:<br/>decisión, intervención,<br/>monitorización"]

6 Correlación y causalidad

En minería de datos, un hallazgo frecuente es la presencia de asociaciones fuertes entre variables. Sin embargo, una asociación estadística (correlación) no garantiza un vínculo causal. La razón técnica es que los datos observacionales pueden estar dominados por variables omitidas, selección no aleatoria, confusores o retroalimentaciones entre variables.

Para hablar de causalidad, típicamente se requiere un diseño experimental (idealmente aleatorizado). Un ejemplo clásico en sistemas digitales es un experimento A/B: se asigna aleatoriamente una intervención a un grupo tratamiento y se compara contra un grupo control bajo una métrica previamente definida (cancelación, conversión, retención). En la práctica, incluso con A/B, sigue siendo necesario vigilar violaciones: interferencia entre unidades (spillover), cambios temporales (estacionalidad) y sesgos de medición.

flowchart TB
  U["Confusores no observados<br/>(ej. contexto socioeconómico)"] --> X["Variable X<br/>(promedio académico)"]
  U --> Y["Variable Y<br/>(ingreso)"]
  X --> Y
  note1["Si observas X↔Y,<br/>no concluyas X→Y<br/>sin controlar U."]
  Y --> note1

7 Tareas centrales de minería de datos

7.1 Clasificación (aprendizaje supervisado)

La clasificación modela una variable objetivo categórica. Dado un vector de atributos (^p), se aprende una función (f(){1,,K}) que minimiza una pérdida esperada (por ejemplo, entropía cruzada o error 0-1 aproximado). Desde el punto de vista técnico, el desempeño se valida con esquemas como train/validation/test o k-fold cross-validation, y se analiza sensibilidad a desbalance de clases, umbrales de decisión y costos asimétricos.

Ejemplo: predecir si un estudiante aprobará con asistencia, tareas entregadas y horas de estudio. Un modelo base es regresión logística; un modelo más complejo podría ser un gradient boosting si existen no linealidades fuertes.

7.2 Regresión (aprendizaje supervisado)

La regresión se usa cuando la variable objetivo es numérica. El problema consiste en aproximar una función (y g()) bajo un criterio como MSE o MAE. Técnicamente, la selección del modelo depende de la estructura esperada: linealidad, heterocedasticidad, colinealidad y presencia de outliers. Métricas típicas incluyen RMSE, MAE y (R^2), pero en entornos de decisión suelen añadirse métricas de negocio (por ejemplo, error tolerable por segmento).

Ejemplo: predecir precio de vivienda con atributos físicos y geográficos; si hay interacciones complejas, se prefiere un modelo no lineal (árboles, ensambles, redes).

7.3 Clustering (aprendizaje no supervisado)

El clustering busca particiones naturales sin etiquetas. El caso prototípico es (k)-means, que minimiza la suma de distancias cuadráticas a centroides. Su uso exige decisiones técnicas: estandarización de variables, selección de (k), sensibilidad a inicialización y validez del supuesto de clusters aproximadamente esféricos. En datos con geometrías complejas, DBSCAN o modelos de mezcla pueden ser preferibles.

Ejemplo: segmentar usuarios por sesiones/semana, duración promedio y gasto mensual. La interpretación del cluster no está “en los datos”; se construye al vincular perfiles con acciones (campañas, producto, soporte).

7.4 Reglas de asociación

Las reglas tipo “si A entonces B” formalizan co-ocurrencias (análisis de canasta de mercado). Las métricas clave son soporte, confianza y lift; el lift es crucial porque evita confundir alta confianza con un consecuente muy frecuente.

Ejemplo: identificar que quienes compran jarabe para la tos tienden a comprar pastillas para la garganta; esto habilita cross-sell o colocación conjunta.

7.5 Detección de anomalías

Detecta observaciones raras respecto a un patrón normal. Técnicamente se puede abordar como distancia a vecindarios (LOF), separación por particiones (Isolation Forest), reconstrucción (autoencoders) o modelos probabilísticos. Un punto crítico es que “raro” no siempre significa “fraude”: requiere validación operacional y un proceso para manejo de falsos positivos.

Ejemplo: transacciones de monto atípico en horario inusual desde ubicación distante; se asigna un puntaje de anomalía y se define un umbral de revisión.

8 Proceso integral y frameworks de minería de datos

A medida que la disciplina creció, surgieron marcos de trabajo para organizar proyectos de forma repetible. Aquí se integran tres frameworks tradicionales: KDD, CRISP-DM y SEMMA, y se menciona además TDSP como alternativa moderna orientada a ingeniería.

8.1 KDD como modelo de descubrimiento

KDD describe el flujo completo desde datos crudos hacia conocimiento: selección, preprocesamiento, transformación, minería y evaluación/interpretación, culminando en conocimiento accionable. Es especialmente útil cuando el objetivo es entender y extraer patrones explicables, además de modelar.

flowchart LR
  A[(Datos)] --> B["Selección<br/>(dataset objetivo)"]
  B --> C["Preprocesamiento<br/>(ruido, faltantes)"]
  C --> D["Transformación<br/>(escala, PCA, features)"]
  D --> E["Data Mining<br/>(modelos/patrones)"]
  E --> F["Interpretación<br/>& Evaluación"]
  F --> G["Conocimiento<br/>(acción/reportes)"]

8.2 CRISP-DM como marco de proyecto end-to-end

CRISP-DM organiza el proyecto en seis fases iterativas: comprensión del negocio, comprensión de los datos, preparación, modelado, evaluación y despliegue. Su fortaleza es gestionar el ciclo completo con énfasis explícito en llevar resultados a operación (producción, monitoreo, impacto).

flowchart TB
  A[Business Understanding] --> B[Data Understanding]
  B --> C[Data Preparation]
  C --> D[Modeling]
  D --> E[Evaluation]
  E --> F[Deployment]
  E --> B
  D --> C
  note(["Iterativo: si falla evaluación,<br/>se regresa a datos/modelo."])
  E --> note

Ejemplo (hospital, ausencias a citas): se fija un objetivo de negocio (“bajar cancelación”), se auditan variables disponibles (historial, horarios), se limpian y unifican datos (teléfonos, duplicados), se construye un modelo o experimento (por ejemplo, predicción de probabilidad de no-asistencia o A/B de recordatorios SMS), se evalúa impacto y se despliega con monitoreo continuo.

8.3 SEMMA como pipeline práctico para iterar modelado

SEMMA (Sample, Explore, Modify, Model, Assess) enfatiza el ciclo de modelado: muestrear, explorar, modificar (feature engineering/transformaciones), modelar y evaluar. Es particularmente útil cuando ya tienes un dataset razonablemente definido y quieres optimizar desempeño comparando alternativas rápidamente.

flowchart LR
  S[Sample] --> E[Explore]
  E --> M[Modify]
  M --> Mo[Model]
  Mo --> A[Assess]
  A --> E
  A --> M

8.4 TDSP como alternativa moderna orientada a ingeniería

TDSP (Team Data Science Process) se presenta como un proceso de equipo que combina gestión, reproducibilidad e implementación con prácticas de ingeniería (versionado, artefactos, despliegue). En comparación con CRISP-DM, suele enfatizar más explícitamente el “cómo se construye” en ambientes productivos (pipelines, repositorios, CI/CD, trazabilidad), aunque su esencia sigue siendo end-to-end.

9 Comparativa de frameworks (con ejemplos)

Framework Enfoque principal ¿Cuándo usarlo? Lo que menos enfatiza Entregable típico Ejemplo claro
CRISP-DM Proceso end-to-end orientado a negocio y despliegue Alinear problema, datos, modelo y operación con métricas de impacto Técnicas específicas (no dicta algoritmos) Modelo + plan de despliegue + monitoreo Reducir cancelación de citas: objetivo → datos → modelo/experimento → despliegue de recordatorios
SEMMA Pipeline de modelado iterativo (centrado en desempeño) Ya tienes datos y quieres iterar rápido para mejorar métricas Contexto de negocio y despliegue operacional Comparativo de modelos y reporte de evaluación Probar 3 modelos para predecir calificación final, elegir el mejor por RMSE/MAE
KDD Descubrimiento de conocimiento y patrones interpretables Extraer patrones/insights con interpretación validada Gestión del proyecto y despliegue Patrones/reglas + interpretación Market basket: reglas “si compra A, suele comprar B” para cross-sell
TDSP End-to-end con énfasis en ingeniería y trabajo en equipo El resultado debe vivir como sistema (pipelines, CI/CD, reproducibilidad) Marco teórico de descubrimiento; es más prescriptivo en implementación Pipelines + artefactos + despliegue versionado Score de riesgo con pipeline reproducible: ingesta → features → entrenamiento → registro → servicio

10 Cómo se combinan (una estrategia práctica)

En proyectos reales, no es necesario elegir un único marco. Una estrategia común es usar CRISP-DM para gobernar el proyecto completo, aplicar SEMMA dentro de la fase de modelado para iterar eficientemente, y apoyarse en la lógica de KDD si el objetivo incluye extraer patrones explicables o reglas interpretables.

flowchart TB
  A["CRISP-DM: gobierno del proyecto"] --> B["Modeling"]
  B --> C["SEMMA: iteración rápida<br/>(de features/modelos)"]
  B --> D["KDD: patrones/insights<br/>interpretables"]
  C --> E["Evaluación & selección"]
  D --> E
  E --> F["Despliegue & monitoreo"]

11 Consideraciones éticas y de implementación

En minería de datos, el modelo aprende patrones del pasado; si el pasado está sesgado, el modelo puede amplificar sesgos. Por eso, además de métricas predictivas, se requiere evaluación de equidad (por grupo o segmento), explicación razonable (según el caso) y gobernanza de privacidad. En implementación, también importa la estabilidad operacional: data drift, cambios en el proceso de captura, variación estacional y degradación del desempeño por condiciones nuevas.

Un punto técnico clave es que un modelo “bueno” en validación puede fallar en producción si la distribución cambia. Por ello, el despliegue debe incluir monitoreo: estadísticos de entrada, tasas de error, calibración y alertas; además de un protocolo para reentrenamiento y auditoría.

12 Conclusiones

La minería de datos transforma datos en conocimiento mediante tareas supervisadas (clasificación, regresión), no supervisadas (clustering), y métodos de descubrimiento (reglas, anomalías). Para hacer proyectos robustos, los frameworks aportan estructura: CRISP-DM organiza el ciclo completo hasta despliegue, SEMMA acelera la iteración de modelado y KDD fortalece el descubrimiento e interpretación de patrones, con alternativas como TDSP orientadas a reproducibilidad e ingeniería.