Almacenes y Minería de Datos

Author

Diego Villaba

Ciencias de la Computación

Notas de curso  ·  Semestre 2026–II

Almacenes y Minería
de Datos

Del modelado multidimensional y los cubos OLAP hasta la clasificación supervisada, el boosting y los modelos probabilísticos modernos — con rigor matemático, implementaciones en Python y más de 80 visualizaciones interactivas.

Diego Villalba · Facultad de Ciencias, UNAM · CC BY-NC-SA 4.0

7
Unidades
40+
Capítulos
80+
Figuras Plotly
100%
Reproducible

Prefacio

Estas notas cubren el ciclo completo del conocimiento basado en datos: diseño de almacenes analíticos, minería de patrones, preprocesamiento, clasificación supervisada y modelos probabilísticos. Cada tema combina desarrollo teórico con código ejecutable en Python.

Unidad 1 & 5
Almacenes de datos y OLAP
Modelo multidimensional, esquemas estrella y copo de nieve, operaciones Roll-up, Drill-down, Slice & Dice.
Unidad 3
Análisis exploratorio
EDA univariado y multivariado, distribuciones, correlaciones, heterogeneidad y reducción de dimensionalidad.
Unidad 4
Preprocesamiento
Imputación de datos faltantes, detección de ruido, integración y selección de características con PCA y χ².
Unidad 6
Reglas de asociación
Algoritmos Apriori y FP-Growth; métricas de soporte, confianza, lift y métricas adicionales de interestingness.
Unidad 7
Clasificación supervisada
Árboles CART, Random Forests, XGBoost, SVM con kernels, regresión logística, Naïve Bayes y GMM.
Unidad 7
Evaluación de modelos
Holdout, k-fold CV, curvas ROC-AUC, calibración, matrices de costo y criterios de información.

Temario

1 Almacenes de datos 2 capítulos
Introducción al KDD Modelo multidimensional Esquema estrella ETL
2 Introducción a la Minería de Datos 1 capítulo
Proceso CRISP-DM Tipos de tareas Herramientas
3 Análisis Exploratorio de Datos 9 capítulos
Localización y variabilidad Forma y concentración Heterogeneidad Correlación Análisis multivariado Caso BigMart
4 Preprocesamiento de Datos 5 capítulos
Datos faltantes Ruido y outliers Integración y conversión PCA Selección χ²
5 Cubos de Datos y OLAP 1 capítulo
Operaciones OLAP Roll-up / Drill-down Slice & Dice Data cubes
6 Reglas de Asociación 3 capítulos
Apriori FP-Growth Soporte · Confianza · Lift Métricas adicionales
7 Clasificación Supervisada 14 capítulos
Árboles CART Random Forests XGBoost Regresión logística SVM · Kernels Naïve Bayes · GMM Evaluación · ROC · AUC Riesgo y costos

Requisitos previos

Orientado a estudiantes de Ciencias de la Computación, Matemáticas, Física y carreras afines.

Cálculo y Álgebra Lineal
Derivadas parciales, gradientes, operaciones con matrices y valores propios.
Probabilidad y Estadística
Variables aleatorias, distribuciones, esperanza, varianza y teorema de Bayes.
Programación en Python
Nivel básico–intermedio: numpy, pandas y manejo de datos tabulares.
Bases de Datos
SQL básico y modelo relacional (recomendable, no indispensable).

Autor

DV
Diego Villalba
Facultad de Ciencias  ·  Universidad Nacional Autónoma de México
Estas notas conectan la teoría matemática con implementaciones reproducibles en Python, priorizando intuición geométrica y rigor formal en igual medida.  Contacto: diego.villalba@ciencias.unam.mx