Almacenes y Minería de Datos

Author

Diego Villaba

Ciencias de la Computación

Notas de curso · Semestre 2026–II

Almacenes y Minería
de Datos

Del modelado multidimensional y los cubos OLAP hasta la clasificación supervisada, el boosting y los modelos probabilísticos modernos — con rigor matemático, implementaciones en Python y más de 80 visualizaciones interactivas.

Diego Villalba · Facultad de Ciencias, UNAM · CC BY-NC-SA 4.0

Comenzar el curso → Ver temario

Unidades

40+

Capítulos

80+

Figuras Plotly

100%

Reproducible

Prefacio

Estas notas cubren el ciclo completo del conocimiento basado en datos: diseño de almacenes analíticos, minería de patrones, preprocesamiento, clasificación supervisada y modelos probabilísticos. Cada tema combina desarrollo teórico con código ejecutable en Python.

Unidad 1 & 5

Almacenes de datos y OLAP

Modelo multidimensional, esquemas estrella y copo de nieve, operaciones Roll-up, Drill-down, Slice & Dice.

Unidad 3

Análisis exploratorio

EDA univariado y multivariado, distribuciones, correlaciones, heterogeneidad y reducción de dimensionalidad.

Unidad 4

Preprocesamiento

Imputación de datos faltantes, detección de ruido, integración y selección de características con PCA y χ².

Unidad 6

Reglas de asociación

Algoritmos Apriori y FP-Growth; métricas de soporte, confianza, lift y métricas adicionales de interestingness.

Unidad 7

Clasificación supervisada

Árboles CART, Random Forests, XGBoost, SVM con kernels, regresión logística, Naïve Bayes y GMM.

Unidad 7

Evaluación de modelos

Holdout, k-fold CV, curvas ROC-AUC, calibración, matrices de costo y criterios de información.

Temario

1 Almacenes de datos 2 capítulos

Introducción al KDD Modelo multidimensional Esquema estrella ETL

2 Introducción a la Minería de Datos 1 capítulo

Proceso CRISP-DM Tipos de tareas Herramientas

3 Análisis Exploratorio de Datos 9 capítulos

Localización y variabilidad Forma y concentración Heterogeneidad Correlación Análisis multivariado Caso BigMart

4 Preprocesamiento de Datos 5 capítulos

Datos faltantes Ruido y outliers Integración y conversión PCA Selección χ²

5 Cubos de Datos y OLAP 1 capítulo

Operaciones OLAP Roll-up / Drill-down Slice & Dice Data cubes

6 Reglas de Asociación 3 capítulos

Apriori FP-Growth Soporte · Confianza · Lift Métricas adicionales

7 Clasificación Supervisada 14 capítulos

Árboles CART Random Forests XGBoost Regresión logística SVM · Kernels Naïve Bayes · GMM Evaluación · ROC · AUC Riesgo y costos

Requisitos previos

Orientado a estudiantes de Ciencias de la Computación, Matemáticas, Física y carreras afines.

Cálculo y Álgebra Lineal

Derivadas parciales, gradientes, operaciones con matrices y valores propios.

Probabilidad y Estadística

Variables aleatorias, distribuciones, esperanza, varianza y teorema de Bayes.

Programación en Python

Nivel básico–intermedio: numpy, pandas y manejo de datos tabulares.

Bases de Datos

SQL básico y modelo relacional (recomendable, no indispensable).

Autor

Diego Villalba

Facultad de Ciencias · Universidad Nacional Autónoma de México

Estas notas conectan la teoría matemática con implementaciones reproducibles en Python, priorizando intuición geométrica y rigor formal en igual medida. Contacto: diego.villalba@ciencias.unam.mx

Almacenes y Mineríade Datos

Prefacio

Temario

Requisitos previos

Autor

Almacenes y Minería
de Datos