Almacenes y Minería de Datos
Notas de curso · Semestre 2026–II
Almacenes y Minería
de Datos
Del modelado multidimensional y los cubos OLAP hasta la clasificación supervisada, el boosting y los modelos probabilísticos modernos — con rigor matemático, implementaciones en Python y más de 80 visualizaciones interactivas.
7
Unidades
40+
Capítulos
80+
Figuras Plotly
100%
Reproducible
Prefacio
Estas notas cubren el ciclo completo del conocimiento basado en datos: diseño de almacenes analíticos, minería de patrones, preprocesamiento, clasificación supervisada y modelos probabilísticos. Cada tema combina desarrollo teórico con código ejecutable en Python.
Unidad 1 & 5
Almacenes de datos y OLAP
Modelo multidimensional, esquemas estrella y copo de nieve, operaciones Roll-up, Drill-down, Slice & Dice.
Unidad 3
Análisis exploratorio
EDA univariado y multivariado, distribuciones, correlaciones, heterogeneidad y reducción de dimensionalidad.
Unidad 4
Preprocesamiento
Imputación de datos faltantes, detección de ruido, integración y selección de características con PCA y χ².
Unidad 6
Reglas de asociación
Algoritmos Apriori y FP-Growth; métricas de soporte, confianza, lift y métricas adicionales de interestingness.
Unidad 7
Clasificación supervisada
Árboles CART, Random Forests, XGBoost, SVM con kernels, regresión logística, Naïve Bayes y GMM.
Unidad 7
Evaluación de modelos
Holdout, k-fold CV, curvas ROC-AUC, calibración, matrices de costo y criterios de información.
Temario
1
Almacenes de datos
2 capítulos
Introducción al KDD
Modelo multidimensional
Esquema estrella
ETL
2
Introducción a la Minería de Datos
1 capítulo
Proceso CRISP-DM
Tipos de tareas
Herramientas
3
Análisis Exploratorio de Datos
9 capítulos
Localización y variabilidad
Forma y concentración
Heterogeneidad
Correlación
Análisis multivariado
Caso BigMart
4
Preprocesamiento de Datos
5 capítulos
Datos faltantes
Ruido y outliers
Integración y conversión
PCA
Selección χ²
5
Cubos de Datos y OLAP
1 capítulo
Operaciones OLAP
Roll-up / Drill-down
Slice & Dice
Data cubes
6
Reglas de Asociación
3 capítulos
Apriori
FP-Growth
Soporte · Confianza · Lift
Métricas adicionales
7
Clasificación Supervisada
14 capítulos
Árboles CART
Random Forests
XGBoost
Regresión logística
SVM · Kernels
Naïve Bayes · GMM
Evaluación · ROC · AUC
Riesgo y costos
Requisitos previos
Orientado a estudiantes de Ciencias de la Computación, Matemáticas, Física y carreras afines.
Cálculo y Álgebra Lineal
Derivadas parciales, gradientes, operaciones con matrices y valores propios.
Probabilidad y Estadística
Variables aleatorias, distribuciones, esperanza, varianza y teorema de Bayes.
Programación en Python
Nivel básico–intermedio: numpy, pandas y manejo de datos tabulares.
Bases de Datos
SQL básico y modelo relacional (recomendable, no indispensable).
Autor
DV
Diego Villalba
Facultad de Ciencias ·
Universidad Nacional Autónoma de México
Estas notas conectan la teoría matemática con implementaciones
reproducibles en Python, priorizando intuición geométrica
y rigor formal en igual medida.
Contacto: diego.villalba@ciencias.unam.mx