Almacenes y Minería de Datos (2026-2) — FC-UNAM
Undergraduate course, Facultad de Ciencias, Universidad Nacional Autónoma de México (UNAM), 2026
Undergraduate course focused on the design and implementation of modern analytical data systems, integrating dimensional modeling (Kimball), ETL/ELT processes, data quality, and core concepts of data mining. The course emphasizes a unified view of the data lifecycle, from data ingestion and transformation to analysis and modeling, through reproducible examples in Python and materials developed with Quarto.
Course Notes
Lecture notes, implementations, and reproducible examples are available at:
Course website (GitHub Pages): Access the course materials
Includes structured thematic units, executable notebooks,
.qmdfiles, minimal CSV datasets, and supporting materials for assignments and projects.
General Content
Data Warehousing:
OLTP vs OLAP, star schema design, bus matrix, conformed dimensions, slowly changing dimensions (Type 1/2), grain definition, and measures.ETL/ELT and Data Quality:
Staging processes, data cleaning and harmonization, surrogate keys, referential integrity, duplicate handling, and late arriving dimensions.Data Mining:
Exploratory data analysis (EDA), train/validation/test splits, classification and clustering models, dimensionality reduction, and evaluation metrics.
Format and Tools
- Language: Python (pandas, numpy, scikit-learn)
- Publishing: Quarto + GitHub Pages for reproducible documentation
- Deliverables: analytical queries, reproducible reports, and data modeling / ML assignments
Descripción del curso (Español)
Curso de licenciatura orientado al diseño y construcción de sistemas analíticos modernos, integrando modelado dimensional (Kimball), procesos ETL/ELT, calidad de datos y fundamentos de minería de datos. El curso enfatiza una visión unificada del ciclo de vida de los datos, desde su ingestión y transformación hasta su análisis y modelado, mediante ejemplos reproducibles en Python y materiales desarrollados en Quarto.
Notas del curso
Las notas, implementaciones y ejemplos reproducibles están disponibles en:
Sitio del curso (GitHub Pages): Access the course materials
Incluye unidades temáticas estructuradas, notebooks ejecutables, archivos
.qmd, datasets mínimos en formato CSV y material de apoyo para tareas y proyectos.
Contenido general
Almacenes de datos:
OLTP vs OLAP, diseño de star schema, bus matrix, dimensiones conformadas, manejo de SCD (Tipos 1 y 2), definición de granularidad y modelado de medidas.ETL/ELT y calidad de datos:
Procesos de staging, limpieza y homologación, uso de llaves sustitutas, integridad referencial, manejo de duplicados y tratamiento de late arriving dimensions.Minería de datos:
Análisis exploratorio (EDA), partición de datos (train/validation/test), modelos de clasificación y clustering, reducción de dimensionalidad y evaluación de modelos.
Modalidad y herramientas
- Lenguaje: Python (pandas, numpy, scikit-learn)
- Infraestructura: Quarto + GitHub Pages para documentación reproducible
- Entregables: consultas analíticas, reportes reproducibles y prácticas de modelado y machine learning
