Almacenes y Minería de Datos (2026-2) — FC-UNAM

Undergraduate course, Facultad de Ciencias, Universidad Nacional Autónoma de México (UNAM), 2026

Undergraduate course focused on the design and implementation of modern analytical data systems, integrating dimensional modeling (Kimball), ETL/ELT processes, data quality, and core concepts of data mining. The course emphasizes a unified view of the data lifecycle, from data ingestion and transformation to analysis and modeling, through reproducible examples in Python and materials developed with Quarto.

Course Notes

Lecture notes, implementations, and reproducible examples are available at:

  • Course website (GitHub Pages): Access the course materials

    Includes structured thematic units, executable notebooks, .qmd files, minimal CSV datasets, and supporting materials for assignments and projects.

General Content

  • Data Warehousing:
    OLTP vs OLAP, star schema design, bus matrix, conformed dimensions, slowly changing dimensions (Type 1/2), grain definition, and measures.

  • ETL/ELT and Data Quality:
    Staging processes, data cleaning and harmonization, surrogate keys, referential integrity, duplicate handling, and late arriving dimensions.

  • Data Mining:
    Exploratory data analysis (EDA), train/validation/test splits, classification and clustering models, dimensionality reduction, and evaluation metrics.

Format and Tools

  • Language: Python (pandas, numpy, scikit-learn)
  • Publishing: Quarto + GitHub Pages for reproducible documentation
  • Deliverables: analytical queries, reproducible reports, and data modeling / ML assignments

Descripción del curso (Español)

Curso de licenciatura orientado al diseño y construcción de sistemas analíticos modernos, integrando modelado dimensional (Kimball), procesos ETL/ELT, calidad de datos y fundamentos de minería de datos. El curso enfatiza una visión unificada del ciclo de vida de los datos, desde su ingestión y transformación hasta su análisis y modelado, mediante ejemplos reproducibles en Python y materiales desarrollados en Quarto.

Notas del curso

Las notas, implementaciones y ejemplos reproducibles están disponibles en:

  • Sitio del curso (GitHub Pages): Access the course materials

    Incluye unidades temáticas estructuradas, notebooks ejecutables, archivos .qmd, datasets mínimos en formato CSV y material de apoyo para tareas y proyectos.

Contenido general

  • Almacenes de datos:
    OLTP vs OLAP, diseño de star schema, bus matrix, dimensiones conformadas, manejo de SCD (Tipos 1 y 2), definición de granularidad y modelado de medidas.

  • ETL/ELT y calidad de datos:
    Procesos de staging, limpieza y homologación, uso de llaves sustitutas, integridad referencial, manejo de duplicados y tratamiento de late arriving dimensions.

  • Minería de datos:
    Análisis exploratorio (EDA), partición de datos (train/validation/test), modelos de clasificación y clustering, reducción de dimensionalidad y evaluación de modelos.

Modalidad y herramientas

  • Lenguaje: Python (pandas, numpy, scikit-learn)
  • Infraestructura: Quarto + GitHub Pages para documentación reproducible
  • Entregables: consultas analíticas, reportes reproducibles y prácticas de modelado y machine learning