Almacenes y Minería de Datos (2026-2) — FC-UNAM

Undergraduate course, Facultad de Ciencias, Universidad Nacional Autónoma de México (UNAM), 2026

Curso de licenciatura enfocado en modelado dimensional (Kimball), ETL/ELT, calidad de datos, construcción de data marts y fundamentos de minería de datos (preparación, modelos, evaluación e interpretación), con ejemplos reproducibles en Python y materiales en Quarto.

Notas del curso

Las notas y ejemplos reproducibles están disponibles en:

  • Sitio del curso (GitHub Pages): https://diegoviillalba.github.io/almacenamienes-y-mineria-de-datos/
    Incluye unidades temáticas, ejemplos paso a paso, archivos .qmd, datasets mínimos en CSV para ejecutar los notebooks y material de apoyo para tareas y prácticas.

Contenido general

  • Almacenes de datos: OLTP vs OLAP, star schema, bus matrix, dimensiones conformadas, SCD (Tipo 1/2), granularidad y medidas.
  • ETL/ELT y calidad: staging, homologación, llaves sustitutas, integridad referencial, manejo de duplicados y late arriving dimensions.
  • Minería de datos: EDA, particiones train/val/test, clasificación, clustering, reducción de dimensionalidad y métricas de evaluación.

Modalidad y herramientas

  • Lenguaje: Python (pandas, numpy; scikit-learn cuando aplica)
  • Publicación de notas: Quarto + GitHub Pages
  • Entregables: consultas analíticas, reportes reproducibles y prácticas de modelado/ML