Aspectos generales
Responsable
Métodos de evaluación
| Método |
Cantidad |
Porcentaje |
| Actividades |
12 |
40% |
| Presentación |
1 |
60% |
Integrantes
| Integrante |
Rol |
Horas |
Actividad complementaria |
| MARTINEZ SANCHEZ MARIANA ESTHER |
Responsable |
96.00 |
|
Introducción
El curso de Análisis de Datos con Python está diseñado para profesionales y estudiantes que, a pesar de tener experiencia previa con bases de datos (como en Excel), no saben programar y buscan automatizar y escalar sus análisis. El objetivo principal es que los participantes aprendan a utilizar Python desde cero para el análisis de grandes conjuntos de datos, especialmente aquellos de interés público o social, como salud, medio ambiente y seguridad.
El curso se enfoca en enseñar a los estudiantes a manipular, analizar y visualizar datos complejos de al menos 5000 filas y 10 columnas y con una variedad de tipos de columnas (números, texto, categorías). Al finalizar, los alumnos serán capaces de transformar la información en conocimiento útil, respondiendo a preguntas clave a través de sus análisis. El proyecto final, que constituye el 60% de la calificación, es la presentación de un análisis completo sobre un conjunto de datos de su elección.
Los interesados deberán enviar un correo a la profesora que incluya:
- Nombre y adscripción.
- Descripción breve de la pregunta o tema de interés que desean explorar usando datos. Se buscan proyectos relacionados con salud pública, medio ambiente, seguridad o temas de impacto social.
- Propuesta de conjunto de datos a trabajar, preferentemente obtenidos de fuentes abiertas y confiables como el Portal de Datos Abiertos del Gobierno de México o el INEGI. Es obligatorio que los participantes trabajen con conjuntos de datos grandes (mínimo 5000 filas y 15 columnas) que incluyan diferentes tipos de datos (texto, números, categorías).
- En caso de trabajar con datos sensibles o enfrentar algún problema con el conjunto de datos propuesto, deberán incluir una justificación.
- Es OBLIGATORIO enviar esta información y que el conjunto de datos sea aceptado antes de inscribirse.
Objetivos
- Aprender Python desde cero y aplicarlo al análisis de grandes volúmenes de datos.
- Manipular, analizar y visualizar datos que reflejan aspectos críticos de la sociedad.
- Automatizar y escalar análisis de datos.
- Trabajar con conjuntos de datos complejos.
- Limpiar, transformar y analizar datos para responder a preguntas clave.
- Convertir la información de los datos en conocimiento útil y aplicable.
- Desarrollar un proyecto final basado en un conjunto de datos de elección del estudiante.
Temario
Curso impartido por: Dra Mariana Esther Martínez Sánchez
Unidad 1: Introducción a Python (8 horas)
Esta unidad cubre los conceptos básicos para comenzar a trabajar con Python en el análisis de datos. Los temas incluyen:
* Instalación de Anaconda y uso de Jupyter Notebooks.
* Introducción a Python y GitHub básico.
* Conceptos sobre qué es un dato y cómo descargar datos abiertos.
* Carga de datos en Python desde diferentes formatos como Excel, CSV y pickle.
Unidad 2: Exploración y Limpieza de Datos (12 horas)
En esta unidad se enseña a preparar los datos para su análisis. Los temas clave son:
* Conceptos de "Tidy data" y los pasos de un análisis de datos.
* Exploración básica de datos y comprensión de la estructura de una tabla (índice, columnas, tipos de datos).
* Operaciones básicas con la biblioteca pandas y limpieza de datos.
* Cómo guardar los datos limpios y transformados.
Unidad 3: Graficación Básica (12 horas)
Esta unidad se enfoca en la visualización de datos, un paso crucial para comunicar los hallazgos. Los temas incluyen:
* Teoría de la visualización de datos.
* Tipos de gráficas comunes como líneas, barras, dispersión e histogramas.
* Elementos de una gráfica (título, ejes, etc.).
* Uso de las bibliotecas Matplotlib y Seaborn para crear visualizaciones.
Unidad 4: Análisis de Datos (20 horas)
Esta es la unidad más extensa y profunda, dedicada a las técnicas de análisis. Se cubren:
* Estadística básica (conteo, suma, media, mediana, moda, desviación estándar).
* Estadística intermedia, incluyendo correlación y regresión lineal.
* Técnicas de agrupamiento, como groupby, filter y aggregate.
* Creación de tablas pivote (pivot_table).
* Consideraciones adicionales del análisis de datos, como regresión y mapas.
Unidad 5: Proyecto (12 horas)
Esta unidad final es la aplicación práctica de todo lo aprendido, donde los estudiantes trabajan en su proyecto personal.
* Los estudiantes deberán explorar, limpiar, visualizar y analizar un conjunto de datos que hayan propuesto.
Descargables