Análisis de Big Data con Python
Utiliza PySpark para analizar Big Data a mucho mayor velocidad.
Todo lo que has aprendido hasta el momento sobre Python es de mucha utilidad, pero ¿Qué pasa si tienes que trabajar con Big Data? Cada vez es más común que las empresas cuenten con millones de registros provenientes de diferentes orígenes de datos y en diferentes formatos.
En este curso aprenderás los beneficios de trabajar Python con Apache Spark y utilizarás el paquete PySpark para ejecutar operaciones muchísimo más rápido que con técnicas tradicionales de análisis (hasta 100 veces más rápido).
Aprenderás desde la limpieza y manipulación de datos en entornos Big Data hasta la construcción de modelos de Machine Learning e Ingeniería de Características (Feature Engineering).
Este curso hará la diferencia entre un analista de datos normal y un analista de datos capaz de afrontar situaciones reales que se encontrará en las grandes empresas que generan Big Data, las cuales son cada vez más.
¡Suscríbete en el curso y prepárate para solucionar problemas del mundo real!Tu Instructor
Hola, mi nombre es Esteban Madrigal Solis, me desempeño profesionalmente como Desarrollador de Inteligencia de Negocios y Científico de Datos. Trabajo en la industria del retail, en una de las empresas más grande del mundo.
En el ámbito académico me desempeño como instructor y consultor en múltiples empresas en herramientas para el análisis de datos tales como Power BI, SQL, Tableau, Alteryx, R y Python, dichas actividades me permiten ampliar mis conocimientos y mis redes de contactos, logrando transmitir mi experiencia y buenas prácticas a todos mis estudiantes.
Te espero en el curso, ¡no te arrepentirás!.
Plan de Estudios
-
Inicio2.1 Introducción a RDDs (9:44)
-
Inicio2.2 Conectando Datos Externos (4:53)
-
Inicio2.3 Función Lambda (4:32)
-
Inicio2.4 Transformación Map en RDD (7:26)
-
Inicio2.5 Transformación FlatMap en RDD (6:25)
-
Inicio2.6 Transformación Union & Filter en RDD (9:01)
-
Inicio2.7 Acciones en RDD (9:47)
-
Inicio2.8 RDDs Pair (reducebyKey,countbykey, sortbykey) (5:54)
-
Inicio2.9 RDD Pair (CombinebyKey, aggregatebyKey) (10:38)
-
Inicio2.10 RDD Pair (Join) (5:45)
-
Inicio2.11 Acciones para Guardar RDD (1:58)
-
InicioMaterial de trabajo
-
Inicio3.1 Configuración de la Sesión (3:13)
-
Inicio3.2 Esquemas de Datos y Tablas Temporales (11:35)
-
Inicio3.3 Ejecución de Querys (3:36)
-
Inicio3.4 Create & Drop Database (4:41)
-
Inicio3.5 Create & Drop Table (9:42)
-
Inicio3.6 Insertar Datos a una Tabla (4:59)
-
Inicio3.7 Insertar Valores Manualmente en SQL (2:41)
-
Inicio3.8 Crear Tabla en SQL Spark a partir de un Archivo Local (3:00)
-
Inicio3.9 Alter Table & Declaraciones Auxiliares (4:58)
-
Inicio3.10 Funciones De Fecha - Conversion & Operaciones Aritméticas Básicas (7:37)
-
Inicio3.11 Cláusula Where & Join (8:33)
-
Inicio3.12 Cluster By - Distribute By - Group By (10:45)
-
Inicio3.13 Create View (2:15)
-
Inicio3.14 Optimización Pyspark (4:21)
-
Inicio3.15 Almacenamiento Caché (6:45)
-
Inicio3.16 Niveles De Almacenamiento (3:58)
-
Inicio3.17 Spark SQL Cache (5:47)
-
Inicio3.18 Introducción a Spark Web UI (3:38)
-
Inicio3.19 Spark UI Jobs -Stages (12:13)
-
Inicio3.20 Spark UI Storage - Environment (4:25)
-
Inicio3.21 Spark UI Executors - SQL (4:23)
-
InicioPráctica del curso