Curso de Spark SQL con PySpark

100% Online

200 horas

260€

Matricularme

Curso de Spark SQL con PySpark

Name: Curso de Spark SQL con PySpark
Author: nombre

100% Online

200 horas

260€

Matricularme

Presentación

En la era del Big Data, dominar herramientas como Apache Spark se ha vuelto crucial para gestionar y analizar grandes volúmenes de datos de forma rápida y eficiente. Este Curso de Spark SQL con PySpark te permitirá adquirir competencias avanzadas en la creación y manipulación de DataFrames, la ejecución de consultas SQL sobre grandes conjuntos de datos, y el desarrollo de modelos de machine learning. Nuestra formación está diseñada para ofrecer un enfoque práctico y comprensible, con ejemplos reales y ejercicios adaptados a las necesidades actuales del mercado laboral. Si quieres convertirte en una persona experta en Spark SQL con PySpark, este curso te proporcionará las habilidades necesarias para destacar en el sector.

Para qué te prepara

El Curso de Spark SQL con PySpark te capacita para desarrollar aplicaciones distribuidas, manipular y analizar grandes conjuntos de datos, optimizar consultas y ejecutar modelos de machine learning. Además, te prepara para implementar soluciones de Big Data de alto rendimiento en diferentes entornos, con un enfoque en la eficiencia y escalabilidad, habilidades muy demandadas en el mercado laboral actual.

Objetivos

- Aprender a manejar DataFrames y RDDs para gestionar grandes volúmenes de datos. - Ejecutar consultas SQL eficientes sobre grandes conjuntos de datos con PySpark. - Implementar transformaciones complejas y operaciones avanzadas en PySpark. - Optimizar el rendimiento de las aplicaciones en Spark mediante particiones y caching. - Desarrollar y ajustar modelos de machine learning utilizando Spark MLlib. - Configurar entornos de desarrollo en Spark para diferentes plataformas. - Aplicar técnicas de procesamiento en tiempo real con Spark Streaming

A quién va dirigido

Este Curso de Spark SQL con PySpark está dirigido a profesionales del análisis de datos, ingeniería de software, ciencia de datos y cualquier persona interesada en el procesamiento de grandes volúmenes de datos con Apache Spark. Tanto si tienes experiencia previa como si estás buscando aprender desde cero, este curso te proporcionará las habilidades necesarias.

Salidas Profesionales

Al finalizar el Curso de Spark SQL con PySpark, podrás trabajar en ingeniería de datos, desarrollo de Big Data, ciencia de datos o arquitectura de soluciones en grandes empresas tecnológicas y startups, y sectores como banca y retail. Las habilidades adquiridas te posicionarán como un/a profesional capacitado en el manejo de datos masivos y procesamiento distribuido.

Plataforma de aprendizaje avanzada con inteligencia artificial integrada
Contenidos actualizados por especialistas del sector
Aprendizaje experiencial mediante participación activa del estudiante
Flexibilidad y adaptabilidad del proceso formativo
Enfoque interdisciplinario
Seguimiento por un tutor experto

Temario

UNIDAD DIDÁCTICA 1. FUNDAMENTOS DE APACHE SPARK

Introducción a Apache Spark: arquitectura y componentes
RDDs (Resilient Distributed Datasets): API básico, operaciones y persistencia
Transformaciones y acciones en RDDs
Programación funcional en Spark: Scala y Python
Entornos de desarrollo para Spark: Spark Standalone, YARN, Kubernetes

UNIDAD DIDÁCTICA 2. INTRODUCCIÓN A PYSPARK Y SPARK SQL

¿Por qué PySpark?
Introducción a los DataFrames en PySpark
Instalación y configuración de PySpark en un entorno local o clúster
Diferencias entre RDDs, DataFrames y Datasets

UNIDAD DIDÁCTICA 3. CREACIÓN Y MANIPULACIÓN DE DATAFRAMES

Creación de DataFrames a partir de archivos CSV, JSON y RDDs
Definición de esquemas manual y automática
Operaciones básicas: selección, filtrado y ordenación de datos
Agrupación y agregación de datos
Escritura de DataFrames en distintos formatos: CSV, JSON, Parquet

UNIDAD DIDÁCTICA 4. CONSULTAS SQL SOBRE DATAFRAMES

Ejecución de consultas SQL utilizando spark.sql()
Creación de vistas temporales y permanentes
Subconsultas y consultas anidadas
Funciones de agregación y análisis
Creación de funciones definidas por el usuario (UDFs)

UNIDAD DIDÁCTICA 5. TRANSFORMACIONES Y OPERACIONES AVANZADAS

Transformaciones complejas: map(), flatMap(), reduceByKey()
Funciones avanzadas: cube(), rollup() y pivot()
Joins: Tipos de uniones en PySpark (inner, left, right, full)
Operaciones sobre datos complejos (arrays, structs, maps)

UNIDAD DIDÁCTICA 6. OPTIMIZACIÓN Y AJUSTE DEL RENDIMIENTO

Entendiendo Catalyst Optimizer: Internals y beneficios
Particionamiento de datos: repartition() y coalesce()
Uso de persistencia y caching en Spark
Optimización de consultas SQL en PySpark
Monitorización de tareas y stages en Spark UI

UNIDAD DIDÁCTICA 7. GESTIÓN Y ALMACENAMIENTO DE DATOS

Lectura y escritura de datos en HDFS y sistemas de almacenamiento distribuido
Integración de PySpark con bases de datos relacionales (JDBC)
Trabajo con datos en formatos avanzados: Parquet y ORC
Optimización del almacenamiento de datos en PySpark

UNIDAD DIDÁCTICA 8. SPARK STREAMING Y MACHINE LEARNING

Introducción a Spark Streaming y su uso con DataFrames
Procesamiento de datos en tiempo real con PySpark
Introducción a Spark MLlib y preparación de datos para machine learning
Creación de pipelines de machine learning en PySpark
Evaluación y ajuste de modelos de machine learning

Titulación

Claustro

Ir a Linkedin

Rafael Marín Sastre

Ingeniero técnico en informática de sistemas por la Universidad de Granada (UGR).  

Apasionado de la informática y de las nuevas tecnologías, cuenta con 10 años de experiencia y vocación en el ámbito TIC y la programación de software. Es experto en desarrollo web, programación de aplicaciones, análisis de datos, big data, ciberseguridad y diseño y experiencia de usuario (UX/UI). 

Ir a Linkedin

Alan Sastre

Ocupa el puesto de CTO (Chief Technology Officer) y formador. Diseña e imparte formación en diferentes áreas como desarrollo web, bases de datos, big data, business intelligence y ciencia de datos. Además, trabaja diaramente con las tecnologías del ecosistema Java, C# y Phyton.

Ir a Linkedin

Dani Pérez Lima

Global IT support manager de una multinacional con más de 20 años de experiencia en el mundo IT, además de un apasionado de la virtualización de sistemas y de la transmisión de conocimiento en el ámbito de la tecnología.

Ir a Linkedin

José Domingo Muñoz Rodríguez

Ingeniero informático, profesor de secundaria de ASIR y coorganizador de OpenStack Sevilla con dilata experiencia en sistemas GNU/Linux. Administra clouds públicos y gestiona un cloud privado con OpenStack.

Ir a Linkedin

Juan Benito Pacheco

Como tech lead, ayuda a organizaciones a escalar sus servicios e infraestructura. Lleva más de 5 años programando tanto en front-end como back-end con JavaScript, Angular, Python o Django, entre otras tecnologías.

Ir a Linkedin

Juan Diego Pérez Jiménez

Profesor de Ciclos Formativos de Grado Superior de Informática. Más de 10 años creando páginas web y enseñando cómo hacerlas, cómo usar bases de datos y todo lo relacionado con la informática.

Solicitar información

Acepto el tratamiento de mis datos con la finalidad prevista en la información básica