Curso de Spark SQL con PySpark
100% Online
200 horas
260€
Curso de Spark SQL con PySpark
    Curso de Spark SQL con PySpark

    Curso de Spark SQL con PySpark

    100% Online
    200 horas
    260€
    Seguridad y confianza en tus pagos online.

    Presentación

    En la era del Big Data, dominar herramientas como Apache Spark se ha vuelto crucial para gestionar y analizar grandes volúmenes de datos de forma rápida y eficiente. Este Curso de Spark SQL con PySpark te permitirá adquirir competencias avanzadas en la creación y manipulación de DataFrames, la ejecución de consultas SQL sobre grandes conjuntos de datos, y el desarrollo de modelos de machine learning. Nuestra formación está diseñada para ofrecer un enfoque práctico y comprensible, con ejemplos reales y ejercicios adaptados a las necesidades actuales del mercado laboral. Si quieres convertirte en una persona experta en Spark SQL con PySpark, este curso te proporcionará las habilidades necesarias para destacar en el sector.
    Qs World University Rankings

    Universidades colaboradoras

    Para qué te prepara
    El Curso de Spark SQL con PySpark te capacita para desarrollar aplicaciones distribuidas, manipular y analizar grandes conjuntos de datos, optimizar consultas y ejecutar modelos de machine learning. Además, te prepara para implementar soluciones de Big Data de alto rendimiento en diferentes entornos, con un enfoque en la eficiencia y escalabilidad, habilidades muy demandadas en el mercado laboral actual.
    Objetivos
    - Aprender a manejar DataFrames y RDDs para gestionar grandes volúmenes de datos. - Ejecutar consultas SQL eficientes sobre grandes conjuntos de datos con PySpark. - Implementar transformaciones complejas y operaciones avanzadas en PySpark. - Optimizar el rendimiento de las aplicaciones en Spark mediante particiones y caching. - Desarrollar y ajustar modelos de machine learning utilizando Spark MLlib. - Configurar entornos de desarrollo en Spark para diferentes plataformas. - Aplicar técnicas de procesamiento en tiempo real con Spark Streaming
    A quién va dirigido
    Este Curso de Spark SQL con PySpark está dirigido a profesionales del análisis de datos, ingeniería de software, ciencia de datos y cualquier persona interesada en el procesamiento de grandes volúmenes de datos con Apache Spark. Tanto si tienes experiencia previa como si estás buscando aprender desde cero, este curso te proporcionará las habilidades necesarias.
    Salidas Profesionales
    Al finalizar el Curso de Spark SQL con PySpark, podrás trabajar en ingeniería de datos, desarrollo de Big Data, ciencia de datos o arquitectura de soluciones en grandes empresas tecnológicas y startups, y sectores como banca y retail. Las habilidades adquiridas te posicionarán como un/a profesional capacitado en el manejo de datos masivos y procesamiento distribuido.
    Temario

    UNIDAD DIDÁCTICA 1. FUNDAMENTOS DE APACHE SPARK

    1. Introducción a Apache Spark: arquitectura y componentes
    2. RDDs (Resilient Distributed Datasets): API básico, operaciones y persistencia
    3. Transformaciones y acciones en RDDs
    4. Programación funcional en Spark: Scala y Python
    5. Entornos de desarrollo para Spark: Spark Standalone, YARN, Kubernetes

    UNIDAD DIDÁCTICA 2. INTRODUCCIÓN A PYSPARK Y SPARK SQL

    1. ¿Por qué PySpark?
    2. Introducción a los DataFrames en PySpark
    3. Instalación y configuración de PySpark en un entorno local o clúster
    4. Diferencias entre RDDs, DataFrames y Datasets

    UNIDAD DIDÁCTICA 3. CREACIÓN Y MANIPULACIÓN DE DATAFRAMES

    1. Creación de DataFrames a partir de archivos CSV, JSON y RDDs
    2. Definición de esquemas manual y automática
    3. Operaciones básicas: selección, filtrado y ordenación de datos
    4. Agrupación y agregación de datos
    5. Escritura de DataFrames en distintos formatos: CSV, JSON, Parquet

    UNIDAD DIDÁCTICA 4. CONSULTAS SQL SOBRE DATAFRAMES

    1. Ejecución de consultas SQL utilizando spark.sql()
    2. Creación de vistas temporales y permanentes
    3. Subconsultas y consultas anidadas
    4. Funciones de agregación y análisis
    5. Creación de funciones definidas por el usuario (UDFs)

    UNIDAD DIDÁCTICA 5. TRANSFORMACIONES Y OPERACIONES AVANZADAS

    1. Transformaciones complejas: map(), flatMap(), reduceByKey()
    2. Funciones avanzadas: cube(), rollup() y pivot()
    3. Joins: Tipos de uniones en PySpark (inner, left, right, full)
    4. Operaciones sobre datos complejos (arrays, structs, maps)

    UNIDAD DIDÁCTICA 6. OPTIMIZACIÓN Y AJUSTE DEL RENDIMIENTO

    1. Entendiendo Catalyst Optimizer: Internals y beneficios
    2. Particionamiento de datos: repartition() y coalesce()
    3. Uso de persistencia y caching en Spark
    4. Optimización de consultas SQL en PySpark
    5. Monitorización de tareas y stages en Spark UI

    UNIDAD DIDÁCTICA 7. GESTIÓN Y ALMACENAMIENTO DE DATOS

    1. Lectura y escritura de datos en HDFS y sistemas de almacenamiento distribuido
    2. Integración de PySpark con bases de datos relacionales (JDBC)
    3. Trabajo con datos en formatos avanzados: Parquet y ORC
    4. Optimización del almacenamiento de datos en PySpark

    UNIDAD DIDÁCTICA 8. SPARK STREAMING Y MACHINE LEARNING

    1. Introducción a Spark Streaming y su uso con DataFrames
    2. Procesamiento de datos en tiempo real con PySpark
    3. Introducción a Spark MLlib y preparación de datos para machine learning
    4. Creación de pipelines de machine learning en PySpark
    5. Evaluación y ajuste de modelos de machine learning
    Titulación
    Claustro

    Rafael Marín Sastre

    Ingeniero técnico en informática de sistemas por la Universidad de Granada (UGR).  

    Apasionado de la informática y de las nuevas tecnologías, cuenta con 10 años de experiencia y vocación en el ámbito TIC y la programación de software. Es experto en desarrollo web, programación de aplicaciones, análisis de datos, big data, ciberseguridad y diseño y experiencia de usuario (UX/UI). 

    Alan Sastre

    Ocupa el puesto de CTO (Chief Technology Officer) y formador. Diseña e imparte formación en diferentes áreas como desarrollo web, bases de datos, big data, business intelligence y ciencia de datos. Además, trabaja diaramente con las tecnologías del ecosistema Java, C# y Phyton.

    Dani Pérez Lima

    Global IT support manager de una multinacional con más de 20 años de experiencia en el mundo IT, además de un apasionado de la virtualización de sistemas y de la transmisión de conocimiento en el ámbito de la tecnología.

    José Domingo Muñoz Rodríguez

    Ingeniero informático, profesor de secundaria de ASIR y coorganizador de OpenStack Sevilla con dilata experiencia en sistemas GNU/Linux. Administra clouds públicos y gestiona un cloud privado con OpenStack.

    Juan Benito Pacheco

    Como tech lead, ayuda a organizaciones a escalar sus servicios e infraestructura. Lleva más de 5 años programando tanto en front-end como back-end con JavaScript, Angular, Python o Django, entre otras tecnologías.

    Juan Diego Pérez Jiménez

    Profesor de Ciclos Formativos de Grado Superior de Informática. Más de 10 años creando páginas web y enseñando cómo hacerlas, cómo usar bases de datos y todo lo relacionado con la informática.

    Solicitar información