Zum Hauptinhalt springen Zur Suche springen Zur Hauptnavigation springen

PySpark – Teil 3: Datenverarbeitung mit Spark SQL

95,00 €

Sofort verfügbar, Lieferzeit: Sofort lieferbar

Produkt Anzahl: Gib den gewünschten Wert ein oder benutze die Schaltflächen um die Anzahl zu erhöhen oder zu reduzieren.

Dieser Kurs bietet eine praxisorientierte Einführung in Spark SQL – vom Filtern, Sortieren und Aggregieren von Daten über Joins und Unterabfragen bis hin zur Query-Optimierung. Der Data-Science-Experte Fabio Basler zeigt in seinem Videokurs alle Inhalte praxisnah und Schritt für Schritt. Das neu erworbene Wissen lässt sich durch direktes Mitmachen in Übungsaufgaben und Quizfragen überprüfen und festigen.

Produktinformationen "PySpark – Teil 3: Datenverarbeitung mit Spark SQL"

Im dritten Teil unserer PySpark-Reihe steht die Datenverarbeitung mit Spark SQL im Mittelpunkt. Spark SQL ermöglicht es, strukturierte Daten in Apache Spark mit vertrauter SQL-Syntax abzufragen und zu analysieren – kombiniert mit der Skalierbarkeit verteilter Big-Data-Verarbeitung und der nahtlosen Integration von Python.

Wir beginnen mit einem Überblick über die Architektur und Funktionsweise von Spark SQL. Anschließend lernen Sie, Daten zu filtern, zu sortieren und zu aggregieren. Darüber hinaus vertiefen Sie Ihr Wissen durch die Anwendung von Joins, Unterabfragen (Subqueries) und fortgeschritteneren SQL-Abfragen. Zum Schluss erfahren Sie, wie Sie Ihre Abfragen mit dem Catalyst Optimizer optimieren können.

Übungsaufgaben begleiten Sie durch diesen Kurs. Damit können Sie das Gelernte praktisch anwenden und festigen.

Die Reihe zu PySpark umfasst folgende Kurse:

  • PySpark – Teil 1: Spark-Grundlagen und Datenmanipulation 
  • PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames
  • PySpark – Teil 3: Datenverarbeitung mit Spark SQL
  • PySpark – Teil 4: Machine Learning mit Spark MLlib

Länge:  01:45 Stunden



Alle Lektionen im Überblick:

  • Vorstellung und Infos zum Kurs
    • Herzlich willkommen zu diesem Kurs
  • Schnelleinstieg in PySpark
    • Kapitelüberblick
    • Kurzeinführung in PySpark
  • Datenverarbeitung mit Spark SQL
    • Kapitelüberblick
    • Theorie: Überblick über Spark SQL und seine Architektur
    • Spark SQL in der Praxis
    • Einfache Filterungen
    • Erweiterte Filterungen
    • Ordnen und Sortieren von Datensätzen
    • Aufgabe: Sortieren und Filtern von Datensätzen
    • Lösung: Sortieren und Filtern von Datensätzen
    • Gruppierungen und Aggregationen
    • Fehlende Daten mit NULL
    • Join-Operationen zwischen DataFrames
    • Unterabfragen (Subqueries)
    • Komplexere Abfragen
    • Catalyst Optimizer
    • Aufgabe: Gruppierungen und Joins
    • Lösung: Gruppierungen und Joins
    • Quiz: Datenverarbeitung mit Spark SQL
  • Abschluss
    • Fazit und Kursabschluss

Über den Trainer:

Fabio Basler hat schon zu Beginn seines Studiums eine große Leidenschaft für die Methoden der Statistik und Data Science entwickelt. Über mehrere Semester hinweg konnte er als Tutor zahlreiche Studierende erfolgreich auf ihre Prüfungen und den Berufsalltag vorbereiten. Fabio Basler arbeitet als Datenanalyst in einem großen Industriekonzern. Mit großer Freude am Unterrichten gibt er sein Wissen in Online-Kursen und Seminaren weiter.

So lernen Sie mit diesem Videokurs:

In den Videokursen von heise academy lernen Sie IT-Themen anschaulich und verständlich. In den Videos schauen Sie den Experten bei der praktischen Arbeit zu und lassen sich dabei alles genau erklären. Das Wissen ist in kleine Lernschritte und Aufgaben unterteilt. Sie können den Kurs Lektion für Lektion durcharbeiten oder gezielt zu Themen springen, die Sie interessieren. Die persönliche Lernumgebung der heise academy hält viele Funktionen für Sie bereit, die Ihnen beim Lernen helfen können:

  • Flexibler Videoplayer mit vielen Steuerungsmöglichkeiten
  • Wissensquizzes zur Lernkontrolle
  • Lernhistorie und Lernfortschritt
  • Lesezeichen und Notizen 
  • Volltextsuche in den Videos
  • Frage-den-Experten-Modul
  • Übungsmaterial zum Mitmachen
  • Responsive Web-App und Videostreaming für alle Endgeräte

Technische Voraussetzungen:

Für diesen Videokurs wird lediglich ein Browser (mit eingeschalteter JavaScript-Funktionalität) und eine Internetverbindung benötigt.

Artikel-Details

Anbieter:
Heise Medien GmbH & Co. KG
Artikelnummer:
datenverarbeitung-mit-spark-sql-3063
Veröffentlicht:
21.12.25