PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames
195,00 €
Sofort verfügbar, Lieferzeit: Sofort lieferbar
Im zweiten Teil unserer 4-teiligen Kursreihe zu Big Data mit PySpark zeigen wir, wie sich Daten effizient mit DataFrames verarbeiten und analysieren lassen. Der Data-Science-Experte Fabio
Basler zeigt in seinem Videokurs alle Inhalte praxisnah und Schritt für Schritt. Das
neu erworbene Wissen lässt sich durch direktes Mitmachen in
Übungsaufgaben und Quizfragen überprüfen und festigen.
Produktinformationen "PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames"
PySpark bietet eine Schnittstelle für die Nutzung von Apache Spark in Python. Es vereint die Performanz von Apache Spark mit der Flexibilität von Python und erleichtert damit die Abfrage, Verarbeitung und Auswertung großer Datenmengen.
Im zweiten Teil unserer PySpark-Reihe widmen wir uns der Datenverarbeitung mit DataFrames. Zunächst lernen Sie, wie Sie DataFrames erstellen und Schemas definieren und worin sich Spark- und Pandas-DataFrames unterscheiden. Danach setzen Sie zentrale Operationen wie Selektionen, Berechnungen, Filterungen und Sortierungen praktisch um.
Schritt für Schritt erweitern Sie anschließend Ihr Wissen um fortgeschrittene Techniken – von Spaltenbearbeitung, Aggregationen und Gruppierungen über Pivot-Operationen bis hin zu Text-, Datums- und Zeitfunktionen. Zum Schluss erfahren Sie, wie Sie DataFrames über Joins oder Mengenoperationen kombinieren und Window-Funktionen für komplexe Analysen nutzen.
Während des gesamten Kurses arbeiten Sie mit vorbereiteten Beispieldaten und können somit das Gelernte direkt in praktische Anwendung überführen und in Übungsaufgaben festigen.
Die Kursreihe zu PySpark umfasst folgende Teile:
- PySpark – Teil 1: Spark-Grundlagen und Datenmanipulation
- PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames
- PySpark – Teil 3: Datenverarbeitung mit Spark SQL (erscheint in Kürze)
- PySpark – Teil 4: Machine Learning mit Spark MLlib (erscheint in Kürze)
Länge: 03:37 Stunden
Alle Lektionen im Überblick:
- Vorstellung und Infos zum Kurs
- Herzlich willkommen zu diesem Kurs
-
Schnelleinstieg in PySpark
- Kapitelüberblick
- Kurzeinführung in PySpark
-
Datenverarbeitung mit PySpark DataFrames
- Kapitelüberblick
- Vorstellung der Projektdaten und Problemstellungen
- Erstellung von PySpark DataFrames
- Datentypen definieren per Spark-Schema
- DataFrames: Spark vs. Pandas
- Grundlegende DataFrame-Operationen mit select()
- Spalten berechnen: Umsatz aus Verkaufsmenge und Preis
- Einfache Filterungen mit kategorischen und numerischen Filtern
- Sortieren und Ordnen von Datensätzen mit orderBy()
- Filterungen und Operatoren
- Erweiterte Filterungen mit isin, between und like
- Aufgabe: Filterungen und Sortierungen
- Lösung: Filterungen und Sortierungen
- Quiz: Datenverarbeitung mit PySpark DataFrames
-
Erweiterte DataFrame-Operationen und Optimierungen
- Kapitelüberblick
- Spalten bearbeiten, Elemente umbenennen, hinzufügen und löschen
- Bedingte Spalten berechnen
- Aggregationen: Datenbestände zusammenfassen
- Gruppierungen und Aggregationen mit groupBy
- Gruppierungen nach mehreren Kategorien oder Aggregationen
- Filterungen bei Gruppierungen
- Pivot-Operationen
- Aufgabe: Spaltenbearbeitung und Gruppierungen
- Lösung: Spaltenbearbeitung und Gruppierungen
- Textfunktionen
- Umgang mit fehlenden Daten
- Arbeiten mit Datums- und Zeitfunktionen
- Kombinieren und Joins von DataFrames
- Operationen mit union, intersect, und except
- Window-Funktionen in PySpark
- Aufgabe: Fortgeschrittene DataFrame-Operationen
- Lösung: Fortgeschrittene DataFrame-Operationen
- Quiz: Erweiterte DataFrame-Operationen und Optimierungen
-
Abschluss
- Fazit und Kursabschluss
Über den Trainer:
Fabio Basler hat schon zu Beginn seines Studiums eine große Leidenschaft
für die Methoden der Statistik und Data Science entwickelt. Über
mehrere Semester hinweg konnte er als Tutor zahlreiche Studierende
erfolgreich auf ihre Prüfungen und den Berufsalltag vorbereiten. Fabio
Basler arbeitet als Datenanalyst in einem großen Industriekonzern. Mit
großer Freude am Unterrichten gibt er sein Wissen in Online-Kursen und
Seminaren weiter.
So lernen Sie mit diesem Videokurs:
In den Videokursen von heise academy lernen Sie IT-Themen anschaulich und verständlich. In den Videos schauen Sie den Experten bei der praktischen Arbeit zu und lassen sich dabei alles genau erklären. Das Wissen ist in kleine Lernschritte und Aufgaben unterteilt. Sie können den Kurs Lektion für Lektion durcharbeiten oder gezielt zu Themen springen, die Sie interessieren. Die persönliche Lernumgebung der heise academy hält viele Funktionen für Sie bereit, die Ihnen beim Lernen helfen können:
- Flexibler Videoplayer mit vielen Steuerungsmöglichkeiten
- Wissensquizzes zur Lernkontrolle
- Lernhistorie und Lernfortschritt
- Lesezeichen und Notizen
- Volltextsuche in den Videos
- Frage-den-Experten-Modul
- Übungsmaterial zum Mitmachen
- Responsive Web-App und Videostreaming für alle Endgeräte
Technische Voraussetzungen:
Für diesen Videokurs wird lediglich ein Browser (mit eingeschalteter JavaScript-Funktionalität) und eine Internetverbindung benötigt.
Artikel-Details
- Anbieter:
- Heise Medien GmbH & Co. KG
- Artikelnummer:
- datenverarbeitung-mit-pyspark-dataframes-3058
- Veröffentlicht:
- 19.12.25