Zum Hauptinhalt springen Zur Suche springen Zur Hauptnavigation springen

PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames

195,00 €

Sofort verfügbar, Lieferzeit: Sofort lieferbar

Produkt Anzahl: Gib den gewünschten Wert ein oder benutze die Schaltflächen um die Anzahl zu erhöhen oder zu reduzieren.

Im zweiten Teil unserer 4-teiligen Kursreihe zu Big Data mit PySpark zeigen wir, wie sich Daten effizient mit DataFrames verarbeiten und analysieren lassen. Der Data-Science-Experte Fabio Basler zeigt in seinem Videokurs alle Inhalte praxisnah und Schritt für Schritt. Das neu erworbene Wissen lässt sich durch direktes Mitmachen in Übungsaufgaben und Quizfragen überprüfen und festigen.

Produktinformationen "PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames"

PySpark bietet eine Schnittstelle für die Nutzung von Apache Spark in Python. Es vereint die Performanz von Apache Spark mit der Flexibilität von Python und erleichtert damit die Abfrage, Verarbeitung und Auswertung großer Datenmengen.

Im zweiten Teil unserer PySpark-Reihe widmen wir uns der Datenverarbeitung mit DataFrames. Zunächst lernen Sie, wie Sie DataFrames erstellen und Schemas definieren und worin sich Spark- und Pandas-DataFrames unterscheiden. Danach setzen Sie zentrale Operationen wie Selektionen, Berechnungen, Filterungen und Sortierungen praktisch um.

Schritt für Schritt erweitern Sie anschließend Ihr Wissen um fortgeschrittene Techniken – von Spaltenbearbeitung, Aggregationen und Gruppierungen über Pivot-Operationen bis hin zu Text-, Datums- und Zeitfunktionen. Zum Schluss erfahren Sie, wie Sie DataFrames über Joins oder Mengenoperationen kombinieren und Window-Funktionen für komplexe Analysen nutzen.

Während des gesamten Kurses arbeiten Sie mit vorbereiteten Beispieldaten und können somit das Gelernte direkt in praktische Anwendung überführen und in Übungsaufgaben festigen.

Die Kursreihe zu PySpark umfasst folgende Teile:

  • PySpark – Teil 1: Spark-Grundlagen und Datenmanipulation 
  • PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames
  • PySpark – Teil 3: Datenverarbeitung mit Spark SQL (erscheint in Kürze)
  • PySpark – Teil 4: Machine Learning mit Spark MLlib (erscheint in Kürze)

Länge:  03:37 Stunden



Alle Lektionen im Überblick:

  • Vorstellung und Infos zum Kurs
    • Herzlich willkommen zu diesem Kurs
  • Schnelleinstieg in PySpark
    • Kapitelüberblick
    • Kurzeinführung in PySpark
  • Datenverarbeitung mit PySpark DataFrames
    • Kapitelüberblick
    • Vorstellung der Projektdaten und Problemstellungen
    • Erstellung von PySpark DataFrames
    • Datentypen definieren per Spark-Schema
    • DataFrames: Spark vs. Pandas
    • Grundlegende DataFrame-Operationen mit select()
    • Spalten berechnen: Umsatz aus Verkaufsmenge und Preis
    • Einfache Filterungen mit kategorischen und numerischen Filtern
    • Sortieren und Ordnen von Datensätzen mit orderBy()
    • Filterungen und Operatoren
    • Erweiterte Filterungen mit isin, between und like
    • Aufgabe: Filterungen und Sortierungen
    • Lösung: Filterungen und Sortierungen
    • Quiz: Datenverarbeitung mit PySpark DataFrames
  • Erweiterte DataFrame-Operationen und Optimierungen
    • Kapitelüberblick
    • Spalten bearbeiten, Elemente umbenennen, hinzufügen und löschen
    • Bedingte Spalten berechnen
    • Aggregationen: Datenbestände zusammenfassen
    • Gruppierungen und Aggregationen mit groupBy
    • Gruppierungen nach mehreren Kategorien oder Aggregationen
    • Filterungen bei Gruppierungen
    • Pivot-Operationen
    • Aufgabe: Spaltenbearbeitung und Gruppierungen
    • Lösung: Spaltenbearbeitung und Gruppierungen
    • Textfunktionen
    • Umgang mit fehlenden Daten
    • Arbeiten mit Datums- und Zeitfunktionen
    • Kombinieren und Joins von DataFrames
    • Operationen mit union, intersect, und except
    • Window-Funktionen in PySpark
    • Aufgabe: Fortgeschrittene DataFrame-Operationen
    • Lösung: Fortgeschrittene DataFrame-Operationen
    • Quiz: Erweiterte DataFrame-Operationen und Optimierungen
  • Abschluss
    • Fazit und Kursabschluss

    Über den Trainer:

    Fabio Basler hat schon zu Beginn seines Studiums eine große Leidenschaft für die Methoden der Statistik und Data Science entwickelt. Über mehrere Semester hinweg konnte er als Tutor zahlreiche Studierende erfolgreich auf ihre Prüfungen und den Berufsalltag vorbereiten. Fabio Basler arbeitet als Datenanalyst in einem großen Industriekonzern. Mit großer Freude am Unterrichten gibt er sein Wissen in Online-Kursen und Seminaren weiter.

    So lernen Sie mit diesem Videokurs:

    In den Videokursen von heise academy lernen Sie IT-Themen anschaulich und verständlich. In den Videos schauen Sie den Experten bei der praktischen Arbeit zu und lassen sich dabei alles genau erklären. Das Wissen ist in kleine Lernschritte und Aufgaben unterteilt. Sie können den Kurs Lektion für Lektion durcharbeiten oder gezielt zu Themen springen, die Sie interessieren. Die persönliche Lernumgebung der heise academy hält viele Funktionen für Sie bereit, die Ihnen beim Lernen helfen können:

    • Flexibler Videoplayer mit vielen Steuerungsmöglichkeiten
    • Wissensquizzes zur Lernkontrolle
    • Lernhistorie und Lernfortschritt
    • Lesezeichen und Notizen 
    • Volltextsuche in den Videos
    • Frage-den-Experten-Modul
    • Übungsmaterial zum Mitmachen
    • Responsive Web-App und Videostreaming für alle Endgeräte

    Technische Voraussetzungen:

    Für diesen Videokurs wird lediglich ein Browser (mit eingeschalteter JavaScript-Funktionalität) und eine Internetverbindung benötigt.

    Artikel-Details

    Anbieter:
    Heise Medien GmbH & Co. KG
    Artikelnummer:
    datenverarbeitung-mit-pyspark-dataframes-3058
    Veröffentlicht:
    19.12.25