PySpark – Teil 4: Machine Learning mit Spark MLlib
95,00 €
Sofort verfügbar, Lieferzeit: Sofort lieferbar
Dieser Kurs zeigt anhand von drei Praxisprojekten, wie sich mit der Machine-Learning-Bibliothek von Apache Spark Umsatzprognosen erstellen, Kundenabwanderungen vorhersagen und Clustering-Modelle entwickeln lassen – von der Datenvisualisierung über das Modelltraining bis zur Performance-Bewertung. Der Data-Science-Experte Fabio Basler zeigt in seinem Videokurs alle Inhalte praxisnah und Schritt für Schritt.
Produktinformationen "PySpark – Teil 4: Machine Learning mit Spark MLlib"
Der letzte Teil unserer PySpark-Reihe beleuchtet die praktischen Anwendungsmöglichkeiten von Spark MLlib, der Machine-Learning-Bibliothek von Apache Spark. Diese stellt eine Vielzahl von Algorithmen für maschinelles Lernen bereit und ermöglicht das Trainieren von Modellen auf großen Datenmengen – skalierbar und mit nativer Python-Unterstützung.
In drei Praxisprojekten setzen wir Schritt für Schritt typische ML-Aufgaben um. Zunächst erstellen wir eine Umsatzprognose aus Basis einer linearen Regression. Anschließend geht es an die Vorhersage von Kundenabwanderungen mithilfe baumbasierter Verfahren. Zum Abschluss nutzen wir das Gaussian-Mixture-Modell zum Clustering der Laufleistung von Marathonläufern.
Am Anfang der drei Projekte steht die Datenvisualisierung, die es Ihnen erlaubt, Muster zu erkennen und eine Modellauswahl vorzunehmen. Dann geht es an das Aufsetzen und Trainieren der ML-Modelle. Und nicht zuletzt erfahren Sie, wie Sie die Vorhersagen der Modelle interpretieren und deren Performance anhand von Metriken bewerten.
Die Reihe zu PySpark umfasst folgende Kurse:
- PySpark – Teil 1: Spark-Grundlagen und Datenmanipulation
- PySpark – Teil 2: Datenverarbeitung mit PySpark DataFrames
- PySpark – Teil 3: Datenverarbeitung mit Spark SQL
- PySpark – Teil 4: Machine Learning mit Spark MLlib
Länge: 02:25 Stunden
Alle Lektionen im Überblick:
-
Vorstellung und Infos zum Kurs
- Herzlich willkommen zu diesem Kurs
-
Einführung
- Kapitelüberblick
- Kurzeinführung in PySpark
- Theorie: Überblick über MLlib und seine Komponenten
-
MLlib-Projekt 1 – Umsatzprognose mithilfe linearer Regression
- Kapitelüberblick
- Vorstellung der Projektdaten und Vorbereitung
- Explorative Datenanalyse mit Spark: Erste Einblicke gewinnen
- Zusammenhänge erkennen: Korrelationen und Muster
- Verteilungen und Histogramme: Datenstruktur visualisieren
- Regression mit Spark MLlib: Setup und Grundlagen
- Datenaufteilung: Trainings- und Testdaten korrekt aufteilen
- Modelltraining mit Spark MLlib: Umsatz vorhersagen
- Modellauswertung: Achsenabschnitt und Regressionskoeffizienten über Regressionsfunktion interpretieren
- Modellvorhersagen
- Bewertungsmetriken auswerten
- Zusammenfassung und Optimierungsvorschläge
- Quiz: MLlib-Projekt 1 – Umsatzprognose mithilfe linearer Regression
-
MLlib-Projekt 2 – Kündigungen vorhersagen mit baumbasierten Lernverfahren
- Kapitelüberblick
- Vorstellung der Projektdaten und Problemstellung
- Vorbereitung und Datenimport
- Explorative Datenanalyse: Muster und Auffälligkeiten erkennen
- Visualisierung der Kündigungen
- Visualisierung der Kundenzufriedenheit
- Decision-Tree-Modell: Setup und Grundlagen
- Datenaufteilung und Modelltraining
- Modellvorhersagen interpretieren und Baumstruktur analysieren
- Modellbewertung
- Konfusionsmatrix erstellen und interpretieren
- Random-Forest-Modell trainieren und evaluieren
- Gradient-Boosted-Tree-Modell trainieren und evaluieren
- Zusammenfassung und Optimierungsvorschläge
- Quiz: MLlib-Projekt 2 – Kündigungen vorhersagen mit baumbasierten Lernverfahren
-
MLlib-Projekt 3 – Clustering von Marathonathleten mit dem Gaussian-Mixture-Modell
- Kapitelüberblick
- Vorstellung der Fallstudie
- Visualisierung: Regplot, Pairplot und Korrelationsmatrix
- Visualisierung: Scatterplot, Boxplot, FacetGrid-Histogramm
- Clustering-Modell trainieren
- Clusterspalte im DataFrame hinzufügen
- Cluster grafisch visualisieren
- Quiz: MLlib-Projekt 3 – Clustering von Marathonathleten mit dem Gaussian-Mixture-Modell
-
Abschluss
- Fazit und Kursabschluss
Über den Trainer:
Fabio Basler hat schon zu Beginn seines Studiums eine große Leidenschaft
für die Methoden der Statistik und Data Science entwickelt. Über
mehrere Semester hinweg konnte er als Tutor zahlreiche Studierende
erfolgreich auf ihre Prüfungen und den Berufsalltag vorbereiten. Fabio
Basler arbeitet als Datenanalyst in einem großen Industriekonzern. Mit
großer Freude am Unterrichten gibt er sein Wissen in Online-Kursen und
Seminaren weiter.
So lernen Sie mit diesem Videokurs:
In den Videokursen von heise academy lernen Sie IT-Themen anschaulich und verständlich. In den Videos schauen Sie den Experten bei der praktischen Arbeit zu und lassen sich dabei alles genau erklären. Das Wissen ist in kleine Lernschritte und Aufgaben unterteilt. Sie können den Kurs Lektion für Lektion durcharbeiten oder gezielt zu Themen springen, die Sie interessieren. Die persönliche Lernumgebung der heise academy hält viele Funktionen für Sie bereit, die Ihnen beim Lernen helfen können:
- Flexibler Videoplayer mit vielen Steuerungsmöglichkeiten
- Wissensquizzes zur Lernkontrolle
- Lernhistorie und Lernfortschritt
- Lesezeichen und Notizen
- Volltextsuche in den Videos
- Frage-den-Experten-Modul
- Übungsmaterial zum Mitmachen
- Responsive Web-App und Videostreaming für alle Endgeräte
Technische Voraussetzungen:
Für diesen Videokurs wird lediglich ein Browser (mit eingeschalteter JavaScript-Funktionalität) und eine Internetverbindung benötigt.
Artikel-Details
- Anbieter:
- Heise Medien GmbH & Co. KG
- Artikelnummer:
- machine-learning-mit-spark-mllib-3064
- Veröffentlicht:
- 22.12.25