Data Science / Maschinelles Lernen
Daten sind das neue Öl beim Trend zur Digitalisierung und „Industrie 4.0“
Ziel dieser Schulung ist es, zu lernen was unter dem Begriff „Maschinelles Lernen“ verstanden wird und wie es zum Lösen von wirtschaftlichen Fragestellungen eingesetzt werden kann. Der wissenschaftliche Umgang mit Daten wird erklärt und wie erste Klassifizierungsmodelle erstellt werden. Die Schulung gibt einen Überblick über die gängigen Methoden des Maschinellen Lernens sowie weitere Auswertungstechniken. Das ermöglicht den Start mit der Arbeit mit realen Daten.
In diesem Kurs wird Python für die Datenprozessierung sowie Modellierung genutzt. Im Rahmen der Schulung kann gerne wunschweise eine kurze Einführung in die Programmierung mit Python am Anfang des ersten Tages erfolgen.
Einführung in die Datenwissenschaft für datengetriebene Entscheidungen
Sie lernen, wie man wirtschaftliche Fragestellungen in ein Modellierungsproblem umwandelt. Wir starten dazu mit realen Daten und bereiten diese für die Modellierung vor.
- Einsatz von maschinellem Lernen für Geschäftszwecke
- Churn Prediction
- Prevention
- Ad Click Predictions
- Recommender Systems
- Image Recognition
- Fraud and Risk Detection
- Dynamic Pricing Calculations
- Sports Analytics
- Engagement Increase
- Predictive Demand
- Neue Kreditvergabemodelle
- Von wirtschaftlichen Fragestellungen zum Model
- Praxis: Arbeit mit Daten
- Datensäuberung
- Behandlung fehlender Werte
- Ausreißer
- Verteilungen
- Datentransformation
- Selektion von Merkmalen
- Dimensionsreduzierung (Principal Component Analysis, PCA)
- Erste Modellierung mit ausgewähltem Klassifikator
Für Python existieren bereits viele wissenschaftliche Module die Arbeit und Zeit sparen, z. B. BioPython für Genetik und Biochemie, StatPy für statistische Datenauswertung, Python-Graph für einfache graphische Auswertung der Daten und viele andere.
Von Modellierungsalgorithmen bis hin zur Optimierung
Sie bekommen einen Überblick über verschiedene Algorithmen, die für die Modellierung verwendet werden können. Es wird gezeigt, wie das Ergebnis der Modellierung durch Parametertuning verbessert werden kann. Des Weiteren wird im Detail gezeigt wie man eine passende Auswertungsmetrik wählt, die der Lösung der Fragestellung am besten entspricht.
- Überblick über Modellierungsalgorithmen
- Klassifizierung
- Clustering
- Regression
- Deep Learning
- Praxis: Auswertung der Performance verschiedener Algorithmen
- Auswertung der Metriken und welche Metrik für welche Probleme eingesetzt werden sollte
- Accuracy (Genauigkeit)
- ROC (Receiver-Operating-Characteristic-Kurve bzw. Grenzwertoptimierungskurve)
- AUC (Area under the curve)
- Precision
- Recall
- Confusion Matrix (Wahrheitsmatrix)
- Cross Validation (Kreuzvalidierungsverfahren)
- Feature Engineering
- Praxis: Mit Daten vom ersten Tag wählen wir die am besten geeignete Metrik für das Problem aus, suchen das am besten passende Model aus und nutzen Cross Validation für die finale Modellierung. Damit lässt sich die Frage beantworten, was die maximal-beste Performance des Modells ist, das erzielt werden konnte.
- Diskussion