Data Science
,🎙️ Zu Gast: Mira – Data Scientist, Geschäftsführerin einer Berliner Data-Science-Beratung und Host des Podcasts Data Science Deep Dive.
Dominik und Jochen sprechen mit ihr darüber, was Data Science in der Praxis heute bedeutet: weniger Machine-Learning-Magie, mehr solides Datenhandwerk – von der Problemanalyse über Feature Engineering bis hin zu Deployment, Monitoring und Drift. An konkreten Projekten (u. a. einer Luftschadstoff-Prognose für die Berliner Senatsverwaltung) wird klar, wo die echten Herausforderungen liegen – und wo die spannendsten Hebel sind.
In dieser Episode:
- 📊 Was "Data Science" eigentlich umfasst – Skills, Rollen und warum man dafür nicht unbedingt Informatik studiert haben muss
- 🔄 CRISP-DM in der Praxis – vom Use-Case bis Wartung und Drift, und warum die Modellierung oft nur ein kleiner Teil ist
- 🛠️ Tooling & Architektur – Pandas, Scikit-Learn, Polars, Kubernetes, ClickHouse, REST-API, MLflow und Alerting mit Redash
- 🌳 XGBoost vs. TabPFN – warum Gradient Boosting immer noch der Klassiker ist und was Transformer-Modelle für tabulare Daten können
- 🔍 Feature Engineering & Interpretierbarkeit – mit SHAP verstehen, was das Modell gelernt hat
- ⚡ Performance in der Realität – Spark vs. Polars, Sampling, vektorisierte Operationen und warum "verteilen" nicht automatisch schneller heißt
- 🚗 LLMs für Vorhersagen – Experimente mit Gebrauchtwagenpreisen und warum Finetuning hier Sinn macht
Unsere Picks:
- Mira: Pandas UDFs für Parallelisierung in Spark – von Stunden auf Minuten 🚀
- Dominik: just – Hynek erklärt, warum just der bessere Taskrunner ist als make
- Jochen: ccusage / ccusage for codex – Token-Kosten im Blick behalten bei claude code / codex
Shownotes
Unsere E-Mail für Fragen, Anregungen & Kommentare: hallo@python-podcast.de
Data Science
- Data Science Beratung inwt
- Cross-industry standard process for data mining CRISP-DM
- Visualisierungen: ggplot2 / Redash
- pandas / polars / PySpark
- mlflow
- ClickHouse
- XGBoost / CatBoost / LightGBM / TebPFN / SHAP
- ibis / arrow
Picks
- pandas_udf
- uv: Making Local Python Workflows FAST and BORING in 2025 | Starts at the justfile part..
- ccusage / ccusage for codex
- ElevenLabs / NobebookLM | Um sich Podcasts zu generieren..
- Data Science Deep Dive