Ich helfe Teams, AI-Prototypen in produktionsreife Systeme zu überführen: Evals, Observability, CI/CD, Kosten-/Latenz-Monitoring und Deployment-Gates auf Kubernetes. In Produktion arbeite ich mit 100.000+ IoT-Geräten; öffentliche AI-Infrastruktur-Projekte sind aipreflight, llmprobe und tokentoll.
I help teams turn AI prototypes into production-ready systems with evals, observability, CI/CD, cost and latency monitoring, and deployment gates on Kubernetes. In production I work with 100,000+ IoT devices; my public AI infrastructure projects include aipreflight, llmprobe, and tokentoll.
Aktueller Fokus: aus Notebooks, RAG-Demos und LLM-Prototypen werden messbare, debuggable und release-fähige AI-Systeme.
Current focus: turning notebooks, RAG demos, and LLM prototypes into measurable, debuggable, and releasable AI systems.
Operator-Workflow für LLM-Inferenz-Deployments: externe Probes, SLA-Gates, Prometheus/vLLM-Korrelation, Concurrency-Sweeps, Grafana-Inspektion, Runbooks, Tests und CI. Operator workflow for LLM inference deployments: external probes, SLA gates, Prometheus/vLLM correlation, concurrency sweeps, Grafana inspection, runbooks, tests, and CI.
Zentrales Analytics-Warehouse für 100.000+ IoT-Thermostate, von der rohen Gerätetelemetrie zu getesteten dbt-Modellen, Dagster-Orchestrierung und Grafana-Dashboards auf Kubernetes. Central analytics warehouse for 100,000+ IoT thermostats, from raw device telemetry to tested dbt models, Dagster orchestration, and Grafana dashboards on Kubernetes.
ML-gestützte Kapazitäts- und Laufzeitvorhersage für 100.000+ IoT-Geräte, als produktionsreife Python-Bibliothek mit Konfidenzintervallen und hardwarespezifischen Defaults. ML-powered capacity and runtime prediction for 100,000+ IoT devices, shipped as a production Python library with confidence intervals and per-hardware defaults.
Speicher-Profiling und Optimierung für 4 SNNI-Systeme auf BERT und ViT. Aktuelle Thesis-Experimente zeigen 61-99 % Speicherreduktion, plus analytische Modelle und ein Deployability-Framework. Memory profiling and optimization across 4 SNNI systems on BERT and ViT. Current thesis experiments show 61-99% memory reduction, plus analytical models and a deployability framework.
Gemergte Beiträge in produktionsnahen AI-/Daten-Infrastrukturprojekten und einsatznahe Werkzeuge für LLM-Betrieb: Deploy-Gates, Endpoint-Health, Latenz und Kosten. Merged contributions in production-grade AI/data infrastructure projects and applied tools for LLM operations: deploy gates, endpoint health, latency, and cost.
Security- und Reliability-Härtung für den llm-d Router. Security and reliability hardening for the llm-d router.
llm-d/llm-d-router #960OpenAI-Tool-Definitionen in OpenTelemetry GenAI-Telemetrie durchgereicht. Passed OpenAI tool definitions through OpenTelemetry GenAI telemetry.
opentelemetry-python-contrib #4554Einsatznahe AI-Plattform-Werkzeuge: konkrete Operator-Workflows für Probleme, die beim Betrieb von AI-Features tatsächlich wehtun: Eval-Gates, Deploy-Gates, Endpoint-Health, Latenz und Kosten. Applied AI platform tools: concrete operator workflows for the problems that actually hurt when operating AI features: eval gates, deploy gates, endpoint health, latency, and cost.
CI/CD-Readiness-Gate für AI-Apps und LLM-Endpoints: Evals, Kostenbudgets, externe Probes, SLA-Gates, Prometheus/vLLM-Korrelation und Runbooks. CI/CD readiness gate for AI apps and LLM endpoints: evals, cost budgets, external probes, SLA gates, Prometheus/vLLM correlation, and runbooks.
Go-CLI für Synthetic Monitoring und CI-Smoke-Tests von LLM-Inference-Endpunkten. Misst TTFT, Latenz, Durchsatz und Fehler. Go CLI for synthetic monitoring and CI smoke tests of LLM inference endpoints. Measures TTFT, latency, throughput, and errors.
GitHub Action und CLI für LLM-Kostendiffs in Code Reviews: statische Analyse, Preisdatenbank, PR-Kommentare und MCP-Server. GitHub Action and CLI for LLM cost diffs in code review: static analysis, pricing database, PR comments, and MCP server.
Batterie-Vorhersagealgorithmen, IoT-Datenplattform (dbt + Dagster + ArgoCD), Fleet-Monitoring und interne FastAPI-Ops-Tools für 100.000+ Geräte. Battery prediction algorithms, IoT data platform (dbt + Dagster + ArgoCD), fleet monitoring, and internal FastAPI ops tools for 100,000+ devices.
Cloud Data Warehouses (Snowflake / BigQuery / Azure Synapse), Python-ETL-Pipelines und Streamlit-Apps mit OAuth SSO für Enterprise-Kunden. Cloud data warehouses (Snowflake / BigQuery / Azure Synapse), Python ETL pipelines, and Streamlit apps with OAuth SSO for enterprise clients.
ML-Modelle zur Präsenzerkennung (Python, scikit-learn), PostgreSQL/TimescaleDB-Pipelines, Vue.js-Frontend und internes Labeling-Tool. Presence-detection ML models (Python, scikit-learn), PostgreSQL/TimescaleDB pipelines, Vue.js frontend, and internal labeling tool.
Universität Münster | Thesis: Speicheroptimierung für Secure Neural Network Inference in Transformern University of Münster | Thesis: Optimizing memory footprints for secure neural network inference in transformers