DE EN
AI platform and reliability engineering for production AI systems

Jonathan Wrede

AI Platform & Reliability Engineer

Evals  |  Observability  |  CI/CD  |  Cost controls  |  Deployment gates  |  Kubernetes

Ich helfe Teams, AI-Prototypen in produktionsreife Systeme zu überführen: Evals, Observability, CI/CD, Kosten-/Latenz-Monitoring und Deployment-Gates auf Kubernetes. In Produktion arbeite ich mit 100.000+ IoT-Geräten; öffentliche AI-Infrastruktur-Projekte sind aipreflight, llmprobe und tokentoll.

I help teams turn AI prototypes into production-ready systems with evals, observability, CI/CD, cost and latency monitoring, and deployment gates on Kubernetes. In production I work with 100,000+ IoT devices; my public AI infrastructure projects include aipreflight, llmprobe, and tokentoll.

Aktueller Fokus: aus Notebooks, RAG-Demos und LLM-Prototypen werden messbare, debuggable und release-fähige AI-Systeme.

Current focus: turning notebooks, RAG demos, and LLM prototypes into measurable, debuggable, and releasable AI systems.

Jonathan Wrede, AI Platform and Reliability Engineer
AI WORKLOAD
K8s
OPERATE
SLOs

Messbare Wirkung Measurable Impact

100k+
IoT-Thermostate überwacht
IoT thermostats monitored
~400
Kundenstandorte mit aktiver Batterieprognose
customer sites with active battery prediction
95+
dbt-Modelle im Analytics-Warehouse
dbt models in analytics warehouse
61-99%
Speicherreduktion in Thesis-Experimenten
memory reduction in thesis experiments

Produktiv eingesetzter Stack Proven Production Stack

Ingest
Python / IoT APIs / TimescaleDB
Transform
dbt Core / Polars / SQL
Orchestrate
Dagster / Docker / Cron
Deploy
Kubernetes / Helm / ArgoCD
Observe
Grafana / Prometheus

Ausgewählte Projekterfahrung Selected Project Experience

AI INFRA / OBSERVABILITY

aipreflight inference profile

SLA gates / Prometheus / vLLM

Operator-Workflow für LLM-Inferenz-Deployments: externe Probes, SLA-Gates, Prometheus/vLLM-Korrelation, Concurrency-Sweeps, Grafana-Inspektion, Runbooks, Tests und CI. Operator workflow for LLM inference deployments: external probes, SLA gates, Prometheus/vLLM correlation, concurrency sweeps, Grafana inspection, runbooks, tests, and CI.

Python|Go|Prometheus|Grafana|vLLM
GEBÄUDETECHNIK / IoTBUILDING TECH / IoT

IoT Analytics-PlattformIoT Analytics Platform

ELT / dbt / Dagster / ArgoCD

Zentrales Analytics-Warehouse für 100.000+ IoT-Thermostate, von der rohen Gerätetelemetrie zu getesteten dbt-Modellen, Dagster-Orchestrierung und Grafana-Dashboards auf Kubernetes. Central analytics warehouse for 100,000+ IoT thermostats, from raw device telemetry to tested dbt models, Dagster orchestration, and Grafana dashboards on Kubernetes.

dbt|Dagster|Grafana|ArgoCD|K8s
Production ML / IoT

Batterie-Intelligenz-SystemBattery Intelligence System

Python Library / Algorithmen / Fleet

ML-gestützte Kapazitäts- und Laufzeitvorhersage für 100.000+ IoT-Geräte, als produktionsreife Python-Bibliothek mit Konfidenzintervallen und hardwarespezifischen Defaults. ML-powered capacity and runtime prediction for 100,000+ IoT devices, shipped as a production Python library with confidence intervals and per-hardware defaults.

Python|Polars|pydantic|Dagster|Docker
AI SECURITY

Secure Neural Network Inference

M.Sc.-Thesis · In Arbeit · 2026 M.Sc. Thesis · In Progress · 2026

Speicher-Profiling und Optimierung für 4 SNNI-Systeme auf BERT und ViT. Aktuelle Thesis-Experimente zeigen 61-99 % Speicherreduktion, plus analytische Modelle und ein Deployability-Framework. Memory profiling and optimization across 4 SNNI systems on BERT and ViT. Current thesis experiments show 61-99% memory reduction, plus analytical models and a deployability framework.

Python|PyTorch|HE / CKKS|MPC In ArbeitIn progress

Open-Source AI-Infrastruktur Open Source AI Infrastructure

Gemergte Beiträge in produktionsnahen AI-/Daten-Infrastrukturprojekten und einsatznahe Werkzeuge für LLM-Betrieb: Deploy-Gates, Endpoint-Health, Latenz und Kosten. Merged contributions in production-grade AI/data infrastructure projects and applied tools for LLM operations: deploy gates, endpoint health, latency, and cost.

GitHub PRs
LLM serving

Security- und Reliability-Härtung für den llm-d Router. Security and reliability hardening for the llm-d router.

llm-d/llm-d-router #960
Observability

OpenAI-Tool-Definitionen in OpenTelemetry GenAI-Telemetrie durchgereicht. Passed OpenAI tool definitions through OpenTelemetry GenAI telemetry.

opentelemetry-python-contrib #4554
Feature stores

Feast-Fixes für BigQuery, DynamoDB und Trino Offline Stores. Feast fixes for BigQuery, DynamoDB, and Trino offline stores.

ErfahrungExperience

Jan 2025, HeutePresent

Machine Learning Engineer | Vilisto

Batterie-Vorhersagealgorithmen, IoT-Datenplattform (dbt + Dagster + ArgoCD), Fleet-Monitoring und interne FastAPI-Ops-Tools für 100.000+ Geräte. Battery prediction algorithms, IoT data platform (dbt + Dagster + ArgoCD), fleet monitoring, and internal FastAPI ops tools for 100,000+ devices.

Jan 2023, Dec 2024

Data Platform Consultant | Saracus

Cloud Data Warehouses (Snowflake / BigQuery / Azure Synapse), Python-ETL-Pipelines und Streamlit-Apps mit OAuth SSO für Enterprise-Kunden. Cloud data warehouses (Snowflake / BigQuery / Azure Synapse), Python ETL pipelines, and Streamlit apps with OAuth SSO for enterprise clients.

Sep 2021, Oct 2022

Working Student, Data Scientist | Vilisto

ML-Modelle zur Präsenzerkennung (Python, scikit-learn), PostgreSQL/TimescaleDB-Pipelines, Vue.js-Frontend und internes Labeling-Tool. Presence-detection ML models (Python, scikit-learn), PostgreSQL/TimescaleDB pipelines, Vue.js frontend, and internal labeling tool.

AusbildungEducation

M.Sc. Computer Science, AI / ML / Statistics

Universität Münster | Thesis: Speicheroptimierung für Secure Neural Network Inference in Transformern University of Münster | Thesis: Optimizing memory footprints for secure neural network inference in transformers

Aktuelle Beiträge Latest writing

Alle ansehen