PHASE_02WORKSHOP_ID: EVAL-400

MASTERING AI_EVALS

Transition from qualitative "vibes-based" testing to rigorous, automated engineering. Building the trust layer for production-grade LLM applications.

REALTIME_STATUS

Accuracy: 98.42%

Latency: 124ms

TUE 23 JUNE 2026 • 9:00am–5:00pm • Stone & Chalk Tech CentralTickets on Luma →

Core_Modules

SYS_REF: 04_CURRICULUM

MOD_01

Build deterministic evaluation harnesses, sampling strategy, and reproducible test suites for non-deterministic models.

MOD_02

Design judge prompts, calibration sets, and scoring pipelines that resist reward hacking.

MOD_03

Automated adversarial probes, dataset generation, and continuous regression detection.