Projects | Aarush Sah

July 31, 2025

Provider-agnostic, open-source evaluation infrastructure for language models. Standardized benchmarking across 20+ evaluation suites.

July 22, 2024

An evaluation framework using debate simulations to assess AI models' reasoning and communication skills.

March 22, 2024

A multimodal benchmark for testing vision capabilities and reasoning in AI models.