The first generation-first benchmark for evaluating LLMs on authentic Latin American Spanish - built by the community, from the inside.
MMLU, HumanEval, GSM8K - todos en inglés, todos midiendo inteligencia según un único estándar cultural. Cuando se traducen, se pierde el contexto, el modismo, la realidad técnica del desarrollador peruano que escribe en español pero documenta en Spanglish.
LatamBench no es una traducción. Es un instrumento construido desde adentro - por y para la comunidad técnica latinoamericana.
"Un modelo que no entiende qué es 'hacer la tarea en la compu' o 'jalar el código' no entiende a su usuario."
Generación de texto abierta con instrucciones en variedades regionales.
Razonamiento lógico y matemático expresado en español latinoamericano.
Generación de código con especificaciones técnicas en español.
Conocimiento cultural, histórico y geopolítico de América Latina.
Seguimiento de instrucciones complejas con restricciones en español.
Uno por variedad regional - PE, MX, AR, CO, CL. El trabajo es asíncrono, open source y acreditado en el paper. Empezamos con Latam-Code: 50 muestras, ~10 por anotador.