Crafter Research Lab · en construcción

Latam
Bench

The first generation-first benchmark for evaluating LLMs on authentic Latin American Spanish - built by the community, from the inside.

Fase piloto - buscando anotadores
01 / El Problema

Los benchmarks
no hablan
como nosotros

MMLU, HumanEval, GSM8K - todos en inglés, todos midiendo inteligencia según un único estándar cultural. Cuando se traducen, se pierde el contexto, el modismo, la realidad técnica del desarrollador peruano que escribe en español pero documenta en Spanglish.

LatamBench no es una traducción. Es un instrumento construido desde adentro - por y para la comunidad técnica latinoamericana.

"Un modelo que no entiende qué es 'hacer la tarea en la compu' o 'jalar el código' no entiende a su usuario."

- Motivación del proyecto
Lo que falta en los benchmarks actuales
Variedades regionales
El español de Lima, Bogotá y Buenos Aires son distintos. Los benchmarks existentes no distinguen.
Contexto técnico local
Un dev latinoamericano mezcla español e inglés al escribir specs. Eso no está en ningún benchmark.
Cultura e historia propias
Las preguntas culturales en benchmarks traducidos reflejan contexto anglosajón, no latinoamericano.
Instrucciones en español
Los modelos son evaluados con instrucciones complejas solo en inglés. El desempeño en español no está medido.
02 / Categorías
900 muestras objetivo · 5 variedades
[GEN]

Latam-Gen

Generación de texto abierta con instrucciones en variedades regionales.

Narración
Resumen
Redacción libre
200 muestras objetivo
[RSN]

Latam-Reason

Razonamiento lógico y matemático expresado en español latinoamericano.

Aritmética
Silogismos
Lógica proposicional
200 muestras objetivo
[COD] Primero

Latam-Code

Generación de código con especificaciones técnicas en español.

Algoritmos
Debug
Documentación
200 muestras objetivo
[CUL]

Latam-Cultura

Conocimiento cultural, histórico y geopolítico de América Latina.

Historia
Gastronomía
Geografía
200 muestras objetivo
[IF]

Latam-IF

Seguimiento de instrucciones complejas con restricciones en español.

Formatos
Restricciones
Multi-step
100 muestras objetivo
Variedades objetivo: PEMXARCOCL
03 / Leaderboard
#
Modelo
Org
GEN
RSN
COD
CUL
IF
Avg
Sin datos aún
El leaderboard se publicará con los primeros resultados del piloto
04 / Roadmap
Semana 1
5 anotadores piloto reclutados (1 por variedad)
Semana 2–3
50 muestras piloto de Latam-Code anotadas
Semana 3–4
Evaluación de 5 modelos en las 50 muestras
Mes 2
400 muestras + preprint preliminar
Mes 3
900 muestras totales + preprint v2
Mes 4
Envío a LatinX in NLP @ NAACL
05 / Contribuir

Buscamos
5 anotadores
piloto

Uno por variedad regional - PE, MX, AR, CO, CL. El trabajo es asíncrono, open source y acreditado en el paper. Empezamos con Latam-Code: 50 muestras, ~10 por anotador.

Nativo de español latinoamericano (cualquier variedad)
Perfil técnico: developer, data scientist o estudiante de ingeniería
Disponibilidad para revisar ~10 muestras/semana
Interés genuino en NLP y evaluación de LLMs
Aplica vía GitHub Issues
Cómo funciona la anotación
01
Recibe muestras
Te asignamos ~10 muestras de código con especificaciones en español de tu variedad.
02
Evalúa respuestas
Comparas respuestas de modelos según criterios de corrección, fluidez y naturalidad regional.
03
Documenta edge cases
Registras casos donde el modelo falla en contexto latinoamericano específico.
04
Crédito en el paper
Todos los anotadores son coautores en los agradecimientos del preprint.