Crafter Research Lab · en construcción

Latam
Bench

The first generation-first benchmark for evaluating LLMs on authentic Latin American Spanish - built by the community, from the inside.

Fase piloto - buscando anotadores

Únete como anotador Ver en GitHub

01 / El Problema

Los benchmarks
no hablan
como nosotros

MMLU, HumanEval, GSM8K - todos en inglés, todos midiendo inteligencia según un único estándar cultural. Cuando se traducen, se pierde el contexto, el modismo, la realidad técnica del desarrollador peruano que escribe en español pero documenta en Spanglish.

LatamBench no es una traducción. Es un instrumento construido desde adentro - por y para la comunidad técnica latinoamericana.

"Un modelo que no entiende qué es 'hacer la tarea en la compu' o 'jalar el código' no entiende a su usuario."

- Motivación del proyecto

Lo que falta en los benchmarks actuales

Variedades regionales

El español de Lima, Bogotá y Buenos Aires son distintos. Los benchmarks existentes no distinguen.

Contexto técnico local

Un dev latinoamericano mezcla español e inglés al escribir specs. Eso no está en ningún benchmark.

Cultura e historia propias

Las preguntas culturales en benchmarks traducidos reflejan contexto anglosajón, no latinoamericano.

Instrucciones en español

Los modelos son evaluados con instrucciones complejas solo en inglés. El desempeño en español no está medido.

02 / Categorías

900 muestras objetivo · 5 variedades

[GEN]

Latam-Gen

Generación de texto abierta con instrucciones en variedades regionales.

Narración

Resumen

Redacción libre

200 muestras objetivo

[RSN]

Latam-Reason

Razonamiento lógico y matemático expresado en español latinoamericano.

Aritmética

Silogismos

Lógica proposicional

200 muestras objetivo

[COD] Primero

Latam-Code

Generación de código con especificaciones técnicas en español.

Algoritmos

Debug

Documentación

200 muestras objetivo

[CUL]

Latam-Cultura

Conocimiento cultural, histórico y geopolítico de América Latina.

Historia

Gastronomía

Geografía

200 muestras objetivo

[IF]

Latam-IF

Seguimiento de instrucciones complejas con restricciones en español.

Formatos

Restricciones

Multi-step

100 muestras objetivo

Variedades objetivo: PEMXARCOCL

03 / Leaderboard

Modelo

Org

GEN

RSN

COD

CUL

Avg

Sin datos aún

El leaderboard se publicará con los primeros resultados del piloto

04 / Roadmap

Semana 1

5 anotadores piloto reclutados (1 por variedad)

Semana 2–3

50 muestras piloto de Latam-Code anotadas

Semana 3–4

Evaluación de 5 modelos en las 50 muestras

Mes 2

400 muestras + preprint preliminar

Mes 3

900 muestras totales + preprint v2

Mes 4

Envío a LatinX in NLP @ NAACL

05 / Contribuir

Buscamos
5 anotadores
piloto

Uno por variedad regional - PE, MX, AR, CO, CL. El trabajo es asíncrono, open source y acreditado en el paper. Empezamos con Latam-Code: 50 muestras, ~10 por anotador.

Nativo de español latinoamericano (cualquier variedad)

Perfil técnico: developer, data scientist o estudiante de ingeniería

Disponibilidad para revisar ~10 muestras/semana

Interés genuino en NLP y evaluación de LLMs

Aplica vía GitHub Issues

Cómo funciona la anotación

Recibe muestras

Te asignamos ~10 muestras de código con especificaciones en español de tu variedad.

Evalúa respuestas

Comparas respuestas de modelos según criterios de corrección, fluidez y naturalidad regional.

Documenta edge cases

Registras casos donde el modelo falla en contexto latinoamericano específico.

Crédito en el paper

Todos los anotadores son coautores en los agradecimientos del preprint.

LatamBench

Los benchmarksno hablancomo nosotros

Latam-Gen

Latam-Reason

Latam-Code

Latam-Cultura

Latam-IF

Buscamos5 anotadorespiloto

Latam
Bench

Los benchmarks
no hablan
como nosotros

Buscamos
5 anotadores
piloto