📊 Benchmark

Corre el dataset etiquetado contra cada versión y compara su precisión real.

Dataset vacío. Política decidida el 5 may 2026: solo imágenes reales. Las 35 sintéticas se descartaron tras el benchmark v3-vs-v4 (sesgaban la lectura porque los 3 modelos fallaban el 100 % de los codos sintéticos). Para repoblar: rellena tools/benchmark.manifest.yaml con URLs de Wikimedia / MPII / Pexels y ejecuta python tools/embed-images.py.

Cargando dataset…

Resultados imagen por imagen

ID	Esperado	v1 CULIBARA	v2 MOFLETE	v3 CODETEX	v4 HOYUELO	v5 CACHETE	Notas

Cada imagen pasa por /api/v1/classify, /api/v2/classify y /api/v3/classify — los mismos endpoints que usaría un usuario real.