📊 Benchmark
Corre el dataset etiquetado contra cada versión y compara su precisión real.
Dataset vacío. Política decidida el 5 may 2026:
solo imágenes reales. Las 35 sintéticas se descartaron tras el benchmark
v3-vs-v4 (sesgaban la lectura porque los 3 modelos fallaban el 100 % de los
codos sintéticos). Para repoblar: rellena
tools/benchmark.manifest.yaml con URLs de Wikimedia / MPII / Pexels
y ejecuta python tools/embed-images.py.
Cargando dataset…
Resultados imagen por imagen
| ID | Esperado | v1 CULIBARA | v2 MOFLETE | v3 CODETEX | v4 HOYUELO | v5 CACHETE | Notas |
|---|