24 BENCHMARKING Desarrollo y operaciones Medio

Evaluacion y Benchmarking de Modelos de IA

Ejecucion competitiva de la misma tarea con multiples modelos: comparacion de seguridad y provenance.

intake ☆☆☆
architect ★★★
vigil ★★☆
licit ★★☆

Competitive execution: misma tarea implementada por multiples modelos en paralelo. vigil evalua la seguridad de cada resultado. licit genera provenance por modelo.

Fase 01 architect

Ejecucion competitiva

Misma tarea implementada por 4 modelos en paralelo.

△ architect
architect parallel "Implementa /products CRUD con tests" \
  --models gpt-4.1,claude-sonnet-4,deepseek-chat,gemini-2.5-pro
Fase 02 vigil

Seguridad por modelo

Evalua seguridad de cada resultado.

◇ vigil
for w in parallel-{1,2,3,4}; do
  vigil scan .architect/worktrees/$w/src/ --format json
done
Fase 03 licit

Provenance por modelo

Compara modelos por seguridad OWASP.

⬡ licit
licit trace
licit report --framework owasp-agentic