24 BENCHMARKING Desarrollo y operaciones Medio

Evaluacion y Benchmarking de Modelos de IA

Ejecucion competitiva de la misma tarea con multiples modelos: comparacion de seguridad y provenance.

◻ intake ☆☆☆

△ architect ★★★

◇ vigil ★★☆

⬡ licit ★★☆

Contexto

Competitive execution: misma tarea implementada por multiples modelos en paralelo. vigil evalua la seguridad de cada resultado. licit genera provenance por modelo.

Flujo con 4 herramientas

△ Fase 01 — architect

Ejecucion competitiva

Misma tarea implementada por 4 modelos en paralelo.

△ architect

architect parallel "Implementa /products CRUD con tests" \
  --models gpt-4.1,claude-sonnet-4,deepseek-chat,gemini-2.5-pro

◇ Fase 02 — vigil

Seguridad por modelo

Evalua seguridad de cada resultado.

◇ vigil

for w in parallel-{1,2,3,4}; do
  vigil scan .architect/worktrees/$w/src/ --format json
done

⬡ Fase 03 — licit

Provenance por modelo

Compara modelos por seguridad OWASP.

⬡ licit

licit trace
licit report --framework owasp-agentic