Evaluacion y Benchmarking de Modelos de IA
Ejecucion competitiva de la misma tarea con multiples modelos: comparacion de seguridad y provenance.
Contexto
Competitive execution: misma tarea implementada por multiples modelos en paralelo. vigil evalua la seguridad de cada resultado. licit genera provenance por modelo.
Flujo con 4 herramientas
△ Fase 01 — architect
Ejecucion competitiva
Misma tarea implementada por 4 modelos en paralelo.
△ architect
architect parallel "Implementa /products CRUD con tests" \
--models gpt-4.1,claude-sonnet-4,deepseek-chat,gemini-2.5-pro ◇ Fase 02 — vigil
Seguridad por modelo
Evalua seguridad de cada resultado.
◇ vigil
for w in parallel-{1,2,3,4}; do
vigil scan .architect/worktrees/$w/src/ --format json
done ⬡ Fase 03 — licit
Provenance por modelo
Compara modelos por seguridad OWASP.
⬡ licit
licit trace
licit report --framework owasp-agentic