Auditoria De Capacidades

Objetivo

Evaluar skills y subagentes con pruebas repetibles antes de promocionarlos como capacidades fiables del sistema.

Esta auditoria es de uso admin/privado hasta que exista suficiente evidencia.

Principios

  • No marcar una capacidad como buena sin prueba.
  • No eliminar duplicados sin comparar contenido util.
  • Si dos skills se solapan, la opcion preferente es fusionar el contenido valioso en una sola skill clara.
  • Mantener trazabilidad: entrada, salida, criterio de evaluacion y decision.
  • Separar pruebas de lectura, escritura, investigacion, UI, automatizacion y despliegue.

Flujo

  1. Inventario

- listar skills;

- listar subagentes;

- mapear que subagentes usan que skills;

- detectar solapes por nombre, tags, descripcion y contenido.

  1. Pruebas

- definir 3 casos por skill/subagente: basico, realista y limite;

- ejecutar con runtime controlado;

- guardar salida, tiempo, errores y observaciones.

  1. Evaluacion

- utilidad real;

- claridad de instrucciones;

- robustez ante ambiguedad;

- riesgo de acciones no deseadas;

- dependencia de herramientas externas;

- necesidad de confirmacion humana.

  1. Decision

- mantener;

- mejorar;

- fusionar;

- archivar;

- bloquear hasta revisar.

Criterios De Calidad

  • Una skill debe tener un proposito claro y no intentar cubrir demasiados casos.
  • Un subagente debe describir rol, limites, entradas esperadas y salida esperada.
  • Las capacidades peligrosas deben declarar condiciones de seguridad.
  • Las capacidades de UI deben exigir verificacion visual.
  • Las capacidades de codigo deben exigir verificacion o tests cuando existan.

Pendiente De Implementar En OPS

  • Vista admin de auditoria de capacidades.
  • Modelo de datos para ejecuciones de prueba.
  • Detector de solapes entre skills.
  • Score por capacidad.
  • Historial de decisiones de fusion/archivo.
  • Boton para generar casos de prueba desde una skill o subagente.