Fundamentos de Agentes de IA
Conoce qué es un agente de IA, cómo se diferencia de un LLM base, cómo usa herramientas y cómo evoluciona en 2026.
Última actualización: Febrero 2026
Qué es un Agente de IA
Un agente de IA es un sistema de software que puede actuar de forma autónoma para lograr un objetivo, tomando decisiones y ejecutando acciones con mínima supervisión humana. A diferencia de un chatbot o un modelo de lenguaje básico que simplemente responde a preguntas, un agente:
- Percibe su entorno (lee archivos, recibe datos de APIs, observa resultados)
- Razona sobre la situación (planifica pasos, evalúa alternativas)
- Actúa sobre el entorno (escribe código, llama APIs, modifica archivos)
- Observa el resultado de sus acciones
- Itera refinando su enfoque basándose en los resultados
El loop fundamental de un agente moderno es: input → think/plan → retrieve/tools → act → observe → evaluate → refine.
La diferencia clave entre un LLM y un agente es la agencia: el usuario define el qué, y el agente resuelve el cómo.
Large Language Model (LLM)
El “cerebro” del agente. Un modelo de lenguaje entrenado con cantidades masivas de texto que puede generar texto, razonar, planificar y tomar decisiones.
Conceptos fundamentales del LLM:
Token
La unidad mínima de procesamiento de un LLM. No es exactamente una palabra — puede ser una palabra, parte de una palabra, o un carácter especial. Ejemplo: “unhappiness” se tokeniza como ["un", "happiness"] (2 tokens). En español, palabras largas consumen más tokens que en inglés.
Los tokens importan porque todo se mide en tokens: el coste de una llamada API, el tamaño del contexto, los límites de uso.
Context Window (Ventana de Contexto)
La cantidad máxima de tokens que un LLM puede procesar en una sola llamada. Incluye tanto el input (prompt + historial) como el output (respuesta generada).
- GPT-4.1: 1M tokens
- Claude Sonnet 4.5: 200K tokens
- Gemini 2.5 Pro: 1M tokens
Un context window más grande permite al agente “ver” más código, más historial, más documentos a la vez. Pero más contexto = más coste y más latencia.
System Prompt
Las instrucciones iniciales que definen el comportamiento del LLM. Es la “personalidad” y las “reglas” del agente. El system prompt no cambia entre llamadas del usuario — es la configuración base.
En sistemas agenticos, el system prompt suele incluir: quién es el agente, qué herramientas tiene, qué reglas debe seguir, y cómo debe razonar.
Temperature
Parámetro que controla la aleatoriedad de las respuestas del LLM (0.0 = determinista, 1.0+ = creativo/aleatorio). Para agentes de código, se usa temperature baja (0.0-0.2) para máxima consistencia. Para agentes creativos, más alta.
Structured Output
Capacidad del LLM de generar respuestas en formatos estructurados (JSON, XML) en vez de texto libre. Crítico para agentes porque necesitan parsear la respuesta del LLM para decidir qué herramienta llamar y con qué parámetros.
Tool Use / Function Calling
La capacidad de un LLM de decidir llamar a una función o herramienta externa como parte de su respuesta, en vez de generar solo texto.
Cómo funciona:
- El desarrollador define herramientas disponibles con su schema (nombre, descripción, parámetros)
- El LLM recibe el prompt del usuario + la lista de herramientas
- El LLM decide si necesita una herramienta y genera una “tool call” (JSON con nombre + argumentos)
- El sistema ejecuta la herramienta
- El resultado se devuelve al LLM como “tool result”
- El LLM genera la respuesta final (o decide llamar más herramientas)
Este es el mecanismo fundamental que convierte un LLM en un agente: el LLM ya no solo habla, actúa.
Tool Schema
La definición formal de una herramienta. Incluye nombre, descripción (que el LLM lee para decidir cuándo usarla), y schema JSON de parámetros. Un buen tool schema es la diferencia entre un agente que elige la herramienta correcta y uno que falla.
Parallel Tool Calls
Cuando el LLM decide llamar múltiples herramientas a la vez en una sola respuesta. Por ejemplo: leer 3 archivos simultáneamente. Más eficiente que llamarlos secuencialmente.
Prompt Engineering
El arte y ciencia de escribir instrucciones efectivas para LLMs. En el contexto de agentes, va más allá de “hacer buenas preguntas” — incluye diseñar system prompts completos, definir convenciones, y estructurar la información para que el agente tome buenas decisiones.
Técnicas fundamentales:
- Few-Shot Prompting: Dar ejemplos del formato de respuesta esperado
- Zero-Shot Prompting: Pedir al modelo que razone sin ejemplos
- Chain of Thought (CoT): Pedir al modelo que muestre su razonamiento paso a paso antes de dar la respuesta final. Mejora significativamente la calidad en tareas complejas
- System/User/Assistant roles: Estructura de mensajes donde cada rol tiene un propósito (system = reglas, user = peticiones, assistant = respuestas previas)
.architect.md / Conventions File
Un archivo de convenciones de proyecto que el agente lee antes de trabajar. Define estilo de código, patrones a seguir, patrones prohibidos, estructura del proyecto. Es prompt engineering a nivel de proyecto — le da contexto persistente al agente sobre cómo debe trabajar en tu codebase específico.
Memoria
Los LLMs no tienen memoria inherente — cada llamada es independiente. La memoria es un mecanismo externo que persiste información entre interacciones.
Tipos de memoria (taxonomía 2025):
- Episódica: Recuerdos de interacciones pasadas específicas (“la última vez que el usuario pidió X, quiso Y”)
- Semántica: Conocimiento general acumulado (“este proyecto usa React 19 con TypeScript”)
- Procedural: Aprendizajes sobre cómo hacer las cosas (“cuando los tests de este módulo fallan, suele ser por X”)
Implementaciones comunes:
- Conversación/Session: Historial de mensajes de la sesión actual
- Short-term memory: Scratchpad o buffer de trabajo que el agente usa dentro de una tarea
- Long-term memory: Base de datos vectorial o key-value store que persiste entre sesiones
- Memory auto-generada: El agente detecta correcciones del usuario y las persiste automáticamente para futuras sesiones
RAG — Retrieval Augmented Generation
Patrón donde el agente busca información relevante en fuentes externas antes de generar su respuesta, en vez de depender solo de su conocimiento de entrenamiento.
Flujo:
- Usuario pregunta algo
- El sistema busca documentos relevantes (embeddings + búsqueda vectorial)
- Los documentos relevantes se inyectan en el context del LLM
- El LLM genera respuesta grounded en esos documentos
Componentes:
- Embeddings: Representaciones numéricas (vectores) de texto que capturan significado semántico
- Vector Store / Base de datos vectorial: Base de datos especializada en almacenar y buscar embeddings (Pinecone, Weaviate, Chroma, Qdrant, pgvector, LanceDB)
- Chunking: Dividir documentos largos en fragmentos manejables para indexar
- Reranking: Paso adicional que reordena los resultados de búsqueda por relevancia real (no solo similitud vectorial)
- Hybrid Search: Combinar búsqueda vectorial (semántica) con búsqueda keyword (BM25/TF-IDF) para mejores resultados
RAG como Tool
Tendencia 2025-2026: tratar RAG como una herramienta más que el agente puede decidir usar o no, en vez de inyectar documentos siempre. El agente decide cuándo necesita buscar información externa.
Alineamiento y Safety
Constitutional AI
Técnica de Anthropic donde el LLM se entrena con un conjunto de principios (“constitución”) que guían su comportamiento. El modelo aprende a autoevaluarse contra estos principios.
RLHF — Reinforcement Learning from Human Feedback
Proceso de entrenamiento donde humanos evalúan respuestas del modelo y esas evaluaciones se usan para refinar el modelo. Es lo que hace que los LLMs modernos sean útiles y alineados.
Grounding
Asegurar que las respuestas del LLM están basadas en datos reales y verificables, no en “alucinaciones” (contenido que suena convincente pero es falso).
Hallucination (Alucinación)
Cuando el LLM genera información que suena factual pero es inventada. Es el riesgo #1 de los agentes de IA — un agente que alucina puede escribir código que parece correcto pero tiene bugs sutiles, o citar dependencias que no existen.
Modelos clave (febrero 2026)
| Modelo | Proveedor | Context | Fortalezas |
|---|---|---|---|
| GPT-4.1 | OpenAI | 1M | Coding, tool use, instruction following |
| Claude Opus 4.5 | Anthropic | 200K | Razonamiento complejo, extended thinking |
| Claude Sonnet 4.5 | Anthropic | 200K | Balance precio/rendimiento, coding |
| Gemini 2.5 Pro | 1M | Context window masivo, multimodal | |
| DeepSeek V3/R1 | DeepSeek | 128K | Coste ultra-bajo, razonamiento |
| Llama 4 | Meta | Variable | Open source, desplegable on-premise |
| Mistral Large | Mistral | 128K | Europeo, on-premise, multilingüe |
| Qwen 2.5 | Alibaba | 128K | Open source, buen rendimiento por coste |
LLM Router / Model Router
Sistema que enruta automáticamente cada petición al modelo más adecuado basándose en complejidad, coste, y latencia. En vez de usar siempre el modelo más caro, el router decide: “esto es simple → modelo pequeño” vs “esto es complejo → modelo grande”. Herramientas: LiteLLM, Portkey, Martian.
Conceptos emergentes 2025-2026
Extended Thinking / Chain of Thought nativo
Modelos como Claude Opus 4.5 y DeepSeek R1 que incluyen razonamiento extenso dentro del modelo antes de responder. El modelo “piensa” internamente durante miles de tokens antes de dar su respuesta final. Mejora dramáticamente tareas de razonamiento complejo.
Agentic Coding
El uso de agentes de IA para escribir, revisar, testear y corregir código de forma autónoma. Es el caso de uso más maduro de agentes en 2026. Herramientas: Claude Code, Cursor, Aider, Architect, Codex CLI, Windsurf.
Computer Use / Browser Use
Capacidad de agentes para interactuar con interfaces gráficas — mover el ratón, hacer click, escribir en campos de texto, navegar webs. Claude (Anthropic) y Gemini (Google) lideran esta capacidad.
Coding Agent vs IDE Agent vs Headless Agent
- IDE Agent (Cursor, Copilot): Vive dentro del editor, asiste mientras tú programas
- Terminal Agent (Claude Code, Aider): Interactivo en terminal, tú supervisas
- Headless Agent (Architect, scripts custom): Corre sin supervisión en CI/CD, crons, pipelines. Sin interfaz de usuario.