Amazon Web Services ha publicado una guia tecnica para optimizar agentes IA tool-calling mediante Supervised Fine-Tuning (SFT) y Direct Preference Optimization (DPO) en SageMaker AI. Esta metodologia aborda uno de los problemas mas criticos en produccion: que los agentes seleccionen las herramientas correctas en flujos de trabajo complejos, reduciendo errores que pueden costar miles de euros en operaciones empresariales fallidas.
Que ha publicado AWS y por que es relevante ahora
La guia de AWS documenta un proceso completo de entrenamiento usando el modelo Qwen3 1.7B con el dataset When2Call de NVIDIA, que incluye 15,000 muestras para SFT y 9,000 adicionales para DPO. Esta combinacion permite que los agentes IA tool-calling aprendan no solo que herramienta usar, sino cuando NO usarla, un matiz critico que los modelos base suelen fallar. El enfoque se centra en casos donde el agente debe decidir entre multiples APIs, bases de datos o servicios externos.
El timing de esta publicacion coincide con la migracion masiva de aplicaciones agentivas desde entornos de piloto hacia produccion empresarial. Segun datos internos de AWS, el 60% de los fallos en agentes productivos se deben a seleccion incorrecta de herramientas, no a errores en la ejecucion de las herramientas mismas. Esta guia ataca directamente ese cuello de botella.
Como funciona la metodologia SFT + DPO para tool-calling
El Supervised Fine-Tuning entrena al modelo con ejemplos correctos de cuando usar cada herramienta, mientras que DPO va un paso mas alla: ensena al modelo a preferir respuestas correctas sobre incorrectas mediante comparaciones directas. En el contexto de agentes IA tool-calling, esto significa que el modelo aprende patrones como «si el usuario pregunta por ventas del ultimo trimestre, usa la API de analytics, NO la de inventario», pero tambien «si la consulta es ambigua, pide clarificacion antes que adivinar».
La implementacion en SageMaker AI permite entrenar estos modelos sin gestionar infraestructura, usando instancias ml.g5.2xlarge para el entrenamiento SFT y ml.g5.4xlarge para DPO. El proceso completo toma entre 4-6 horas para un modelo de 1.7B parametros, con costes aproximados de 50-80 dolares por iteracion de entrenamiento, segun la configuracion elegida.
Como pueden aplicar esto las empresas hoy
Las empresas que ya tienen agentes en piloto pueden implementar esta metodologia siguiendo tres pasos concretos. Primero, recopilar logs de interacciones fallidas donde el agente eligio herramientas incorrectas – estos logs se convierten en datos de entrenamiento DPO. Segundo, crear un dataset balanceado que incluya tanto casos exitosos como fallidos, priorizando escenarios donde la ambiguedad es alta. Tercero, usar SageMaker AI para entrenar iterativamente, midiendo mejoras en precision de tool-calling antes de desplegar en produccion.
El ROI es medible: una empresa con 1000 interacciones agentivas diarias que reduce errores de tool-calling del 15% al 3% puede ahorrar entre 20-40 horas semanales de intervencion manual, equivalente a 15,000-30,000 euros anuales solo en costes operativos. Para sectores como fintech o e-commerce, donde errores de herramienta pueden activar procesos incorrectos, el impacto es exponencialmente mayor.
Analisis Blixel
Esta guia marca un punto de inflexion en la madurez de agentes empresariales. Hasta ahora, la mayoria de empresas implementaban agentes con modelos base esperando que «aprendieran sobre la marcha», pero la realidad es que tool-calling requiere precision quirurgica que solo se logra con entrenamiento especifico. AWS no esta vendiendo una solucion magica, sino documentando lo que funciona en produccion real.
Lo mas valioso no es la metodologia en si – SFT y DPO son tecnicas conocidas – sino la aplicacion especifica a tool-calling con datos reales y metricas de coste. El dataset When2Call de NVIDIA proporciona un baseline que las empresas pueden usar para evaluar si su implementacion esta funcionando o necesita ajustes. Para PYMEs que han invertido en agentes durante 2024, esta guia puede ser la diferencia entre un piloto que funciona y uno que escala rentablemente.
Quieres aplicar esto en tu empresa? En Blixel.ai te ayudamos a integrar IA con sentido comun. Hablemos.












