Etiqueta: deepseek-r1

  • Como GRPO entrena modelos de razonamiento con RLVR

    Como GRPO entrena modelos de razonamiento con RLVR

    El metodo de recompensas verificables RLVR (Reinforcement Learning with Verifiable Rewards) se ha convertido en una de las piezas clave detras de los modelos de razonamiento actuales como DeepSeek-R1. La idea es sencilla pero potente: en tareas como matematicas o programacion, donde existe una respuesta correcta comprobable, no hace falta un modelo de recompensa aprendido. Basta con un verificador determinista que diga si el resultado es correcto. Sobre esa base trabaja GRPO, el algoritmo que normaliza recompensas dentro de un grupo de respuestas y guia el entrenamiento del modelo sin necesitar un critico aprendido aparte.

    Que es RLVR y por que importa

    El planteamiento de las recompensas verificables RLVR rompe con el enfoque clasico del RLHF, donde un modelo de recompensa aprendido intenta imitar las preferencias humanas. Ese modelo aprendido es caro de entrenar, susceptible de ser explotado por el modelo (reward hacking) y dificil de auditar. En tareas como matematicas y codigo, sin embargo, la verdad es objetiva: una respuesta numerica coincide o no con la solucion conocida, y un fragmento de codigo pasa o no pasa una bateria de tests.

    Por eso RLVR sustituye el modelo de recompensa por un verificador determinista. El verificador puede devolver una senal binaria (correcto o incorrecto) o una recompensa escalar que matice respuestas parcialmente acertadas. Este cambio elimina toda una fuente de ambiguedad y permite escalar el entrenamiento sin depender de etiquetadores humanos.

    El contexto importa: los modelos de razonamiento como DeepSeek-R1 demostraron que se puede mejorar drasticamente el rendimiento en problemas complejos aplicando refuerzo sobre cadenas de pensamiento largas, siempre que la senal de recompensa sea fiable. Ahi es donde las recompensas verificables RLVR encajan de forma natural, porque proporcionan exactamente esa fiabilidad sin coste de etiquetado adicional.

    Como funciona GRPO por dentro

    GRPO (Group Relative Policy Optimization) es el algoritmo que aprovecha esta senal verificable. El flujo es claro: para cada prompt se generan varias completions, cada una se evalua con el verificador, y las recompensas se normalizan dentro del grupo restando la media y dividiendo por la desviacion. Esa normalizacion relativa es la clave, porque elimina la necesidad de un modelo critico que estime el valor de cada estado, como ocurre en PPO.

    Sobre las recompensas normalizadas se aplica una perdida con regularizacion KL respecto a un modelo de referencia, para evitar que la politica se aleje demasiado del punto de partida y degenere. Esto mantiene el lenguaje coherente y previene colapsos de comportamiento durante el entrenamiento con recompensas verificables RLVR.

    El diseno de la funcion de recompensa es donde se juega gran parte del exito. Conviene separar la recompensa por formato (que el modelo estructure su razonamiento y entregue la respuesta final en un patron esperado) de la recompensa por acierto. Tambien hay que decidir como tratar respuestas parcialmente correctas y vigilar la cobertura del verificador: si solo cubre una fraccion de los casos, el modelo aprendera a optimizar lo que se mide, no lo que se busca. Un flujo practico con Unsloth sobre problemas tipo GSM8K muestra esta cadena completa, desde la preparacion de datos hasta la monitorizacion de pass@k y pass@1 durante el fine-tuning.

    Cuando y para quien sera relevante esto

    Las recompensas verificables RLVR son hoy terreno de equipos que entrenan o afinan modelos propios, no de la PYME media que consume IA via API. El horizonte realista es escalonado: a corto plazo, laboratorios y equipos de research con acceso a GPU y datos verificables. A medio plazo, empresas de software con dominios donde el acierto es comprobable (calculo, validacion de codigo, extraccion estructurada con tests). Para el resto, el beneficio llegara indirecto, integrado en los modelos de razonamiento que ya usan a diario.

    Quien quiera experimentar con GRPO necesita un dataset con soluciones de referencia, un verificador fiable y capacidad de computo para generar multiples completions por prompt. Herramientas como Unsloth bajan la barrera de entrada, pero el cuello de botella sigue siendo diseñar un verificador con buena cobertura. Sin eso, las recompensas verificables RLVR pierden su ventaja principal: la senal deja de ser fiable y el entrenamiento aprende atajos en lugar de razonamiento real.

    Analisis Blixel

    Lo interesante de este enfoque no es el algoritmo en si, sino lo que revela sobre la direccion del campo: medir bien vale mas que entrenar mucho. Durante anos el RLHF concentro el esfuerzo en construir modelos de recompensa cada vez mas sofisticados para aproximar el gusto humano. Cambiar ese critico aprendido por un verificador determinista parece un retroceso en complejidad, pero es un avance en honestidad. Si puedes comprobar la respuesta, comprobala; no la estimes.

    La trampa esta en la cobertura del verificador. Un comprobador que solo valida una parte de los casos no genera un modelo que razona mejor, sino uno que aprende a satisfacer la metrica. Es la version tecnica de la ley de Goodhart, y quien monte un pipeline asi sin auditar que mide su verificador va a producir un modelo que parece brillante en el banco de pruebas y fragil fuera de el. GRPO con normalizacion por grupo y regularizacion KL es elegante porque reduce piezas moviles, pero no exime de pensar en que premia exactamente. Para los equipos que afinan modelos en dominios verificables, esto es una herramienta seria y reproducible. Para todos los demas, conviene entenderlo aunque solo sea para saber por que los modelos de razonamiento que usan han mejorado tanto en matematicas y codigo, y donde siguen fallando: justo en lo que nadie supo verificar.

    Quieres aplicar esto en tu empresa? En Blixel.ai te ayudamos a integrar IA con sentido comun. Hablemos.