Aprendizaje Reforzado » Estimación Generalizada de Ventajas
Estimación Generalizada de Ventajas

El Generalized Advantage Estimation (GAE), o Estimación Generalizada de Ventajas en español, es un método utilizado en aprendizaje por refuerzo para calcular una estimación más precisa de la 'ventaja' (advantage) de una acción en comparación con otras acciones posibles en un estado determinado.

En el contexto del aprendizaje por refuerzo, el 'advantage' se refiere a cuán mejor o peor es una acción en comparación con el valor promedio de todas las acciones en ese estado. El GAE busca reducir la varianza de las estimaciones de ventaja mientras mantiene un sesgo controlado, lo que lo convierte en un método más eficiente y estable para entrenar agentes, especialmente en entornos complejos y con políticas continuas.

¿Qué es la una política continua?

¿Cómo funciona el GAE?

GAE mejora la estimación de la ventaja al combinar métodos de estimación con un parámetro de decaimiento lambda (λ) que controla el balance entre el sesgo y la varianza. Se usa una serie de diferencias temporales ponderadas, lo que da lugar a una estimación más precisa.

AtGAE(γ,λ)=l=0(γλ)lδt+lA_{t}^{GAE(\gamma,λ)}=\sum_{l=0}^{∞}(γλ)^lδ_{t+l}

Donde:

  1. δt+lδ_{t+l} es el error temporal (TD error) en el tiempo t+lt+l.

  2. γ\gamma es el factor de descuento

  3. λ es el factor de suavizado.

Relacion entre GAE y Recompensa Descontada

Beneficios del GAE

  1. Reducción de la varianza: El GAE suaviza las fluctuaciones de las estimaciones, lo que permite un entrenamiento más estable.

  2. Control del sesgo: A través del parámetro λ, se puede ajustar el equilibrio entre el sesgo y la varianza.

Demostración

A continuación, voy a mostrarte la diferencia en el aprendizaje de un agente al usar GAE en un entorno llamado 'CartPole'.

El objetivo de este juego es que el agente mueva la base del palo a la derecha o a la izquierda para evitar que el palo toque el suelo. Mientras más perpendicular con respecto al suelo este, mayor será la recompensa.

Cuando entrenamos dos agentes durante varios ciclos, que representarían los 'intentos', podemos obtener una notable diferencia entre el agente que usa GAE y el que no usa GAE.

Sin GAE

Con GAE

Observamos que el agente logra llegar a más de 50 puntos de recompensa, pero no logra mantenerlos constantes.

Observamos que el agente logra llegar a más de 50 puntos de recompensa y los mantiene constantes.

Observarnos que el agente sin GAE realiza un movimiento muy amplio hacia la derecha, siendo que la política optima debería apuntar a que realice movimientos cortos de derecha a izquierda para mantener el palo perpendicular al suelo y ganar más recompensas.

Por otro lado, el agente que uso GAE hace movimientos cortos de izquierda a derecha para mantener el palo perpendicular al piso el mayor tiempo posible, lo cual hace que obtenga mayores recompensas.

Ejemplo

Aifa está dentro de un laberinto y va a resolverlo junto a su profesora, Rem. Es un ejercicio nuevo para Aifa. Él puede realizar las siguientes acciones

  1. Caminar hacia arriba 🡡.

  2. Caminar hacia abajo 🡣.

  3. Caminar hacia la izquierda 🡠.

  4. Caminar hacia la derecha 🡢.

El objetivo de Aifa será ir hasta la línea de meta verde. Por cada acción que realice va a recibir una recompensa y dicha recompensa va a ser mayor a medida que se acerque a la línea de meta verde para incentivarlo a caminar hacia aquí. Por otro lado, su maestra va a girarlo puntuando cada acción que realice.

Luego de que terminemos el juego vamos a calcular la ventaja para actualizar la política del actor (Aifa) para que cuando tenga que repetir el ejercicio obtenga una mejor recompensa.

Dentro del esquema de GAE, Aifa va a representar al Actor y Rem al Critico.

La primera acción de Aifa es caminar hacia abajo 🡣. Su profesora Rem le da a esa accion un puntaje de 0,5. Aifa obtiene 0,1 de recompensa.

La segunda acción de Aifa es caminar hacia la izquierda 🡠. Su profesora Rem le da a esa acción un puntaje de 0,6. Aifa obtiene 0,3 de recompensa.

La tercera acción de Aifa es caminar hacia abajo 🡣. Su profesora Rem le da a esa acción un puntaje de 0,7. Aifa obtiene 0,6 de recompensa.

La cuarta acción de Aifa es caminar hacia la izquierda 🡠. Su profesora Rem le da a esa acción un puntaje de 0,2. Aifa obtiene 1 de recompensa.

¡Listo! 😀 Aifa ha llegado a la línea de meta. Ahora debemos recolectar la información que obtuvimos en este intento:

  1. Recompensas observadas en cada paso: [0.1, 0.3, 0.6, 1].

  2. Valores estimados por la red crítica para cada estado (el valor que creemos que tendrá cada estado): [0.5, 0.6, 0.7, 0.2].

  3. Factor de descuento Gammaγ=0.99: esto determina cuánto valoramos las recompensas futuras.

  4. Lambda λ=0.95: controla cómo equilibramos el sesgo y la varianza.

A continuación, vamos a realizar los 2 pasos para calcular el GAE en este ejercicio.

Paso 1: Cálculo del delta (δtVδ^{V}_{t}) o TD residual

El TD residual (δtVδ^{V}_{t}) para cada paso se calcula como:

δtV=rt+γV(st+1)V(st)δ^{V}_{t}=r_{t}+\gamma V(s_{t+1})-V(s_{t})

Donde:

  1. rtr_{t} es la recompensa en el paso t (La recompensa que obtuvo Aifa en cada paso).

  2. V(st+1)V(s_{t+1}) es el valor estimado del siguiente estado (El valor estimado por Rem del siguiente estado).

  3. V(st)V(s_{t}) es el valor estimado del estado actual (El valor estimado por Rem del estado actual).

Veamos los cálculos para cada paso. Por lo general el cálculo siempre se realiza desde el último paso hasta el primero.

Para t=3:

Como es el último paso, no hay valor futuro V(st+1)V(s_{t+1}), entonces usamos 0.

δ3V=r3+γ0V(s3)=1+00.5=0.5δ^{V}_{3}=r_{3}+\gamma⋅0-V(s_{3})=1+0-0.5=0.5

Para t=2:

δ2V=r2+γV(s3)V(s2)=0.6+0.990.50.6=0.6+0.4950.6=0.495δ^{V}_{2}=r_{2}+\gamma V(s_{3})-V(s_{2})=0.6+0.99⋅0.5-0.6=0.6+0.495-0.6=0.495

Para t=1:

δ1V=r1+γV(s2)V(s1)=0.3+0.990.60.7=0.3+0.5940.7=0.194δ^{V}_{1}=r_{1}+\gamma V(s_{2})-V(s_{1})=0.3+0.99⋅0.6-0.7=0.3+0.594-0.7=0.194

Para t=0:

δ0V=r0+γV(s1)V(s0)=0.1+0.990.70.2=0.1+0.6930.2=0.593δ^{V}_{0}=r_{0}+\gamma V(s_{1})-V(s_{0})=0.1+0.99⋅0.7-0.2=0.1+0.693-0.2=0.593

Entonces, los valores de δtVδ^{V}_{t} son:

δ=[0.593,0.194,0.495,0.5]δ=[0.593,0.194,0.495,0.5]

Paso 2: Cálculo de la ventaja acumulada con GAE

Ahora, calculamos la ventaja usando λλ y γ\gamma. GAE se define como:

A^tGAE(γ,λ)=δtV+γλA^t+1GAE(γ,λ)\hat{A}^{GAE(\gamma,λ)}_{t}=δ^{V}_{t}+γλ⋅\hat{A}^{GAE(\gamma,λ)}_{t+1}

Empezamos desde el último paso t=3, y vamos hacia atrás.

Para t=3

No hay futuro, así que la ventaja es simplemente:

A^3=δ3V=0.5\hat{A}_{3}=δ^{V}_{3}=0.5

Para t=2:

A^2=δ2V+γλA^3=0.495+0.990.950.5=0.495+0.470=0.965\hat{A}^2=δ^{V}_{2}+\gamma λ⋅\hat{A}^3=0.495+0.99⋅0.95⋅0.5=0.495+0.470=0.965

Para t=1:

A^1=δ1V+γλA^2=0.194+0.990.950.965=0.194+0.910=1.104\hat{A}^1=δ^{V}_{1}+\gamma λ⋅\hat{A}^2=0.194+0.99⋅0.95⋅0.965=0.194+0.910=1.104

Para t=0:

A^0=δ0V+γλA^1=0.593+0.990.951.104=0.593+1.041=1.634\hat{A}^0=δ^{V}_{0}+\gamma λ⋅\hat{A}^1=0.593+0.99⋅0.95⋅1.104=0.593+1.041=1.634

Resultado final

La ventaja acumulada para cada tiempo t usando GAE es:

A^=[1.634,1.104,0.965,0.5]\hat{A}=[1.634,1.104,0.965,0.5]

Interpretación

  1. La ventaja acumulada en el primer paso es alta (1.634), lo que indica que la acción en ese estado fue más valiosa de lo esperado.

  2. En los siguientes pasos, las ventajas decrecen, pero siguen siendo positivas, lo que indica que las acciones siguen contribuyendo al aprendizaje, aunque en menor medida.

  3. El último paso tiene una ventaja de 0.5, lo que refleja que la acción fue relativamente buena, pero menos valiosa en comparación con los pasos anteriores.

Trivia: Si los datos fuesen: Recompensas = [2, 0, 0, 1], Valores Estimados = [0.2, 0.7, 0.6, 0.5], 𝛾 = 0.99, λ=0.95 ¿Cual seria la ventaja acumulada para cada tiempo t usando GAE?
A^=[2.233,1.211,1.191,1.8]\hat{A}=[2.233,1.211,1.191,1.8]
A^=[2.233,1.211,1.191,1.8]\hat{A}=[2.233,1.211,1.191,1.8]
A^=[1.42,0.4,1.65,1.1]\hat{A}=[1.42,0.4,-1.65,1.1]
A^=[0.4,0.412,3.1,0.31]\hat{A}=[0.4,0.412,3.1,0.31]

Conclusiones

El Generalized Advantage Estimation (GAE) es una técnica diseñada para mejorar la eficiencia y estabilidad del cálculo de ventajas en algoritmos de aprendizaje por refuerzo, particularmente aquellos basados en el gradiente de política, como el PPO (Proximal Policy Optimization). GAE equilibra entre dos enfoques: el cálculo de la ventaja basado en las recompensas a corto plazo (más inestables) y el cálculo basado en recompensas a largo plazo (más precisas, pero con mayor varianza).

Hemos llegado al final de este artículo. Espero que te halla resultado útil y que hallas disfrutado leyéndolo tanto como yo disfrute escribiéndolo 😁.