Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos

Delgado, Francisco · RI ITBA · 2021

Material complementario disponible

Lectura rápida. Revisá los datos básicos del recurso y luego accedé al contenido desde el botón principal. En esta ficha solo se muestra la información necesaria para identificar la obra, citarla y abrirla.

Autor / responsable

Delgado, Francisco

Editorial

RI ITBA

Año

2021

Idioma

es

Acceso al recurso

Entrá al contenido desde la opción principal o elegí otra fuente disponible.

Acceso principal

Material complementario disponible

El enlace apunta a material asociado, anexos, tablas, datos o página complementaria. No se marca como libro/texto completo.

Abrir material

Resumen

Descripción general del contenido del recurso.

"El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de el esquema Actor-Crítico, sino también su predecesor REINFORCE, donde se introduce el concepto de optimización de políticas. El esquema Actor-Crítico es instanciado mediante la implementación de Proximal Policy Optimization (PPO) el cual utiliza redes neuronales artificiales(RNA) como estimador de función no lineal. Para el ajuste de los pesos de las RNAs se evaluaron tres variantes del gradiente estocástico las cuales incluyen Momentum, RMSProp y ADAM. Se diseñaron una serie de experimentos con el propósito de comparar el esquema Actor-Crítico con REINFORCE y sus resultados permiten establecer las diferencias de eficiencia entre ambos. Estos experimentos se hacen en base al problema del péndulo invertido en un ambiente dinámico. Finalmente, para demostrar la robustez y flexibilidad de los métodos de Actor-Crítico toma como caso de estudio un problema de control complejo en donde un agente debe aprender a caminar. Dicho agente es una criatura artificial semejante a una hormiga de cuatro patas, con dos rotores por pata que aplican torque sobre las mismas. La evaluación del desempeño del agente se realiza midiendo la longitud de la trayectoria recorrida hacia un objetivo en una cantidad de tiempo." Proyecto final Ingeniería Informática (grado) - Instituto Tecnológico de Buenos Aires, Buenos Aires, 2020

Cómo citar

Elegí el formato que necesitás y copiá la referencia al portapapeles.

APA 7

Delgado, F. (2021). Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos. RI ITBA. http://ri.itba.edu.ar/handle/20.500.14769/3396

MLA

Delgado, Francisco. Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos. RI ITBA, 2021. http://ri.itba.edu.ar/handle/20.500.14769/3396.

Chicago

Delgado, Francisco. 2021. Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos. RI ITBA. http://ri.itba.edu.ar/handle/20.500.14769/3396.

Harvard

Delgado, F. 2021, Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos, RI ITBA, available at: http://ri.itba.edu.ar/handle/20.500.14769/3396 [Accessed 28 Jun. 2026].

Compartir e imprimir

Guardá la ficha, copiá su enlace permanente o imprimila como PDF.

Exportar referencia

Si usás un gestor bibliográfico, podés exportar el registro en los formatos más comunes.

RIS BibTeX

Detalles del recurso

Información bibliográfica útil para confirmar que se trata del material correcto.

Título: Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos

Autor / colaboradores: Delgado, Francisco

Editorial: RI ITBA

Año de publicación: 2021

Idioma: es

Materias

Explorá otros recursos relacionados a partir de estas materias.

APRENDIZAJE POR REFUERZO; ALGORITMOS; REDES NEURONALES