RLHF, también llamado aprendizaje por refuerzo a partir de las preferencias humanas, es especialmente adecuado para tareas con objetivos complejos, mal definidos o difíciles de especificar. Por ejemplo, sería poco práctico (o incluso imposible) que una solución algorítmica defina “divertido” en términos matemáticos, pero sería ... More @Wikipedia
Hover over any link to get a description of the article. Please note that search keywords are sometimes hidden within the full article and don't appear in the description or title.