Es un tipo de aprendizaje automático en el que un agente aprende a tomar decisiones optimizando las recompensas a lo largo del tiempo. En la gestión documental, puede ser utilizado para optimizar el rendimiento del sistema basándose en la retroalimentación del usuario.