Off-policy RL for Diffusion Samplers

Amortizing intractable inference in diffusion models for vision, language, and control

TL;DR: Fine-tune diffusion models with GFlowNet objectives.

Siddarth Venkatraman*, Moksh Jain*, Luca Scimeca*, Minsu Kim*, Marcin Sendera*, Mohsin Hasan, Luke Rowe, Sarthak Mittal, Pablo Lemos, Emmanuel Bengio, Alexandre Adam, Jarrid Rector-Brooks, Yoshua Bengio, Glen Berseth, Nikolay Malkin.

NeurIPS 2024.

Improved off-policy training of diffusion samplers

TL;DR: Train diffusion samplers with GFlowNets.

Marcin Sendera, Minsu Kim, Sarthak Mittal, Pablo Lemos, Luca Scimeca, Jarrid Rector-Brooks, Alexandre Adam, Yoshua Bengio, Nikolay Malkin.

NeurIPS 2024.