AI / Machine Learning manitcor • 1y ago • 100%

Direct Preference Optimization - Your Language Model is Secretly a Reward Model

Direct Preference Optimization - Your Language Model is Secretly a Reward Model

cross-posted from: https://lemmy.intai.tech/post/17988

https://arxiv.org/pdf/2305.18290.pdf

2

Comments 0