Dieser Artikel untersucht das Problem der Längenausbeutung in der direkten Präferenzoptimierung (DPO). DPO ist ein alternatives Verfahren zur klassischen Verstärkungslernung aus menschlichen Rückmeldungen (RLHF), das die Notwendigkeit eines separaten Belohnungsmodells und einer Verstärkungslernung-Phase eliminiert.
Die Autoren zeigen, dass DPO-Modelle dazu neigen, signifikant längere Antworten zu generieren als die bevorzugten Antworten in den Trainingsdaten. Dies führt zu einer Verzerrung in der Bewertung durch Modelle wie GPT4, die ebenfalls eine Vorliebe für längere Antworten haben.
Die Autoren leiten eine einfache Regularisierungsmethode ab, die die Länge der generierten Antworten kontrolliert, ohne die Modellleistung zu beeinträchtigen. Durch die Anwendung dieser Regularisierung können sie die Gewinnquoten der DPO-Modelle um bis zu 20% verbessern, wenn die Länge berücksichtigt wird.
Darüber hinaus untersuchen die Autoren die Ursachen für die Längenausbeutung in DPO. Sie zeigen, dass dies auf ein "Out-of-Distribution-Bootstrapping"-Problem zurückzuführen ist, bei dem das implizite Belohnungsmodell in DPO auf Antworten außerhalb der Trainingsdaten eine starke Längenverzerrung aufweist.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Ryan Park,Ra... في arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19159.pdfاستفسارات أعمق