핵심 개념
Große Sprachmodelle zeigen ein allgemeines Phänomen des katastrophalen Vergessens während des kontinuierlichen Feinabstimmens auf Instruktionsaufgaben. Die Schwere des Vergessens nimmt mit der Modellgröße zu, ist aber bei dekodierspezifischen Modellen wie BLOOMZ geringer als bei Encoder-Decoder-Modellen wie mT0. Allgemeine Instruktionsabstimmung kann das Vergessen in nachfolgenden Feinabstimmungsprozessen abmildern.
초록
Die Studie untersucht das Phänomen des katastrophalen Vergessens (Catastrophic Forgetting, CF) in großen Sprachmodellen (Large Language Models, LLMs) während des kontinuierlichen Feinabstimmens auf Instruktionsaufgaben. Die Autoren evaluieren die Beibehaltung von Allgemeinwissen in LLMs aus drei Perspektiven: Domänenwissen, Reasoning und Leseverständnis. Zusätzlich wird die Entwicklung von Vorurteilen in den Modellen untersucht.
Die Ergebnisse zeigen, dass das CF-Problem generell in LLMs auftritt. Mit zunehmender Modellgröße von 1 Milliarde bis 7 Milliarden Parametern verstärkt sich die Schwere des Vergessens. Der dekodierspezifische Modelltyp BLOOMZ zeigt dabei weniger Vergessen als der Encoder-Decoder-Modelltyp mT0. Interessanterweise können LLMs auch Sprachvorurteile wie Geschlechtsvorurteile während des kontinuierlichen Feinabstimmens abmildern.
Darüber hinaus deuten die Ergebnisse darauf hin, dass die allgemeine Instruktionsabstimmung, wie sie bei ALPACA im Vergleich zu LLAMA durchgeführt wurde, das Vergessen in nachfolgenden Feinabstimmungsprozessen abmildern kann.
통계
Die Leistung des BLOOMZ-7.1B-Modells auf MMLU-SocialScience sinkt von 36,18% auf 26,06% nach dem kontinuierlichen Feinabstimmen.
Die Leistung des BLOOMZ-7.1B-Modells auf RACE-middle sinkt von 48,79% auf 33,05% nach dem kontinuierlichen Feinabstimmen.
Die Präferenz des BLOOMZ-7.1B-Modells für stereotype Sätze in Bezug auf physisches Aussehen sinkt von 75,0% auf 63,88% nach dem kontinuierlichen Feinabstimmen.
인용구
"Catastrophic forgetting (CF) is a phenomenon that occurs in machine learning when a model forgets previously learned information while acquiring new knowledge."
"As large language models (LLMs) have demonstrated remarkable performance, it is intriguing to investigate whether CF exists during the continual instruction tuning of LLMs."