이 글은 LLM(Large Language Model) 모델의 검열을 제거하는 "abliteration" 기술을 소개합니다.
LLM 모델은 안전성과 지시 따르기 기능을 위해 유해한 요청을 거부하도록 훈련되어 있습니다. 이러한 거부 행동은 모델의 잔류 스트림에 특정 방향이 존재하기 때문에 발생합니다. "abliteration" 기술은 이 거부 방향을 제거함으로써 모델의 검열을 해제할 수 있습니다.
구체적인 구현 과정은 다음과 같습니다:
이 기술을 적용한 결과, 모델의 성능이 다소 저하되었지만 DPO(Debate-Preference Optimization) 파인튜닝을 통해 성능을 회복할 수 있었습니다.
Ke Bahasa Lain
dari konten sumber
medium.com
Wawasan Utama Disaring Dari
by Maxime Labon... pada medium.com 06-13-2024
https://medium.com/@mlabonne/uncensor-any-llm-with-abliteration-d30148b7d43ePertanyaan yang Lebih Dalam