Główne pojęcia
VITA는 비디오, 이미지, 텍스트, 오디오 모달리티를 동시에 처리하고 분석할 수 있는 최초의 개방형 다중 모달 대형 언어 모델이며, 향상된 다중 모달 인간-컴퓨터 상호작용 기능을 갖추고 있다.
Streszczenie
이 논문은 VITA, 최초의 개방형 다중 모달 대형 언어 모델(MLLM)을 소개한다. VITA는 비디오, 이미지, 텍스트, 오디오 모달리티를 동시에 처리하고 분석할 수 있으며, 향상된 다중 모달 인간-컴퓨터 상호작용 기능을 갖추고 있다.
VITA의 개발 과정은 다음과 같다:
- 언어 모델 기반 구축: Mixtral 8x7B를 기반으로 중국어 어휘를 확장하고 이중 언어 지침 미세 조정을 수행하여 중국어와 영어에 능숙한 언어 모델을 구축했다.
- 다중 모달 정렬 및 지침 미세 조정: 대규모 고품질 다중 모달 데이터를 활용하여 텍스트 특징 공간을 비디오, 이미지, 오디오와 정렬하고, 다중 모달 지침 미세 조정을 수행했다. 또한 상태 토큰을 도입하여 다중 모달 인간-컴퓨터 상호작용을 가능하게 했다.
- 이중 파이프라인 개발: 사용자 쿼리에 응답하는 생성 모델과 환경 입력을 지속적으로 추적하는 모니터링 모델로 구성된 이중 배포 체계를 도입했다. 이를 통해 비 깨우기 상호작용과 오디오 중단 상호작용 기능을 구현했다.
VITA는 개방형 커뮤니티에서 다중 모달 이해와 상호작용의 원활한 통합을 탐구하는 첫 단계이다. 아직 많은 과제가 남아있지만, 선구자로서의 역할을 통해 후속 연구의 기반이 될 것으로 기대된다.
Statystyki
VITA는 Mixtral 8x7B 모델의 중국어 어휘를 51,747개로 확장하여 중국어와 영어에 모두 능숙한 언어 모델을 구축했다.
VITA는 5백만 개의 합성 이중 언어 말뭉치를 사용하여 지침 미세 조정을 수행했다.
VITA는 대규모 고품질 다중 모달 데이터(총 4,960,300개 항목)를 활용하여 텍스트, 비디오, 이미지, 오디오 간 정렬을 수행했다.
Cytaty
"VITA는 비디오, 이미지, 텍스트, 오디오 모달리티를 동시에 처리하고 분석할 수 있는 최초의 개방형 다중 모달 대형 언어 모델이다."
"VITA는 향상된 다중 모달 인간-컴퓨터 상호작용 기능을 갖추고 있다."