VITA는 비디오, 이미지, 텍스트, 오디오 모달리티를 동시에 처리하고 분석할 수 있는 최초의 개방형 다중 모달 대형 언어 모델이며, 향상된 다중 모달 인간-컴퓨터 상호작용 기능을 갖추고 있다.
VITAは、ビデオ、画像、テキスト、オーディオの4つのモダリティを同時に処理・分析できる初のオープンソースのマルチモーダル大規模言語モデルであり、高度な多モーダル対話体験を実現する。