LLaMA와 같은 디코더 전용 트랜스포머가 컴퓨터 비전 분야에서도 효과적으로 사용될 수 있음을 보여준다. 제안된 iLLaMA 모델은 LLaMA의 구조를 기반으로 하며, 포스트 시퀀스 클래스 토큰 기법과 소프트 마스크 전략을 통해 훈련 안정성을 높였다. iLLaMA는 엔코더 전용 모델들과 견줄만한 성능을 보이며, 계산 효율성과 주목 맵 랭크 측면에서도 장점을 가진다.