객체 인식 모델이 맥락 정보에 크게 의존하며, 맥락의 변화가 모델의 정확도와 특징 속성에 큰 영향을 미친다는 것을 밝혀냈습니다.
본 논문에서는 커널 보정이 필요하지 않고 이산 그리드가 아닌 연속체에서 희소 스파이크를 복구하는 새로운 블라인드 ToF 이미징 기술을 제시합니다.
이미지의 정보 내용에 따라 적응적으로 토큰 표현의 길이를 변화시키는 새로운 이미지 토큰화 방식을 제안합니다.
본 논문에서는 대규모 언어 모델(LLM)을 활용하여 이미지 내 키포인트의 의미를 이해하고 위치를 특정하는 새로운 멀티모달 모델인 KptLLM을 제시합니다.
3D 비전에서 저품질 포인트 클라우드 데이터를 향상시키기 위한 딥러닝 기반 방법의 최신 연구 동향을 제시합니다.
본 논문에서는 자연 비디오를 사용하지 않고 단순한 합성 비디오와 자연 이미지만으로도 유용한 비디오 표현을 학습할 수 있음을 보여줍니다.
본 논문에서는 다양하고 까다로운 저조도 환경에서 수집한 고해상도 이벤트 및 프레임 시퀀스로 구성된 포괄적인 데이터셋인 HUE 데이터셋을 소개하고, 이를 활용하여 최첨단 저조도 영상 개선 및 이벤트 기반 이미지 재구성 방법을 평가합니다.
그리폰-G는 새로운 데이터 세트와 학습 파이프라인을 통해 비전-언어 및 비전 중심 작업을 단일 모델에서 효과적으로 통합하여 멀티모달 모델의 성능을 향상시킵니다.
SANA는 4096x4096 해상도까지 이미지를 효율적으로 생성할 수 있는 텍스트-이미지 프레임워크로, 고해상도, 고품질 이미지를 빠른 속도로 합성하고 랩톱 GPU에서도 배포 가능합니다.
이 연구는 사전 훈련된 비전-언어 모델(VLM)을 사용하여 이미지에서 미세한 이상을 탐지하는 새로운 제로샷 이상 탐지 프레임워크인 FAPrompt를 제안합니다.