SeedEdit은 이미지 생성 모델을 편집 모델로 전환하여 텍스트 지시를 통해 이미지를 수정하는 새로운 프레임워크를 제시합니다.
AutoVFX democratizes visual effects (VFX) creation by enabling users to automatically generate realistic and dynamic VFX videos from a single video and natural language instructions.
本稿では、テキストや単一画像から高品質な3Dモデルを高速に生成する統合フレームワーク「Hunyuan3D-1.0」を提案する。
This paper proposes a novel unsupervised method for segmenting food images by leveraging PCA-based feature representations derived from pre-trained CNN backbones, eliminating the need for pixel-level annotations and achieving competitive segmentation performance.
LoCALは、大規模マルチモーダルモデル(LMM)を用いて、複数ページにわたる複雑な文書から質問に対する回答を効率的に生成するフレームワークである。
Fashion-VDM introduces a novel video diffusion model approach to virtual try-on, enabling the generation of high-quality, temporally consistent videos of individuals wearing virtual garments while preserving their original motions and appearance.
本稿では、YOLOv3から最新バージョンまでの様々なYOLOアルゴリズムの包括的なベンチマーク分析を行い、オブジェクト検出における精度、速度、計算効率、モデルサイズを比較評価し、各バージョンにおける長所と短所を明らかにする。
DUSt3Rは、カメラのキャリブレーション情報なしで、単眼または多眼の画像群から高密度な3Dシーン再構成を直接実現する、従来のSfMやMVSパイプラインとは根本的に異なる新しいアプローチである。
This research leverages deep learning and crowdsourced street-view imagery from Mapillary to create a global dataset classifying road surfaces as paved or unpaved, thereby supplementing existing OpenStreetMap data and enabling various applications in urban planning, disaster response, and sustainable development.
YOLOv11は、リアルタイムオブジェクト検出における最新の進歩であり、精度、速度、効率の向上を実現するアーキテクチャの強化とトレーニング方法論を提供します。