本研究では、単一カメラからの3D人体姿勢推定の精度を向上させるため、複数のカメラ映像を訓練時に活用する手法を提案している。具体的には、以下の取り組みを行っている:
2つのカメラ映像から推定された3D姿勢の一貫性を確保するための新しい損失関数「一貫性損失」を提案した。この損失関数は、2つの視点から推定された3D姿勢が相似変換によって整合するよう学習を行う。
3D姿勢データが利用できない場合でも、提案の一貫性損失を活用することで、大幅な精度向上を実現した。これは、単一視点からの姿勢推定における奥行き情報の曖昧性を解消するのに効果的である。
3D姿勢データが利用可能な場合でも、提案の一貫性損失を併用することで、わずかながら精度向上が得られることを示した。
スポーツシーンを対象とした新しいデータセット「SportsPose」を公開し、提案手法の有効性を実証した。
Human3.6Mデータセットを用いた実験では、提案手法が半教師あり学習の精度を向上させ、最先端の性能を達成した。
以上のように、本研究は単一カメラからの3D人体姿勢推定の精度向上に大きく貢献するものである。特に、3D姿勢データが利用できない現実的な状況において、提案の一貫性損失が有効であることが示された。
To Another Language
from source content
arxiv.org
Deeper Inquiries