本論文は、ビデオ監視シナリオにおける3D人体姿勢と形状の推定に関する課題について検討している。
まず、従来のメトリクスであるMPJPEやPA-MPJPEが、姿勢と形状の推定精度は評価できるものの、3D位置の推定精度を適切に評価できないことを指摘している。そのため、世界座標系での位置誤差を評価するW-MPJPEやW-PVEメトリクスの重要性を述べている。
次に、現状の手法では、この世界座標系での位置推定が十分ではないことを定性的な比較から示している。特に、人物メッシュが地面に対して適切に整列されていないことが問題として挙げられている。
そこで、著者らは、RotAvatと呼ばれる手法を提案している。この手法は、人物が地面に垂直に立っているという仮定に基づき、2Dの足部と頭部の位置情報から自動的にカメラキャリブレーションを行い、その結果を用いて人物メッシュを地面に整列させるというものである。この手法は、既存手法の出力に対して適用可能なポストプロセッシング手法であり、定性的な比較から、従来手法の課題を効果的に解決できることが示されている。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Drazic Marti... at arxiv.org 09-26-2024
https://arxiv.org/pdf/2409.16861.pdfDeeper Inquiries