ドイツの研究機関Max Planck Institute for Intelligent SystemsとMax Planck ETH Center for Learning Systemsによる研究チームが開発した「VIBE」は、深層学習を用いることで、動画内で動く人の3次元姿勢と形状を連続的に推定する技術だ。

 動画から人体の3次元モデルを連続的に推定する手法はこれまでにも研究されてきたが、複雑な動きの場合には正確性が失われ、細部でアーティファクト(ゆがみやズレ等)が起きていた。この課題に対して、これまでの研究成果を上回る高品質な3次元モデルを出力可能にしたのが今回の手法だ。

 アーティファクトが少ない3次元モデルを生成するために、大規模な3次元モーションデータセット「AMASS」を採用。このデータセットを最大限活用するために、 GAN(Generative Adversarial Network)を用いて学習する。

 具体的には、入力動画からCNN(Convolutional Neural Network)を用いて予測した各フレームごとの3次元モデル(SMPL=Skinned Multi-Person Linearモデルのパラメータ)と、AMASSデータセットからの3次元モデルを敵対させることで精度を高める手法を採用した。

 学習したモデルは、人物の3次元姿勢と形状をより正確に反映し、ダンスのように素早い動きでも運動学的にもっともらしい動きの連続的なメッシュを生成する。

※この記事は、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。