論文紹介 単眼RGBカメラからのリアルタイム3次元姿勢推定(VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera)

論文紹介
概要

この記事では,僕の研究分野で発表された論文を自分なりに噛み砕いて紹介します.今回は,単眼RGBカメラからのリアルタイム3次元姿勢推定(VNect: Real-time 3D Huma Pose Estimation with a Single RGB Camera)を取り上げます.

ディープラーニングが全然わかりませんTERU@justicedestroy)です.

今回は,カメラ1台で撮影した動画から,リアルタイム3次元の姿勢推定してしまう研究を紹介します.

こんな方にぜひ読んで欲しい!

  • スポーツの解析をしたいけど体に計測機器を取り付けるのは嫌
  • ディープラーニングに興味がある
  • 動画から3次元の姿勢を推定したい
  • 画像処理を学びたい

この技術があると何ができるか

  • スマートフォンでリアルタイムに動作を解析
    • スポーツ
    • ダンス
    • ものまねの類似度計算
  • 防犯カメラの映像から犯人が被害者にしたことを解明
  • VRやARなどゲームで自分の動きがリアルタイムに復元

 

スポンサーリンク

単眼RGBカメラからのリアルタイム3次元姿勢推定(VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera)

VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera – SIGGRAPH2017

リンク

連絡先:dmehta@mpi-inf.mpg.de

著者

1:Max Planck Institute for Informatics(ザールラント大学のコンピュータ・サイエンスの学科)

2:Saarland University(ザールラント大学,ドイツの州立大学)

3:Universidad Rey Juan Carlos(レイ・ファン・カルロス大学,スペインの公立大学)

発表された学会

SIGGRAPH2017(The 44th SIGGRAPH Conference on Computer Graphics and Interactive Techniques)

 

概要

単眼RGBカメラで撮影した動画から,安定した3次元の姿勢をリアルタイムで推定.具体的には,CNN(Convolutinal Neural Network)ベースの回帰を用いたもので,運動学に基づいて骨格情報を当てはめる(Kinematic skeleton fitting).

利点

  • 2次元の姿勢も3次元の姿勢もリアルタイムに推定可能で,入力は高いフレームレートで撮影された動画である必要はない.
  • 例えば深度情報も得られるRGB-Dカメラ(Kinect)を使った推定結果よりも良いこともある.しかも,アウトドアや解像度の低い動画にも適用可能.

 

研究背景

姿勢推定は以下のような幅広い分野に応用可能で研究が盛んになってきた.

マークを使わないモーションキャプチャの手法も多く提案されてきた.

問題点

Kinectなどの深度情報を使うカメラが以下の理由で使いにくかった.

  • 屋外で使用すると日光の影響を大きく受ける
  • 電力消費が激しい
  • 解像度が低く画角も狭い

 

 目的

単眼RGBカメラから3次元の人物の姿勢をリアルタイムで推定

 

関連研究

  • オフライン
    • 複数カメラからマーカーを使わずに姿勢を推定
  • オンライン
    • Model-To-Image-Fitting

提案手法

  1. CNNを用いた2次元の姿勢推定と,そレに基づいて3次元姿勢を求める回帰
  2. 運動学に基づいた骨格情報の位置合わせ

 

実験結果

 

考察

今後の課題

  • リアルタイムで高い精度を出すためにはどうしてもネットワークが深くなるので,事前に人物領域を切り出す処理が必要
  • リアルタイムで動かすために層を浅くしているので精度を上げるためには深い層にしてかつ処理速度も向上させないといけない

 

スポンサーリンク

感想

参考になった点

疑問点

 

覚書き

Word

  • regressor

回帰

Our method combines a new convolutinal neaural network (CNN) based pose regressor with kenematic skeleton fitting.

私達の手法は運動学に基づく骨格フィッティングとCNNを使った回帰を組み合わせたものである.

  • swell

膨張,増加

  • immersion

没入

The swell in popularity of applications such as real-time motion-driven 3D game character control, self-immersion in 3D virtual and augmented reality, and human-computer interaction, has let to new real-time full-body motion estimation techniques using only a single, easy to install, depth camera, such as the Microsoft Kinect.

人の動きをリアルタイムに反映する3次元のキャラクターの操作や,3次元の映像,拡張現実への没入,コンピュータと人のやりとり等,3次元的な姿勢推定の需要の増加から,カメラ1台で簡単に使えて深度情報も取得できる,リアルタイムに人の全身の動きを推定する手法が検討されるようになった.

 

  • interference

干渉,妨害

 

  • constant

不変

 

  • exection

実行,執行

 

  • compromise

妥協

 

Verb

  • present

示す,提供する,紹介する(人)

We present the first real-time method  to capture the full global 3D skeleton pose of a human in a stable, temporally consistent manner using a single RGB camera.

時系列の整合性を保って,安定して人の3次元の姿勢を情報をリアルタイムに取得できる手法を示す.

  • yield

産む

A real-time kinematic skeleton fitting method uses the CNN output to yield temporally stable 3D global pose reconstructions on the basis of a coherent kinematic skeleton.

リアルタイムの骨格フィッティングはCNNの出力(運動学に基づいて整合性をとった骨格情報に基づいて安定して再構築された3次元の姿勢情報)を用いる.

 

  • employ

使用する,用いる,費やす

 

  • specialize

専攻する,特殊化する

-thus far, the only monocular methods for applications employed specialized RGB-D cameras.

これまでに,単眼カメラでこのようなことをするにはRGB-Dカメラのような特殊なものを使っていた.

 

  • impose

無理強いする,課す,押し付ける

To overcome the usability constraints imposed by commercial systems requiring marker suits.

解析の際の手間となる制約を課してしまうマーカーを必要とするシステムの問題を解決するため.

 

  • enforce

強制する,実施する

 

  • forgo

なしで済ませる

 

  • regress

逆行する,復帰する

 

Adjective

  • kinematic

運動学的な

Our method combines a new convolutinal neaural network (CNN) based pose regressor with kenematic skeleton fitting.

私達の手法は運動学に基づく骨格フィッティングとCNNを使った回帰を組み合わせたものである.

  • tightly,かたく

しっかりと

Our novel fully-convolutional pose formulation regresses 2D and 3D joint positions jointly in real time and does not require tightly cropped input frames.

私達の新しいFully-CNNの姿勢推定の手法はリアルタイムに入力フレームの枚数が密でなくても2次元と3次元の関節位置を繋がりを意識して表現することができる.

  • coherent

筋の通った,一貫した

A real-time kinematic skeleton fitting method uses the CNN output to yield temporally stable 3D global pose reconstructions on the basis of a coherent kinematic skeleton.

リアルタイムの骨格フィッティングはCNNの出力(運動学に基づいて整合性をとった骨格情報に基づいて安定して再構築された3次元の姿勢情報)を用いる.

  • monocular

単眼の

This makes our approach the first monocular RGB method usable in real-time applications such as 3D character control.

これが私達のアプローチを3次元的なキャラクターを操作するようなリアルタイムに単眼RGBカメラで使えるから最初のアプリケーションにしている.

  • comparable

比較できる,匹敵する,相当する

 

  • valuable

価値のある,貴重な

  • bulky

かさばった,大きい,扱いにくい

 

  • underconstrained

 

  • descriminative

判別可能な,

 

  • global

全体的な,総括的な

 

  • feasible

実行できる,もっともらしい

 

 

Adverb

  • temporally

時間的に

We present the first real-time method  to capture the full global 3D skeleton pose of a human in a stable, temporally consistent manner using a single RGB camera.

時系列の整合性を保って,安定して人の3次元の姿勢を情報をリアルタイムに取得できる手法を示す.

  • jointly

連帯して,共同で

Our novel fully-convolutional pose formulation regresses 2D and 3D joint positions jointly in real time and does not require tightly cropped input frames.

私達の新しいFully-CNNの姿勢推定の手法はリアルタイムに入力フレームの枚数が密でなくても2次元と3次元の関節位置を繋がりを意識して表現することができる.

  • quantitatively

定量的に

Our method’s accuracy is quantitatively on par with the best offline 3D monocular RGB pose estimation methods.

私達の手法の精度はオフラインで単眼カメラから3次元の姿勢を推定する現状最も精度が高い手法と同じレベルである.

  • qualitatively

定性的に

Our results are qualitatively comparable to, and sometimes better than, results from monocular RGB-D approaches, such as the Kinect.

私達の手法は定性的にもKinectのようなRGB-Dカメラを使った3次元姿勢推定手法とも比較に値し,時々それより結果が良いことがある.

  • broadly

広く,大まかに

  • commodity

商用の,有用な

However, we show that our approach is more broadly applicable than RGB-D solutions, i. e., it works for outdoor scenes, community videos, and low quality commodity RGB cameras.

しかし,私達の手法はRGB-Dカメラを使った手法をよりも広く適用できる.例えば,外で,コミュニティービデオで,商用の画質の低いRGBカメラなどです.

  • comparably

比較できる程度に,同等に

 

  • simultaneously

同時に

 

 

Idiom

  • in a stable

安定して

  • consistent manner

一貫した,整合性のある

We present the first real-time method  to capture the full global 3D skeleton pose of a human in a stable, temporally consistent manner using a single RGB camera.

時系列の整合性を保って,安定して人の3次元の姿勢を情報をリアルタイムに取得できる手法を示す.

  • thus far

これまでに

-thus far, the only monocular methods for applications employed specialized RGB-D cameras.

これまでに,単眼カメラでこのようなことをするにはRGB-Dカメラのような特殊なものを使っていた.

  • on par with

~と同等で,同じレベルで,肩を並べて

Our method’s accuracy is quantitatively on par with the best offline 3D monocular RGB pose estimation methods.

私達の手法の精度はオフラインで単眼カメラから3次元の姿勢を推定する現状最も精度が高い手法と同じレベルである.

  • build upon

~に基づいて

 

Proper noun

Technical term

  • Kinematic skeleton fitting

 

  • Global 3D skeleton

 

コメント

運営している他のブログもチェック!

僕の好きなことに関する話題で記事を書いています.

学生生活の記録を残しています.

研究に関することを予習,復習をかねて記事にしています.