論文紹介 Everybody Dance Now 誰でも上手にダンスができる(ように見せられる)!!!

everybody_dance_now 論文紹介
概要

この記事では,僕の研究分野で発表された論文を自分なりに噛み砕いて紹介します.今回は,”Everybody Dance Now”を取り上げます.

ダンスには縁がありませんTERU@justicedestroy)です.

今回は,ダンスが上手な人の動画を基に,ダンスが下手くそな初心者がうまく踊っているように見える動画を生成する研究を紹介します.

こんな方にぜひ読んで欲しい!

  • ダンスがうまくなりたい
  • 面白い研究に興味がある
  • 深層学習に興味がある
  • 画像処理を学びたい

この技術があると何ができるか

  • ダンスが下手くそでも上手に踊っているように見える(動画が生成できる)
  • 下手くそな動きをしている動画を上手な動きがしているように見せられる

 

スポンサーリンク

Everybody Dance Now

実際に提案手法で出力されたデモ動画です.素人が適当に踊った動画に上手い人の骨格情報を当てはめることで,素人がうまく踊っているような動画を生成しています.

Everybody Dance Now

リンク

著者

1:UC Berkeley(カリフォルニア大学バークレー校)

発表された学会

  • arXiv(ネット上の研究論文用リポジトリ)

Key words

  • Motion transfer(動作のコピー)
  • Video generation(動画生成)
  • Generative adversarial networks(敵対性生成ネットワーク)

 

スポンサーリンク

概要

ダンスをしているある人の動画を基に,別の人も同じようにそのダンスを踊っているような動画を生成します.この技術を使えば,プロのダンス動画を基に,そのダンスを踊っている素人の動画をプロレベルのダンスを踊っているような動画に修正できます.

貢献

  • 学習ベースで人間の動きを生成
  • 複雑な動きでも高い精度で生成

研究背景

社会的問題や課題はなし.

問題点

特になし.

関連研究

  • 動画の生成:
    1. 話してほしい言葉を話す(同じ口をしている)フレームを探して,それをつなげて動画にする
    2. ”自分がやったようにやる”,”自分が話したように話す”リターゲティングのために,別の対象が同様に動作したかを判断する類似性の基準としてオプティカルフローを使う
  • グラフィックやアニメーションのための3次元の動作生成
    • 提起されてきた課題:
      • 動きが逆になってしまう
      • 関節位置が大きく異なる
  • 他視点システム:
    • 個々の骨格モデルの位置合わせ
    • 3次元姿勢推定
    • 別の動きをする人を画像にレンダリング
  • 表情の生成:
    • Dynamics Transfer GAN:統計的な画像が与えられたときに,動画内の対象の人物からターゲットの人物に表情を投影
  • 関連するGANs:
    • pix2pix
    • CoGAN
    • UNIT
    • DiscoGAN
    • CycleGAN
    • Cascaded Refinement Networks
    • pix2pixHD

 目的

pix2pixHDよりもなめらかな画像を生成

強み

  • 2次元座標から生成
    • 3次元座標が欠落していても大丈夫
  • 時系列を考慮
    • 前後フレームとのつながりを見て生成

提案手法

入力

  • ターゲットとなる動画とそのターゲットに変換する動画
    • 推定された姿勢
    • その姿勢をとった時の画像
  • 望まれること
    • 動画の見えが似ている
    • 動作の同期が取れている(必要はない)

ステップ1:姿勢推定と正規化

姿勢推定

推定された姿勢を生成器Gに入力として与える.変換のためにソースの人物を正規化してから与える.

  • 事前学習済みの既存手法を使用
    • “Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields”
    • “Hand Keypoint Detection in Single Images using Multiview Bootstrapping”
    • “Convolutional pose machines”
姿勢の正規化

ソースとターゲットの姿勢と位置の違いを吸収する.具体的には,それぞれの人物の身長と足首の位置を基準に,最も近い足首と最も遠い足首を線形に射影する.統計的に結果を見てスケールとどれくらい変換するかを決める.

ステップ2:敵対的学習と画像変換

敵対性学習:pix2pixの枠組み

pix2pixの枠組みで画像を変換する.一枚の画像としてではなく,時系列的の整合性も考慮するようなネットワークで学習する.

時系列のスムージング

注目画像の1枚前の画像とそのときの姿勢情報を入力することで時系列を考慮した生成を実現する.

  • 本物を識別するような学習
    • 入力画像とその時の姿勢情報
  • 偽物を識別するような学習
    • 入力画像とその前のフレームの姿勢情報
temporal_smoothing

時系列を考慮した生成のための識別器の学習の流れ

 顔領域に対する敵対的学習

より本物に近づけるため顔の領域は別のGANで学習して生成する.最終的に全体で学習した後に,その重みを使って顔のGANを適用する.

faceGAN

顔領域の生成の流れ

※ネットワーク構造

  • 体,顔,手の検出:OpenPose
  • 画像生成:pix2pix(LSGAN)
    • 顔の識別器:Patch-GAN(LSGAN)

データ収集

  • ソース(素人の動画):
    • 撮影機器:スマホ
    • フレームレート:120fps
    • 撮影時間:20分間
    • 服装:ピチッとした服
  • ターゲット(上手い人の動画):何でも良い

※事前にガウシアンをキーポイントに,メディアンを画像に適用しておく.

実験

提案手法の大本であるpix2pixHDと比較(顔あり(T. S.)とカオナシ(T. S. + Face))

  • pix2pixと比較
    • pix2pix:画像1枚の特徴のみ
    • 提案手法:前フレームとその姿勢も考慮

結果

  • 実験1:バウンディングボックスで体が映る領域を切り出して正解データとの類似度を比較
    • 結果:従来手法と大差なし(従来手法の結果ですでに十分)
  • 実験2:バウンディングボックスで顔のみが映る領域を切り出して正解データと類似度を比較
    • 結果:従来手法と大差なし(従来手法の結果ですでに十分)
  • 実験3:検出されるキーポイントの正確性を正解データ(キーポイント)との距離で比較
    • 結果:FaceGANで顔を生成したものがもっとも正確
  • 実験4:本物の画像を入力としたときには検出されて,生成された画像を入力としたときには検出されなかったキーポイントの数を計算
    • 結果:すべて提案手法がベスト

切り取られた人物領域における画素の類似度

切り取られた顔領域における画素の類似度

検出されたキーポイント間の距離

検出に失敗したキーポイントの数

考察

隣接するフレーム間のつながりを考慮したことがpix2pixHDをより良い結果を得られた要因(時系列的な滑らかさ(動き,色)を生んだ)

今後の課題

  • キーポイントの検出に失敗した場合の対処
  • ターゲット画像の正規化手法の検討
  • 3次元データを有効活用して精度を向上

 

スポンサーリンク

感想

とても実用的な研究で,結果もわかりやすくインパクトの強い論文でした.出力結果がすぐに誰かの興味を引き,話題になりそうな研究は強いなと感じました.

参考になった点

時系列情報を考慮することで,生成する画像の本物らしさが増すというのは直感的にとてもわかりやすく,それを実際に形にするネットワーク構造,そして識別器の生成のステップが自分の研究に取り入れるべきだと感じました.

疑問点

実験では完璧にキーポイントを検出できており,それがプロの動きを素人の動きにマッピングする際の肝になっていますが,実際にそれが可能なのかは疑問でした.論文で使用したと記載されていた姿勢推定の手法を僕も試したことがあり,正確な姿勢情報を得られなかったからです.

デモで使用しているものはもしかしたら姿勢推定器で得られた情報ではなく,手入力した正解データなのかもしれません.

 

スポンサーリンク

覚書き

Word

  • martial arts

武道,武術

perform martial arts kicks or dance as vibrantly as pop stars.

武術を披露したり,ポップスターのように鮮やかにダンスを披露したりできる.

  • realism

現実味,本物っぽさ,現実主義

To increase facial realism in our results we include a specialized GAN trained to generate the target person‘s face.

出力される画像の表情のそれっぽさを増すために,専用のGAN(Generative Adversarial Network)をターゲットの顔を生成するために学習しておく.

  • ablation

除去,切除

  • decade

10年間

Over the last two decades there has been extensive study dedicated towards motion transfer or retargeting.

過去20年間に渡り,動作生成やリターゲティングに関する研究が頻繁に取り組まれてきた.

  • footage

映像

Early methods focused on creating new content by manipulating existing video footage

初期の研究では既存の動画を操作して新しい動画を生成することに焦点が当てられた.

  • descripter

記述子,判断基準

Another approach uses optical flow as a descriptor matches different subjects performing similar actions allowing “Do as I do” and “Do as I say” retargeting

もう一つのアプローチは”自分がやったようにやる”,”自分が話したように話す”リターゲティングのために,別の対象が同様に動作したかを判断する類似性の基準としてオプティカルフローを使う.

  • solver

解決

Since the retargeting problem was first proposed between animated characters [11], solutions have included the introduction of inverse kinematic solvers to the problem [19] and retargeting between significantly different skeletons

アニメのキャラクターの動きを生成するために最初にリターゲティング問題が提起されて依頼,動きが逆になってしまうことと,関節位置が大きく異なることに対する解決策が紹介されてきた.

  • emergence

Since the recent emergence of Generative Adversarial Networks (GANs) for approximating generative models [12], GANs have been used for many purposes including image generation [8], especially because they can produce high quality images with sharp details [18]

生成的モデルを生成するためのGANsの出現によって,GANsは画像生成(特に細部まで高品質の画像)を含むたくさんの目的達成のために使われてきた.

  • descrepancy

矛盾,食い違い

Again, scores are generally favorable for all ablations, although the full model with both the temporal smoothing and face GAN setups obtains the best scores with the biggest discrepancy in the face region.

もう一度述べるが,たとえT. S. Faceのもっともスコアが良かったフレームで顔領域に何らかのおかしな生成がされていても,結果はすでに十分な精度である.

Verb

  • twirl

くるくる回る

we create a variety of videos, enabling untrained amateurs to spin and twirl like ballerinas

私達の手法は様々な動きを生成できて,練習していない素人にバレリーナのようにくるくる回ったり回転したり...

rotate,spinとの違いは?

  • condition

条件付ける,制約をつける

we condition the prediction at each frame on that of the previous time step.

それぞれのフレームは前のフレームから順番に進んでいるだろうと条件付ける.

These advances have led to use of Conditional GANs, in which the generated output is conditioned on a structured input [25].

この発展はConfitional GANsの使用につながった.それは構造化された入力に対して出力画像に制約がついているものである.

  • retarget

標的を変える,関節座標のデータから動作を再現

  • utter

口から発する

Video Rewrite creates videos of a subject saying a phrase they did not originally utter by finding frames where the mouth position matches the desired speech

動画生成は,同じ言葉を話す口をしているフレームを探してそれを基に動画を作る.

  • mitigate

和らげる,軽減する

To mitigate this problem, Cheung et al. [7] propose an elaborate multi-view system to calibrate a personalized kinematic model, obtain 3D joint estimations, and render images of a human subject performing new motions.

この問題を軽減するために,チェンらは,個々の骨格モデルの位置合わせ,3次元姿勢推定,別の動きをする人を画像にレンダリングするための手の込んだ他視点システムを提案した.

  • employ

採用する,雇用する

MoCoGAN [29] employs unsupervised adversarial training to learn this separation and generates videos of subjects performing novel motions or facial expressions

MoCoGANはこの判別(見えから動きを判断して同期すること)と,表情の表現と対象の新しい動きを動画として生成するため敵対的教師なし学習を採用している.

  • adopt

取り入れる,採用する

Due to our approach toward motion transfer, we are able to choose from and adopt such frameworks for our purposes.

動作生成のために,これらのフレームワークから私たちの目的に合うものを選んで,もしくはつなげて使用する.

  • enact

制定する,演じる

Given a video of a source person and another of a target person, our goal is to generate a new video of the target person enacting the same motions as the source.

私たちのゴールは,ソースとターゲットの人物が入力されたときに,ターゲットの人物がソースの人物と同じ動きをする動画を生成することである.

  • accomplish

達成する,成し遂げる

To accomplish this task, we divide our pipeline into three stages – pose detection, global pose normalization, and mapping from normalized pose stick figures to the target subject.

このタスクを達成するために,私たちのパイプラインは3つのステージに分けられる.

  • 姿勢推定
  • 姿勢の正規化
  • 正規化されたpose stick figuresを対象にマッピング
  • attempt

試みる,企てる,挑む

D attempts to distinguish between “real” image pairs (i.e. (pose stick figure x, ground truth image y)) and “fake” image pairs (i.e. (pose stick figure x, model output G(x)).

識別器Dは本物のペア(実際の画像yとその時の姿勢x)と,偽物のペア(モデルから出力されたG(x)と姿勢x)を識別しようと試みる.

  • fool

ばかもの,騙す

The generator’s task is to synthesize realistic images in order to fool the discriminator which must discern between “real”
(ground truth data) images from the “fake” images produced by the generator.

生成器のタスクは生成器が作り出した偽物の画像から本物の画像を見分ける識別器を騙すために本物に近い画像を生成することである.

  • discern

見分ける

  • deceive

欺く

These two networks are trained simultaneously and drive each other to improve, as the generator must learn to synthesize more realistic images to deceive the discriminator which in turn learns differences between generator outputs and ground truth data.

これらの2つのネットワークは同時に学習して,識別器を欺くような画像を出力するために,本物の画像と生成する画像の違いを学ぶ.

  • enforce

実施する,強要する,強調する

  • modify

修正する,変換する

  • depict

we count the number of missed detections (i.e. joints
detected on ground truth frames but not on outputs) on various regions and the whole pose as the pose metric does not accurately depict missed detections.

正解データでは検出されて,生成されたデータでは検出されなかった関節の数を数えた.これは検出ミスをしたキーポイントが正しく描画されていないからである.

 

Adjective

  • novel

新しい,奇抜な

we can transfer that performance to a novel (amateur) target after only a few minutes of the target subject performing standard moves.

ターゲットの正しい動きのほんの少しあとに素人の動きを変換できる.

  • Compatible

互換性がある,両立できる

Compatible with our objective, poses preserve motion signatures over time while abstracting away as much subject identity as possible.

私達の対象と比べて互換性があり,時間の経過とともに姿勢の特徴を保存し,可能な限りたくさんの対象のアイデンティティーを抽象化できる.

  • yielding

曲げやすい,しなやかな,従順な

we obtain pose detections, for each frame yielding a set of (pose stick figure, target person image) corresponding pairs.

既存の姿勢推定手法を用いて,それぞれのフレームで姿勢情報とその姿勢をとったときの画像をセットで取得する.

  • elaborate

手の込んだ,精巧な,入念な

  • subsequent

その次の,あとに続いて起こる

This theme is continued through subsequent work in Dynamics Transfer GAN [1] which transfers facial expressions from a source subject in a video onto a target person given in a static image.

このテーマはその後の研究として,統計的な画像が与えられたときに,動画内の対象の人物からターゲットの人物に表情を投影するDynamics Transfer GANとして取り組まれた.

  • arbitrary

任意の

In addition to specific applications or mappings, studies employed adversarial training to learn arbitrary image to image translations.

特定のアプリケーションやマッピングに加えて,任意の画像変換を学習するために敵対的学習が使われている.

  • perceptual

知覚の

Through adversarial training with discriminator D and a perceptual reconstruction loss dist using a pretrained VGGNet [15, 28], we optimize the generated output G(x) to resemble the ground truth target subject frame y.

識別器Dによる敵対的学習と事前学習済みのVGGNetの知覚的再構築のための損失距離を用いて,フレームyにおける正解のターゲットの動きを真似るために生成される出力Gを最適化する.

  • consistent

一貫した,矛盾のない

In order for the source pose to better align with the filming setup of the target, we apply a global pose normalization Norm to transform the source’s original pose x ′ to be more consistent with the poses in the target video x.

ターゲットの撮影環境にソースの姿勢をより正確に合わせるために,ソースの姿勢x ′ をターゲットの姿勢xらしくなるような姿勢のノルム正規化を適用する.

  • adjacent

隣接した

To create video sequences, we modify the single image generation setup to enforce temporal coherence between adjacent frames as shown in Figure 4.

動画を作るために,1枚の画像を生成するような枠組みを,隣接する画像との時系列を考慮したものにする枠組みに修正した.

  • favorable

順調な

  • plausible

もっともらしい

Although our setup can produce plausible results in many cases, occasionally our results suffer from several issues.

殆どの場合我々の枠組みはもっともらしい結果を得られたが,時々いくつかの問題に悩まされた.

 

Adverb

  • vibrantly

鮮やかに、きらめくように

  • consequently

その結果,したがって

Consequently, the discriminator is now tasked with determining both the difference in realism and temporal coherence between the “fake” sequence (xt−1, xt ,G(xt−1),G(xt )) and “real” sequence (xt−1, xt ,yt−1,yt ).

これらの設定をした結果,識別器は現在,偽物と本物の画像のシーケンスの,本物らしさと時系列の整合性を測定するような枠組みになっている.

  • Qualitatively

Qualitatively, the pix2pixHD baseline already reasonably synthesizes the target person as reflected by the similarity measurements.

実際には,pix2pixHDの枠組みは,計測された類似度からすでに十分な精度でターゲットの人物を生成できている.

  • occasionally

時々,ときたま

Idiom

  • but not

だがしかし,~ではなく

We observe that keypoint-based pose, which inherently encodes body position but not appearance

キーポイントベースの姿勢は,本質的に見えではなく体の姿勢を表すと考える.

  • abstract away

~除いて考える,抽象化する

  • with this ~

この~を用いて

With this aligned data we are able to learn an image-to-image translation model between pose stick figures and images of our target person in a supervised way.

この並んだデータ(姿勢情報と画像)を用いて,私たちの手法は姿勢情報と真似したい画像間の画像変換モデルを教師ありモデルで学習できる.

  • be designed for ~

~のためにデザインされた

Similarly, our approach is designed for video subjects which can be found online or captured in person, although we learn to synthesize novel motions rather than manipulating existing frames.

同様に,私たちのアプローチは既存のフレームを操作するのではなく,新しい動きを合成するために学習するためのものだが,オンラインかもしくは撮影された動画に映る人物を対象にデザインされている.

  • while in contrast

~と対照に

Similarly, we apply our representation of motion (pose stick figures) to different target subjects to generate new motions while in contrast our work specializes on synthesizing detailed dance movements.

同様に,この動きの表現を別の対象の新しい動きの生成に適用する.関連研究とは対照的に,私たちの研究では動き合成(ダンスの動き)にこれを適用する.

  • emergence of ~

~の出現

  • account for ~

~から成る,~を占める,~が主要因である

The global pose normalization stage accounts for differences between the source and target body shapes and locations within frame.

姿勢の正規化はソースとターゲットの姿勢と位置の違いを吸収するため実施する.

  • as reflected by ~

~によって,~から

 

Proper noun

Technical term

  • ablation study

手法の各構成要素を1つずつ抜いた実験(各要素がどれくらい重要なのかを示す)

We also conduct an ablation study on the components of our model comparing to a baseline framework.

モデルの構成要素を重要性を評価するためのablation studyを元となった他の手法と比較する形で行った.

  • optical flow

物体やカメラの移動によって生じる隣接フレーム間の物体の動きの見え方のパターンを2次元ベクトルで表現したもの.

  • Generative Adversarial Networks (GANs)

敵対的生成ネットワーク

2つのネットワーク(1:騙す画像を生成,2:それが本物かを判別)が敵対するように学習することで,少ないデータで精度の良い学習ができるニューラルネットワークモデル.

コメント

運営している他のブログもチェック!

僕の好きなことに関する話題で記事を書いています.

学生生活の記録を残しています.

研究に関することを予習,復習をかねて記事にしています.