チープなスマホでも撮影後にライティング調整、Googleなどが研究

  • 7,453

  • author Andrew Liszewski - Gizmodo US
  • [原文]
  • 福田ミホ
  • X
  • Facebook
  • LINE
  • はてな
  • クリップボードにコピー
  • ×
チープなスマホでも撮影後にライティング調整、Googleなどが研究
Image: Yun-Ta Tsai/YouTube

ハイエンドiPhoneじゃなくても、ポートレートライティングできるよと。

どんなにハイエンドなスマホでも、カメラ性能は高価なデジタルカメラには及びません。でもスマホには強力なプロセッサという武器があるので、撮れた写真をその場で加工することができます。その良い例がiPhoneのポートレートモードで、写真を撮ったあとにバーチャルにライティングを変えることができます。

でもポートレートモードが使えるのは、今はまだiPhoneの中でもフラッグシップ機種だけに限られています。そこでGoogleとカリフォルニア大学サンディエゴ校の研究チームが、同様の機能をもっと普通のスマホでも実現できる技術を開発しました。使い方によっては、ポートレートモードよりもっと便利かもしれません。

深度マップを利用するiPhoneのポートレートモード

iPhoneのポートレートモードは、本体の複数のカメラで同じ場面の写真を何枚か撮り、それらをソフトウェアで分析して画像の深度マップを生成することで実現されています。深度マップとは、簡単にいうと写真の中の被写体がそれぞれカメラからどれくらい離れているかを白黒で表現したものです。それによってソフトウェアは何がどれくらい手前にあって何がどれくらい奥にあるかを判定でき、手前にいる人間の瞳にフォーカスを合わせて背景をぼかす、といったことができるようになります。

深度マップはまた、iPhoneのポートレートライティング機能の中で人間の顔のパーツを見分けるためにも使われています。ポートレートライティングでは、すでに撮った写真でもあとから「スタジオ照明」とか「ステージ照明」とか、ライティングをバーチャルに切り替えることができます。それらの「照明」は完全にフェイクなのに自然に見えるのは、顔のどのへんが盛り上がっててどのへんが引っ込んでるのか、といった情報が深度マップとしてソフトウェアに渡されているからです。

人工知能でポートレートライティングを実現してみた

Image: Yun-Ta Tsai/YouTube

が、そんな加工はチープなスマホでだってできる!とばかり、Googleとカリフォルニア大学サンディエゴ校の研究チームが新たな技術を生み出しました。彼らは米ロサンゼルスで今月開かれるSiggraph 2019で発表予定の論文の中で、人工知能を学習させることで同じようなことが実現可能だと言っています。

多くの人たちのいろんな表情をいろんなライティングで撮影

カリフォルニア大学サンディエゴ校のTiancheng Sunさんたちは、いろいろなライティング条件の中で人間の顔は写真にどう映るものなのかニューラルネットワークに学習させました。具体的には、ステージの上の人物を304個のLEDライトで球のように囲み、点灯するライトをひとつずつずらしながら、7方向に設置したカメラで撮影しました。ひとりの人物ごとに3~5パターンの表情を作ったそうなので、撮れた写真は多ければひとりあたり1万枚以上に及んだ計算です。

またモデルとなる人もいろいろなパターンが用意され、「白人男性7人、アジア系男性7人、白人女性2人、アジア系女性ひとり、アフリカ系女性ひとり」の計18人が学習用データに使われました。それでもこのデータはこの手の研究にしては小規模で、肌色的にはやや明るめに偏っていたので、肌色が濃い人たちの写真にもこの技術を適用できるようにすべく、研究チームは学習データを人手で調整したそうです。

こうして作った「18人の人物 x 3~5の表情 x 307の光源 x 7つのカメラ角度」のデータの学習によって、深度マップがなくても、写真上の顔にあらゆるライティング環境を再現できるようになったそうです。実際に上の動画で写真の変化を見ても、すごく自然です。顔の写り方を変えられるだけじゃなく、オプションで背景まで合わせられてます。

「光源の移動」も可能

ちなみにiOSのポートレートモードでは、この秋にOSアップデートした後でも、ライティングモードは6パターンしかありません。Sunさんたちが編み出したアプローチでは、光源を3D空間のどこに動かしてもOKで、被写体の顔の色や影の出来具合はバーチャルな光源の位置に合わせて変化します。そういう意味では、より柔軟な応用が可能になるのかもしれません。

Sunさんの論文いわく、この手法は640 x 640ピクセルの画像なら160ミリ秒で処理できるそうなので、スマホ画面上でリアルタイムに表示することも可能なはずです。ただ最近の新しいスマホだと1画像が1200万画素とかあって、単純計算で640 x 640の約30倍ってことは、1枚の処理に5秒近くかかります。あとはこの研究で使ったであろう高級ワークステーションと一般的なスマホの処理能力の差も多分ありそうです。実装するうえでは、重い処理はクラウドで処理するとかなんとかして、このへんの課題を解決する必要があると思われます。

ともあれ、要はこれってスマホ写真に限らず、撮ってしまったパッとしない人物写真を、簡単に自然に、いい感じにできる技術ってことですよね。昔撮った失敗の逆光写真とか一気に復活できるならうれしいです。しかもこの論文主著者のSunさんは、PetaPixelが指摘してるように、2018年にGoogleの中でインターンとして同じような技術を研究していたようです。この技術が次期Pixelに搭載されるか、Googleフォトに来るかわかりませんが、実際使える日はわりと近いのかもしれませんね。期待。

Source: Tiancheng Sun via PetaPixel