Googleは、マネキンチャレンジのYouTubeビデオを使用してAIをトレーニングしました

知っておくべきこと

Googleは、AIをトレーニングして、1つのカメラのみを使用してシーン内の人間の被写体を分離する深度マップを作成しています。
Googleは出発点として、マネキンチャレンジからの2000本のYouTubeビデオを使用してAIをトレーニングしました。
その結果、ポートレートモードなどの効果をビデオに追加し、拡張現実に使用できるようになります。

Googleは最近のブログ投稿で、カメラと被写体の両方が動いているビデオの奥行き知覚にどのように取り組んでいるかを詳しく説明しています。出発点として、この研究ではAIをトレーニングするために膨大な量のデータにアクセスする必要がありました。最初の論理的なステップは、カメラは動いているが静止しているシーンで人を検出するようにトレーニングすることでした。

結局のところ、Googleには、マネキンチャレンジ用に撮影されたYouTubeビデオという形で、このデータに最適なリソースがありました。この課題では、人または人のグループは、カメラが自分の位置をパンしたように完全に静止します。 Googleは、このチャレンジの2000本のビデオを使用して、さまざまなシーンの人物を検出するAIのトレーニングを支援しました。

この調査をさらに興味深いものにしているのは、Googleが1台のカメラだけで撮影した映像を使用して深度マップを作成するようAIに教えているという事実です。ほとんどの場合、シーン内の深度情報を検知するには複数のカメラを使用する必要があります。

Googleは既に、静止画像にも同様の機能を利用して、Pixel携帯電話でポートレートモード効果を作成しています。ただし、これは静止画像にのみ関係します。 Googleが開発している新しい方法は、AIをトレーニングして、カメラと被写体の両方がシーン内で移動する深度マップを作成することです。

ビデオに分岐することにより、将来的には携帯電話のポートレートモードに似たビデオシーンでボケを作成するための機能が開かれます。この調査から得られるもう1つの利点は、GoogleのPlaygroundのPlaymojiなど、拡張現実の結果が改善されることです。

別の可能性は、2Dシーンから3D画像を生成することです。カメラのハードウェアは写真やビデオ撮影に常に不可欠でしたが、Googleが長年ソフトウェアで行ってきたことは、将来、アルゴリズムが同様に重要であり、新しい体験の提供に役立つことを示しています。