人工知能の進化は急で、写真だけでなくビデオに何が写っているかを理解できる。ライブで配信されるビデオをリアルタイムで解析し、内容に応じて区分けする。この技術は既に大手企業の広告事業で使われている。ビデオ解析の究極の目的はロボットの視覚となることで、その応用範囲は広大だ。ヒトの目に近づきつつある最新のコンピュータービジョンをレポートする。

g418_ai_computer_vision_dextro_01

写真からビデオ解析へ

コンピュータービジョンでトップを走っているのは、ニューヨークに拠点を置く「Clarifai」というベンチャー企業だ。人工知能の技法を使いイメージ解析技術を開発している。同社は2013年、イメージコンテスト「Large Scale Visual Recognition Challenge」でトップ5に入賞し注目を集めた。イメージコンテストでは写真に写っているオブジェクトを識別するが、今ではこの技術をベースに、ビデオ解析技術を開発している。ビデオに写っているオブジェクトを1万のカテゴリーに分類することができる。

上の写真がその事例で、自動車から撮影したビデオを解析し、そこに何が写っているのかをグラフで表示している。上段は入力したビデオで、ゴールデンゲートブリッジを自動車で走行している様子である。下段が解析結果で、時間ごとに登場するオブジェクトをグラフで表示している。Clarifaiはビデオに登場するオブジェクトを把握し、それを区分けして、出現頻度を時間ごとにプロットする。

g418_ai_computer_vision_dextro_02

ビデオの内容をグラフで表示

グラフの一部を拡大したのが上の写真である。下段にはClarifaiが把握したオブジェクトを示し、上段にその出現頻度をプロットしている。グラフ最上部が「Vehicle」で、「自動車」の出現頻度を示す。グラフは常に高い値を示しており、自動車が定常的に登場していると判定した。実際に走行した時は道路は込んでいて、常に他車と一緒に走行した。最下部の黄色い線は「Suspension Bridge」を示す。Clarifaiはゴールデンゲートブリッジは、橋の中でも「吊り橋」というタイプであると認識している。ゲートの下を通過するときは、これが見えなくなり、中央部でグラフが大きく下がっている。

Clarifaiが認識したオブジェクトは下段左側に示される。このケースでは110件程度のオブジェクトを認識した。ここからグラフ化したいオブジェクトを選ぶと、下段右側に表示される。ここでは他に、「Road」や「Sky」などのオブジェクトを選択した。更に、抽象的な表現である「Travel」も選択した。上から三番目のグラフがそれで、具体的な定義は公表されていないが、乗用車や観光バスや歩行者などを「旅行」と定義しているようにも思える。

ビデオ解析の利用方法

Clarifaiはビデオの中で特定シーンを検索する時に利用される。グラフから見たいシーンを簡単に探し出せる。例えば上述グラフで「City」の最大値の部分を選ぶと、サンフランシスコ市街が写っているシーンを見ることができる。更に、出版社のようなビデオ所有者は、コンテンツを体系だって整理できる。ジャンルごとに区分けするだけでなく、ビデオへのタグ付けを効率的に行える。これらビデオを配信する際に、最適な広告を挿入・付加することで、コンバージョン率の向上が期待できる。例えば上述のケースでは「Travel」の値が高いので、このビデオの隣に旅行関係の広告を配信するなどの利用法が考えられる。

このサービスはクラウドから提供され、企業はClarifai APIをシステムに組み込んで利用する。サービスはフリーミアムと有料サービスがあり、無償サービスでは解析するデータ量に制限がある。一方、有償サービスでは制限なしに利用できる。

g418_ai_computer_vision_dextro_03

ライブビデオストリームを解析するサービス

コンピュータービジョン開発会社「Dextro」が注目を集めている。ニューヨークに拠点を置き、ビデオ認識技術を開発している。人工知能の技法を使ってビデオを解析し、その内容を把握する。Dextroは2015年5月、ライブビデオストリームを解析するサービス「Stream」を公開し話題を集めている。

これは人気ライブストリーミングアプリ「Periscope」で放送されるビデオを解析するサービスで、若者を中心に利用が広がっている。Periscopeとはサンフランシスコに拠点を置くベンチャー企業で、手軽にビデオ放送できる機能を提供している。スマホカメラからライブでビデオを発信し、視聴者はこれらの放送をアプリで閲覧する。2015年3月にTwitterが買収し、米国だけでなく世界各国で利用されている。いま一番ホットなアプリで、日本の人気アプリ「ツイキャス」(TwitCasting) に相当する。

膨大なビデオの中から好みのコンテンツを探す

Periscopeでは興味深いビデオがライブで放送されるが、ストリームの数が膨大でその選択に苦慮する。そこでStreamはPeriscopeのライブストリームを分析し、ビデオを区分けする機能を公開した。上の写真がその事例で、ストリームは「Talking Heads」、「Cats & Dogs」、「Green Fields」などに分類される。バブルの大きさはストリームの数を示す。バブルをクリックすると、そのカテゴリーのビデオを見ることができる。Periscopeが発信する大量のビデオの中から、面白いビデオに容易に辿りつける。

g418_ai_computer_vision_dextro_04

上の写真がStreamを使ってPeriscopeを見ている様子である。左側は「Nightclubs & Concerts」を選択したところで、コンサートのライブ演奏を楽しめる。このバブルを選ぶと、自宅にいながらライブでコンサートを楽しめる。右側は「Rooftops」を選択したところで、屋上からニューヨークの景色を楽しめる。誰かのパーティーにリモートで参加して、その雰囲気を味わえる。知人同士はリアルタイムでメッセージを交換し、バーチャルに出席する。ビデオ区分はこの他に、「Morning」、「Afternoon」、「Night」などがあり、膨大なビデオの中から好みのコンテンツを探すことができる。

g418_ai_computer_vision_dextro_05

システムをどう教育するのか

StreamはDeep Learningの手法でビデオに写っているオブジェクトを学習する。事前に撮影した大量のビデオとタグ (オブジェクト名などを記入) をStreamに入力し、システムを教育する。具体的な手法は公開していないが、上の写真のようなビデオストリームを入力し、例えば「Buildings at Sunset」などと教育するものと思われる。「Buildings」や「Sunset」など、単一オブジェクトだけでなく、その関係を示しシーンを理解させる。

Periscopeを解析することの難しさは、記入されているテキストがビデオの内容と異なるためと言われる。製作者がタグ付けに注意を払っていないことの他に、ライブビデオ特有の難しさがある。タグを入力して撮影を始めると、意図した内容と異なる方向に進むことが多々ある。このため、Streamはテキストや音声データは参照せず、イメージデータだけを利用する。

g418_ai_computer_vision_dextro_06

Dextroの本当の目的は何か

Streamが話題になっているが、Dextroの狙いは別のところにある。Dextroは既に大手企業と事業を展開している。大手ブランドはこの技術を使い、自社商品が市場でどう受け止められているかを把握する。商品はPinterestやInstagramのビデオの中に数多く登場する (上の写真、Pinterestのケース)。Dextroはこれらビデオを解析し、商品がどこに登場しているかを把握する。ロゴだけでなく、オブジェクトの形状から商品を特定する。更に、消費者が商品をどう使っているのかまでを把握する。写真と異なりビデオでは、消費者と商品のインタラクションまで理解できる。

市場ではDeep Learningの手法を使った広告技術が登場している。具体的な手法は企業秘密で殆ど明らかになっていないが、GoogleとBaiduが既にシステムを運用しているといわれる。消費者のプロフィールを把握するだけでなく、Deep Learningの手法でコンテンツを解析し、ターゲッティング広告の精度を上げている。Baiduは人工知能を広告配信に適用し、売り上げを伸ばしている。広告配信で人工知能の効果が数字として表れてきた。

究極の目的はロボットの視覚

Dextroは将来を見据えた開発に取り組んでいる。ビデオの中で何が起きているのかを把握し、そのサマリーを書き起こす技術を開発している。今まではマニュアルでビデオ概要を制作していたが、これからはソフトウェアの仕事となる。Dextroの究極の目的はロボティックスと言われている。ビデオ解析はロボットの基本技術で、ロボットの視覚として移動やアーム操作でオブジェクトを認識する。災害救助ロボットが屋内に入る時、扉を認識し、ノブを掴み、それを回して開ける。この背後ではコンピュータービジョンが使われ、ここでの開発競争が激化している。

Leave a Reply

You must be logged in to post a comment.