SRIのコンピュータサイエンスとビジョン技術


SRIの科学の先駆者は「デジタル時代」そのものを切り拓く


SRIでは、ロボティクス、自動車、ウェアラブルシステムなどの分野で、先進視覚技術を開発・応用しています。世界中からの屈指の研究者たちが画像処理や画像認識、拡張現実、コンピュテーショナルイメージング(映像と信号処理を融合)といった主要分野における動画や、画像処理技術の限界を押し広げ、私たちのライフスタイルに変革をもたらしています。

このブログでは、SRIの情報・コンピュータサイエンス部門のバイスプレジデントでビジョン技術センターのディレクターであるRakesh “Teddy” Kumarをご紹介します。彼のキャリアは、科学の世界そのものを冒険することであり、その刺激的な探求は新しい道を切り拓いて「デジタル時代」そのものを形作ってきました。

一例を挙げると、KumarはSRIインターナショナルで「一体化された拡張パノラマ」(extended blended panoramas)を発明したチームの一員でした。このチームは、カメラを絵筆のように使ってパノラマを構築したのです(Video Brush)。この画期的な技術は、複数の画像を自動的に結合して球状のパノラマにすることで、視聴者がその中を旅しているような体験ができたり、さまざまな角度から物事を見たりすることができるもので、すべてが継ぎ目やずれのないように完璧に接合されています。SRIは2011年にこの技術をGoogleにライセンス供与し、Googleはこの技術をAndroidスマートフォンのカメラに搭載しました。

このプロジェクトは、Kumarがその先駆的なキャリアの中で、道を切り開くことに貢献した興味深いイノベーションの一例に過ぎません。「私は幸運にも、素晴らしい人たちとエキサイティングなプロジェクトに取り組むことができました」とKumarは述べています。

実世界に応用される革新的な技術

KumarがSarnoff Corporation(現在はSRIに統合)に入社したのは約29年前のことです。それまではマサチューセッツ大学アマースト校(University of Massachusetts at Amherst)でコンピューターサイエンスの博士号を取得後、短い期間IBMでプログラマーとして勤務していました。

この博士号は、インドのインド工科大学カーンプル校(Indian Institute of Technology, Kanpur)での電気工学の学士号と、ニューヨーク州立大学バッファロー校(State University of New York at Buffalo)での電気・コンピューター工学の修士号の取得に続く、Kumarの学歴の集大成となりました。

その後、KumarはSRIで着実に昇進していきました。現在は、情報・コンピューティングサイエンス(ICS:Information Computing Sciences)部門のバイスプレジデントと、ビジョンテクノロジーラボ(CVT:Center for Vision Technologies Laboratory)のディレクターを務めています。Kumarは、コンピュータビジョンやロボット工学、画像処理、コンピュータグラフィックス、可視化アルゴリズム、政府向けや民間顧客向けシステムの研究開発をリーダーとして主導しています。

「この分野は、自分の研究がさまざまな領域にて生かせるので、とてもやりがいを感じます。知的な観点だけでも非常に面白いのですが、実世界での応用が多いので、さらに魅力的です。」とKumarは述べています。

一体化された拡張パノラマと同様に、これらの応用のいくつかは「バーチャル広告の挿入」のように現代社会で大きな役割を果たしているものもあります。

画像

スポーツやニュースをテレビで観る時、皆さんはこの「バーチャル広告」等の技術を必ずと言っていいほど目にしています。例をあげると、野球の試合ではホームベースの後ろに広告が表示されたり、アメリカンフットボールの試合ではファーストダウンの位置を色のついた線で画面に示すなど、画面上にデジタル広告や試合を見やすくするライン等のグラフィックが当たり前のように挿入されています。この技術は、ビジョンベースのマッチムーブ技術によって構築されており、シーン内の撮影対象に対して正しい縮尺、方向、動きで画像や映像を放送信号に挿入します。Kumarらは1990年代半ばに、このシステムの構築に貢献しました。

「このシステムにより、初めて拡張現実を実際に応用することができました。」とKumarは述べています。

また、3Dモデル上に複数のライブ映像をリアルタイムでレンダリングするシステムであるVideo Flashlightsも、Kumarが主導した別の革新的な技術開発から生まれました。このシステムは、懐中電灯が周囲を照らすのと同じように、静止カメラや移動カメラからのライブ映像を静止3Dモデルにライブ映像のテクスチャをを照射します。このシステムは大規模なキャンパスや都市部にて、数百台のカメラで監視するセキュリティシステムや監視システムのための没入型可視化ソリューションとして実用化されています。複数のカメラ映像が融合され、一つのまとまった画像を形成します。この画像はダイナミックな世界をライブで提供し、鳥瞰図でズームインして動作や活動を間近に見ることができます。

この技術は、9.11アメリカ同時多発テロ時に開発され、セキュリティ強化を目的として多くの空港に配備されました。SRIはその後、この技術をある企業に売却したのですが、その企業はこの技術を使って、米国防総省の訓練方法の近代化の支援を目的とした大規模な契約を獲得するに至りました。

画像

軍事訓練への技術の応用「拡張現実双眼鏡(Augmented Reality Binoculars)」も、Kumarが重要な役割を果たしたもう一つの革新的なソリューションです。このシステムは、望遠鏡で撮影した実写映像に、空や地形に基づいた合成物体、車両、人物、効果(エフェクト)などを広角かつ高精度に追加することができます。このシステムは、広視野と狭視野のレンズが付いた2台のカメラを双眼鏡型のシェルに収納した設計になっています。広視野はコンテキストを提供し、双眼鏡の3D位置と方向をしっかり復元し、一方、狭視野は実際の補強とトラッキングの精度を高めるために使用されます。

つまり、このシステムでは、ジッターフリー(映像の乱れなどがない)、堅牢なリアルタイム姿勢推定を提供することで、正確な補正ができるのです。「私たちは、固定翼や回転翼の航空機、地上車両、武器による効果などを実世界のシーンと組み合わせて行うオブザーバー訓練用のライブシミュレーション訓練システムの一環として、本システムがうまく活用できることを実証しました。」このシステムに関する論文にて、Kumarと共著者はこのように記しています。

このシステムにより、例えば、兵士は自然界の風景の中に拡張現実の脅威(敵の戦車など)を見て、その脅威に対抗するための訓練を行うことができます。「そうでなければ、訓練時に本物の標的を配置して本物の飛行機を飛ばす必要があり、費用が高くついてしまいます。」とKumarは述べています。

受賞に至った業績

Kumarは卓越したキャリアの中で、60本超の研究論文を共同執筆しており、50件を超える特許を取得しています。また、SRIからスピンアウトしたVideoBrush、LifeClips、SSGなど複数企業の創設者の主要メンバーでもあります。

SRIでの経験をもとに、米国防高等研究計画局(DARPA)の委員を務めたり、また、IEEE(Institute of Electrical and Electronics Engineers)の出版物「Transactions on Pattern Analysis and Machine Intelligence(意訳:パターン解析と機械知能に関する論文誌)」の副編集長も務めています。
そして、2013年にマサチューセッツ大学アマースト校のコンピューター・サイエンス・スクールから、「意訳:技術開発における優秀な業績賞(Outstanding Achievement in Technology Development Award)」を授与されています。また、マルチセンサー・多次元医用画像のレジストレーションと3次元シーンモデルへの映像のアライメントに関する研究で、Sarnoff社長賞(Sarnoff President’s Award)とSarnoff技術功労賞(Sarnoff Technical Achievement Award)も受賞しています。

2011年に開催されたIEEEのバーチャルリアリティに関する学会では、Kumarが共同執筆した論文「Stable Vision-Aided Navigation for Large-Area Augmented Reality(意訳:広域拡張現実感のための安定した視覚支援ナビゲーション)」が最優秀論文賞となりました。この論文では、ドリフトがなくジッター(画像の乱れなど)を低減した視覚支援ナビゲーションシステムに採用する統一的なアプローチを発表しています。また、共著論文「Augmented Reality Binoculars(意訳:拡張現実双眼鏡)」は2013年のIEEE ISMAR(International Symposium on Mixed and Augmented Reality)のカンファレンスでは最優秀論文賞を受賞しています。

Kumarは現在でも新しい科学技術の革新に力を注ぎ、多忙な日々を過ごしています。その中には、最前線の人工知能(AI)自律化研究も含まれています。この研究分野は、ロボットが環境内でより速く学習し、より操作しやすくするようにするため、マッピングと意味情報(semantic information)の活用を強化することに焦点を当てています。

地上のRGB画像と地理参照された航空LIDAR 3D点群(深度画像としてレンダリング)をマッチングさせる大規模クロスモーダル視覚定位の問題は重要なものですが、その大半は未だ解明されていません。Kumarはこの問題の研究について、2020年10月に共著論文を発表しています。この論文では、55万組を超えるRGB画像と航空LIDAR深度画像を含む新しいデータセットを紹介し、RGBとLIDAR双方からの外観と意味の手がかりを効果的に組み合わせて大規模なクロスモーダル変動を扱う新しい結合埋め込みに基づいた方法を提案しています。この研究は、クロスモーダルな視覚定位のさらなる研究に向けた基礎を成すものです。

「SRIは、人々の安全と健康、そして生産性を向上させる、世界を変えてしまうようなソリューションを生み出しています。その一端を担うことができるのは、とても素晴らしいことだと思います。」とKumarは述べています。

参考資料:

SRIの75年間のイノベーションについて (日本語ブログ):バーチャル広告の出現(拡張現実の活用) ーテレビ放送向けの拡張現実技術利用の標準形を確立

SRIの75年間のイノベーション (日本語ブログ):コンピュータービジョン


Read more from SRI