機械学習の応用からソーシャルマルチメディアの解析に至るまで、様々な研究分野で最先端のソリューションを追求
私たちが日常的に使用している便利なモノの裏側には、たくさんの技術があります。特殊な技術ですが、例えば応用機械学習や、ソーシャルマルチメディア(ビデオ-オーディオ-テキスト)分析、人間の行動の感情的・認知的・生理学的側面のマルチモーダルモデリングと分析、インタラクティブなバーチャルリアリティベースのトレーニング、密集した群衆の中の個人の追跡、カメラ追跡、およびオープンソースビデオでのイベント検出のためのオーディオ分析など。
今回のブログでは、SRIにて主にこれらの技術に大変関連のある人物、SRIのCenter for Vision Technologies(ビジョンテクノロジーズセンター)のVision and Learning Laboratoryにてシニアテクニカルディレクターを務めているAjay Divakaranをご紹介します。彼は、さまざまなモダリティにコンピュータービジョンとマルチセンサーシステムを組み合わせた委託研究の提案や実践を担当しています。
問題にぶつかったとき、そこから逃げる人もいますが、Ajay Divakaranはいつも逃げるどころか真正面から問題を受け止め、解決策を生み出すことを楽しんでいます。科学の世界で素晴らしいキャリアを築いてきたDivakaranの性格とその実績を理解するには、この気質こそが鍵となります。
「私は問題意識がとても高い人間です。常に好奇心旺盛で、問題があるところに惹かれる傾向があるのです。」とDivakaranは述べています。
ブレークスルーで堅実な実績をあげる
Divakaranは2008年にテクニカルマネージャーとしてSRIインターナショナルに入社し、人間の行動センシングやモデリングに関するビジョンテクノロジーや映像・音声解析の分野に集中して取り組んできましたが、SRIへの入社前からすでに注目に値する成果をあげていました。
Divakaranが特に注目を集めた成果の1つが、三菱電機株式会社の研究所に在籍していた10年間に生みだされました。三菱電機が2005年9月に日本の市場に発売した、スポーツ番組のハイライトシーンだけを抽出再生できるビデオデッキの開発を牽引した発明者がDivakaranだったのです。
Divakaranは三菱電機で他にもさまざまな最先端なことに取り組んでいただけでなく、機械学習を機器の状態監視やマルチメディアのコンテンツ解析に適用する研究グループも統括していました。特に、MPEG-7の規格策定においては主導的な役割を果たしています。
三菱電機へ入社する前の1990年代はIterated Systems, Incの科学研究員(リサーチサイエンティスト)としてテレビ電話(ビデオテレフォニー)のエラー耐性画像コーディングアルゴリズムを研究しており、ビデオオンデマンド(VOD)アプリ用の圧縮アルゴリズムを研究していたチームの責任者でもありました。
このキャリアの経歴からもわかるように、Divakaranはインドのジョードプル大学(University of Jodhpur)で電気通信工学の学士号、そして米国・ニューヨークにあるレンセラー工科大学(Rensselaer Polytechnic Institute)で電気工学の博士号を取得しており、特にマルチメディアコンテンツ解析の分野においては頭角を現していました。そして、2011年にはIEEE(米国電気電子学会)のFellow受賞者となっています。
IEEEが評価したDivakaranの業績は、機械認識した大歓声からスポーツのハイライトシーンをビデオから自動的に抽出する技術と、MPEG-7のモーションアクティビティディスクリプタに関する取り組みの一環として、動画のシーケンス内で人間の動き(アクション)を知覚する実験的および理論的枠組みをしっかりと確立したことでした。
SRIの成功を先導する
SRI入社後もDivakaranは実績を残し続けており、2020年当時で60件超の特許、2冊の書籍、120件超の出版物を手掛けています。
2017年にテクニカルディレクターに昇格し、現在はシニアテクニカルディレクターとして引き続き研究グループを統括しています。
DivakaranはSRIの多くのプロジェクトで主任研究員を務めており、そのグループはソーシャルマルチメディアの解析や人間の行動に関するマルチモーダルモデリングと解析、バーチャルリアリティを活用したインタラクティブなトレーニング、機械学習の応用、群衆内での個人の追跡、複数カメラによる追跡、動画内で検知したイベントの音声解析など、最先端の研究に取り組んでいます。
「私たちは、より高度でリスクの高いプロジェクトを手掛けたいという顧客と共に取り組んでいます。私たちは、先進的なプロトタイプを対象とした助成金を獲得していますが、この過程においても基礎科学の研究も行っています。SRIの大半の社員がそうであるように、課題に取り組み、実世界で役立つ解決策を見出すことに重点を置いています。SRIは、産業界と学術界の中間地点に位置する独特な存在です。学術界のような質の高い研究を行う能力があり、かつ産業界が何を求めているかを理解できる実用的な側面もあります。」とDivakaranは述べています。
番組の司会をつとめるSRIの当時マーケティング・コミュニケーションの責任者であったReenita Horaに、ビッグデータやマルチモダリティ、ソーシャルメディアが与える影響、そしてこれらがいかにロボットナビゲーションと関連しているかについて語るDivakaran
Divakaranとそのチームは、米国防高等研究計画局(DARPA)などの政府機関からトヨタ自動車株式会社などの民間企業に至るまで、幅広い顧客と共に働いてきました。また、ある分野の開発が他分野の知見につながるなど、様々な研究モデルが交差するところが非常に興味深いとのことです。
例をあげると、DivakaranのグループのシニアテクニカルマネージャーであるAmir Tamrakarが率いたSRIのチームは、DARPAと手掛けていた社会的相互作用に関するトレーニングやバーチャル環境、非言語的行動計測などを中心に取り扱ったプロジェクトを、トヨタや米国連邦道路管理局(FHWA)と取り組んだドライバーの行動分析に関するイニシアチブなどのプロジェクトに応用できるようにしました。「これは、私たちのテクノロジーの軌跡が、どのように流れていくかを示す良い例です。」と、Divakaranは述べています。
Divakaranとそのチームはまた、2020年には機械学習を実世界(リアルワールド)のデータに応用する新しいアプローチも模索していました。これは、当時開発されたNeural ODE(ニューラル常微分方程式、もとはトロント大学のDavid Duvenaudが考案)を使って実際の物理システムの予測解析を行っていました。「ニューラルネットワークのソリューションは計算によるものですが、Neural ODEでは解析という観点から物事を理解できるかもしれないと思っています。」とDivakaranは説明しています。
現在手掛けているプロジェクトや、これからのものについては多くを語ることができませんが、その一端を垣間見せてくれました。それはニューラルネットワークを、制御システムや人間がマルチモーダルコンテンツを理解するモデリングに応用する研究が進行中であるとのことです(2020年当時)。
また、Divakaranは研究に取り組み、自身のチームを率いるだけでなく、研究者の間のコミュニケーションにも貢献しています。SRIのあるグループのアイデアや発展が他の分野のグループにも伝わるようなパイプ役を担っているのです。「私は情報を広げるような存在でありたいと思っています。全員が価値の高いコミュニケーションに最大限参加できるようにしたいと思っています。」とDivakaranは述べています。
仕事を離れると、Divakaranは自身が興味を持つ音楽に打ち込んでおり、2003年からはヒンズー教徒の有名な歌手であるKumkum Sanyalに師事しています。 Divakaranのウェブサイトでは、聴く価値のある彼の歌声を聴くことができます。
その歌声から伝わってくる情熱は、Divakaranがこれまで培ってきたエネルギーや感情とも重なり、その素晴らしいキャリアを通してブレークスルーの道を切り拓いてきたかのようです。Divakaranは、特にSRIで自身のキャリアを今後も続けていきたいと強く思っています。「私たちは、非営利という非常に魅力的なミッションを掲げています。実際に役に立つものを作り出そうとしていますが、これは、常に新しい解決策を追い続けるという、科学的探求の精神に根ざしているのです」。とDivakaranは述べています。
※こちらのブログ記事は2020年11月に公開された英語ブログの翻訳です。