画像センサーの画素の間にコンピュータープロセッサを組み込む

IP2は、自動運転の車にとって何が重要で何が重要でないかの判断を支援する

ミクロサイズのコンピューターは、自律走行の車やロボット、またその他の「見る」装置で生成される大量の画像データの処理を高速化する


最近、スピードが要求されるコンピューティングタスクにおいて、コンポーネント間で電子を伝送するのに必要な時間(ほぼ光速)と、そのデータを伝送するのに必要なエネルギーがコンピューターのパフォーマンスの大きな足かせとなっています。この分野はエッジ・コンピューティングとして知られていますが、この名称は各コンポーネントが隣のコンポーネントにギリギリまで近接し、文字通り、互いの「エッジ(端)」に位置していることに由来し、転送時間とエネルギー需要を削減するためです。

この目標に向けて、SRIの研究者たちは米国防総省の国防高等研究計画局(DARPA)との契約のもと、画素内画像処理(in-pixel image processing:略してIP2)と呼ばれる次世代のアプローチを開発しました。これは、画像ベースでデータを多用するアプリケーションの計算を高速化しつつ、より少ないエネルギーで動くようにするものです。

SRIのCenter for Vision TechnologiesのVision Systems Labに所属するシニアテクニカルマネージャーであり、IP2の主任研究員を務めるDavid Zhangは、「私たちは画像センサーの画素の間に挟み込むことができる超小型コンピュータープロセッサのシミュレーションを実施しました。画像グリッドの4画素がそれぞれ、専用のプロセッサで囲まれています」と述べています。

リスクの高い分野への応用

このようにデータ集約的な一般の応用例として、収集するデータの量と迅速な処理の重要性が相対的に極めて高い自動運転の車が考えられます。というのも、これは人の命に関わることだからです。このような分野で使われるカメラでは、光を取り込む画像センサーとデータを処理するチップが、現在すでに背中合わせでサンドイッチ状になっています。しかし、これほど距離が近くても不十分なのです。主任のZhangをはじめとするコンピューター・ビジョンの技術者たちは、このような超高速のトランザクションをさらに高速化する方法を模索し続けています。

IP2はこの分野で次の進化の段階にあり、画素そのものに処理能力を付与します。距離がこれほど近いため(距離がないため)、送信しようとするデータの価値をコンピューターがミリ秒単位で判断し、重要な画素とそうでないものをタスクベースで分離することで、次のチップで処理するデータ量を減らせる、とZhangは言います。

これの中核となるテクノロジーの原理は、フォトニック信号 (photonic signals) を取り込むセンサーが、これまでの動画フレームから生成される予測フィルターを介して判断を下すということです。このフィルターは、どの画素(例えば、画像内のオブジェクト)に意味があり、どれに意味がないかを判断します。そして、この整理されたデータが先読み制御AIモデルを実行するエッジプロセッサに送られます。なお、このプロセッサは画像センサーの真後ろにあります。

Zhangによると、このように多くの画像から意味のある画像をより分ければ、画像センサーやプロセッサはこれまでより格段に効率的なデータ処理とエネルギー使用が可能になります。IP2はシミュレーションで帯域幅を10分の1に縮小するとともに、パワーとスピードは10倍超に向上させています。

IP2が提供する斬新な方法は、画像センサーがどこを見るべきか、何を見るべきか、どのように見るべきかを教えてくれます。– David Zhang

「基本を説明すると、まず画素の周りに論理ゲートを配置します。そしてセンサー自体がAI推論エンジンとなり、どのデータが重要であるか、またどのデータがそれほど重要でないかを判別することで、時間を短縮しエネルギーを削減しつつ、高精度アプリケーションで要求されるのと同レベルのインテリジェントな性能を発揮します」とZhangは述べています。

重要なポイントは

Zhangは、仮想の自動運転車で説明してくれました。このような応用例で何かの間違いが起これば、どうなるかを想像してみてください。エラーの余地があったとしても、それはあってはならないのです。ですが、一方でデータに対する要求は非常に高いことから、より高速で消費エネルギーを削減して正しい結果を得ることは同じくらい重要だとZhangは述べています。

Zhangはまた、交通量の多い市街地の道路を走る車に固定したカメラを想像してほしい、と言っています。車からは前方の道路が見えており、他の車や歩行者、そして自転車も見えています。交差点も見えています。ですが、これ以外にも車のボンネットや上空の青空、木々や建物、近隣の家の屋根も見えています。

「車やドライバー、そして近くにいる人にとって、これらはそれほど重要ではない情報です。 IP2は、処理に対する需要を緩和するため、どれを重要として扱うのか、どの優先順位を下げてもよいかの判断を支援してくれます」とZhangは述べています。

Zhangはまた、IP2がオブジェクトに対する予測を改善することで必要な情報処理とエネルギーを削減する例について話してくれました。検知されたオブジェクトは、移動しているものであれ静止しているものであれ、センサーがその軌跡を計算して予測します。その信頼性が高ければ、IP2はその物体が何であるかを見分ける必要も、各フレームでその位置を分析する必要もなくなります。その代わりに、これらに費やされるリソースは、より注意が必要な情報や未知の領域で異常を捕捉することに使うことができます。

人の目のようにみる

人間の眼の生態を模倣したこの技術は、「サッカードメカニズム (saccadic mechanism)」として知られています。IP2のサッカードを模した動作は、込み合ったシーンで処理速度が遅くなることなく、大量のオブジェクト処理を可能にしています。この画素内処理では既知オブジェクトの軌跡をすべてバックエンドの処理で管理して、次の新しい情報の重要度をより分けられるようにフィルターとして機能していることから、新規の重要なシグナルに注意を払えばよいようになっています。

画素内画像処理のおかげで残るのは、他の車や歩行者、自転車、動物、一時的に優先順位を下げてもよいオブジェクトなど、自動車が知る必要のある最も重要なデータだけになります。

「IP2が提供する斬新な方法は、画像センサーがどこを見るべきか、何を見るべきか、そしてどのように見るべきかを教えてくれます。これは、意思決定をリアルタイムに行う際に重要な情報の伝達を遅らせることなく、帯域幅を動的に調整することができるという、新次元のデータ通信です。重要な点は、コンピューターがデータのコミュニケーションコストをベースに、リアルタイムに適応しているのです。非常に高性能なテクノロジーです」とZhangはまとめてくれました。

この研究の一部は、米国防総省の国防高等研究計画局(DARPA)の資金援助を受けています(契約番号HR00112190119)。本文書に含まれる見解および結論は著者のものであり、明示または黙示を問わず、米国政府の公式方針を表明するものと解釈されないようにお願いします。

Distribution Statement ‘A’ (Approved for Public Release, Distribution Unlimited):配布ステートメント「A」(一般公開を承認、配布は無制限)


Read more from SRI