人工知能(AI)は私たちのことを本当に理解しているのだろうか?


SRIの研究者たちは、概念の「一貫性」と呼ばれる新しい測定指標を開発して、AIがどれほど理解しているかを測定


見るコンピューターやおしゃべりするチャットボット、そして指示に応じて絵を描くアルゴリズムなど、世界はようやく人工知能(AI)の真の可能性を垣間見ることができるようになってきました。しかし、それと同時にこのようなアプリケーションは本当にインテリジェントなのか、という議論も巻き起こっています。これは、人間とはどのような存在なのかという核心に関わる問題でもあります。つまり、周囲の世界を理解してアイデアや言葉とその他新しいものを創造し、自己認識を持つことができる存在であるということです。

SRIのCenter for Vision Technologies(ビジョンテクノロジーズセンター)のVision and Learning Laboratoryにてシニアテクニカルディレクターを務めるAjay Divakaranが率いる研究チームは、「AIははたして、この世界についてどれほど『理解している』のか?」という刺激的な問いに答えを出そうとしています。Divakaranとその同僚であるMichael CogswellとYunye Gong、元インターンのPritish Sahu、セントラルフロリダ大学のYogesh Rawat教授と博士課程学生のMadeleine Schiappaは、人工知能がどの程度「知っているか」を計算する方法を開発し、これを「概念の一貫性(conceptual consistency)」と呼ぶことにしました。

「ChatGPTやDALL-Eなどのディープラーニング・モデル(深層学習モデル)は、人が行う多くのタスクに関してはかなり人に近いパフォーマンスができるようになってきてはいますが、それが単に機械的な記憶によるものなのか、それとも世界の仕組みに関する真のコンセプトモデルを用いて実施しているのかは、明らかになっていないのです。」とDivakaranは述べています。
Divakaranはこの研究チームの論文から、画像を評価・説明するように訓練した視覚・言語(V+L)モデルの例を紹介してくれました。概念的に一貫したモデルであれば、「人間で飾り付けられた雪」という描写はありえないだけでなく、不可能だとわかるはずです。同様に、これに類似したモデルは、画像から文脈的な手がかり、例えばある椅子が浜辺に置かれていることを理解することで、その椅子がただの椅子ではなくビーチチェアであることを肯定的に理解できるはずなのです」、とDivakaranは言います。

一見するとシンプルでも、論理と推論がこのようにクリエイティブに飛躍することが人間の知能の特徴であり、自律走行車や航空機のような人命に関わる用途に使用できるような、真に知的なAIには不可欠である、とDivakaranは述べています。このような用途では、AIは単なる記憶に頼るのではなく、周りの世界を理解しなければならないのです。AIの開発者にとって、これはアプリケーションの信頼性を向上させるのに役立つのではないか、と研究者たちは期待を寄せています。

「私たちはこの重要な相違点をテストできる方法を開発しました。AIの能力をいつ信じてよいのか、また、どのような時にAIに対して懐疑的になり、このようなまだ新しい技術を使用する際は保守的になる必要があるのかについてを評価するにあたり、この方法を使用できます。」とDivakaranは説明しています。

概念の一貫性は、判定される出力がChatGPTのように言語であっても、また、DALL-Eや写真の中のものを「見て」識別する他のアルゴリズムのように画像であっても機能します。Divakaranたちは、これを「マルチモーダルモデル(multimodal models)」と呼んでいます。自律走行車に使用されるコンピュータービジョンのアルゴリズムは、周辺世界にある物体を見ることができるとともに、それが何であるかを理解し、その物体にどのように反応すべきかの理由付けができなくてはなりません。

「概念の一貫性の最も基本的なレベルでは、関連する背景情報の知識をもって、AIがこの後に続く質問に正しく回答できるかどうかを測定します。概念の一貫性は、AIの理解の深さを測ることができます。」とDivakaranは述べています。

ある論文で、Divakaranとその共同著者は、「山は高いものですか?」という質問を例として示しています。大規模言語モデル(LLM)は、シンプルに「はい」と正しく答える可能性が高いです。これは良いことではあり、特に驚くべきことではありません、とDivakaranは述べています。より重要であり、かつ真の知性を示すのは、モデルの山に関する理解が一般化されているかどうか、つまり概念の一貫性ができているかどうかなのです。概念的に一貫性のあるモデルは、山についてもっと難しい質問にも正しく答えることができるはずなのですが、多くの場合、深く追求すればするほど、大規模言語モデルの概念に関する一貫性は失われていきます。

懐疑論者たちは、LLMが既存の知識基盤からしか答えを見出すことができず、それゆえトップレベルの人の頭脳のようにクリエイティブに飛躍したものや、まったく関連のないところから新しいものを生み出すことはできないのではないかというのが、大きな懸念であり、未解決の問題であると主張しています。

「LLMの記憶とはLLM自身が持ち得て自由に使えるデータのみに限られたものであり、訓練に使われたデータを模倣しているにすぎず、これまで他の人が行ってきたパターンを認識しつつ、確率を使って言葉やアイデアを組み立てているのです。」とDivakaranは説明しています。

簡潔に言うと、AIは自ら頭脳を有しているのではなく、人の頭脳がすでに生み出したものを繰り返している、もしくは、おそらく再編成しているだけなのだろうということです。SRIのチームは、背景知識を測定し、与えられたトピックに関する質問に正しく答えるモデルの能力を予測し、そのモデルの関連する背景知識が与えられたタスクを実行する能力と矛盾するのか否かを定量化することにより、概念の一貫性を計算しています。

Divakaranは実験で、いくつかの興味深い結論に達しています。背景情報に関するモデルの知識は、どの質問に正しく答えられるかを予測する時に使用できます。また、一般的にはモデルの規模が大きくなればなるほど、概念の一貫性は高まります。「より大きなモデルは、より正確であるだけでなく、より一貫性を備えている」と、Divakaranと共著者は最近のある論文に記載しています。ChatGPTを支えるLLMのGPT-3は、中程度の概念の一貫性を示していますが、マルチモーダルモデルはまだこれに関して厳密に調査されていません。

「少なくとも、概念の一貫性はAIを信頼しても安全なときと、懐疑的なアプローチが必要な時を理解するのに役立ちます。」とDivakaranは述べています。


Read more from SRI