生成AIをより信頼できるものにすることを目指す研究


生成AIのハルシネーションを最大32%減少させる新しいフレームワークを開発


今日の生成人工知能(GenAI、生成AI)プラットフォームは、強力ではありますが、不完全でもあります。生成AIのアプリケーションを動かしている大規模言語モデル(LLMs: Large Language Models)はもっともらしい回答を提供しているように思われますが、その回答にはAIの研究者が「ハルシネーション(hallucinations)」と呼ぶエラーが含まれていることがよくあります。

SRIの研究者たちは、特に画像解釈の領域で、生成AIの回答の精度を向上させるPelicanと呼ばれる新しいフレームワークを開発しました。

Pelicanの研究

SRIのCenter for Vision Technologies(ビジョンテクノロジーズセンター)に所属するコンピューターサイエンティストのPritish Sahuは次のように述べています。「このような大規模なモデルでも間違いは起こり得ます。そこでPelicanの出番です。Pelicanは主張(クレーム)の構成要素を細かく分解して、個々の要素を検証しようとします」

2024年のEMNLP(Conference on Empirical Methods in Natural Language Processing、意訳:自然言語処理における経験的方法に関する会議)に採択された直近の論文では、Sahuとその同僚たちがPelicanを使って、回答をより単純なサブクレームに分解し、それらのサブクレームを個別に検証したところ、5つの異なる大規模視覚言語モデル(LVLMs: Large Visual Language Models)の精度が向上したことを実証しました。この研究チームの実験では、検証した5つのLVLMs全体で、Pelicanがハルシネーションの発生率を8~32%減少させました。重要なのは、Pelicanには、あらかじめ構築された多数の分析ツールやプログラムをプラグインできる柔軟性があるということです。これらのツールやプログラムは、多くの場合、コアとなるLLMsやLVLMsよりも効率的、かつ効果的にサブクレームを検証することができます。

「Pelicanはより正確であり、かつ、より高い説明能力を備えています」―Ajay Divakaran

SRIのCenter for Vision TechnologiesでVision and Learning Laboratoryのテクニカルディレクターを務めるAjay Divakaranは次のように述べています。「Pelicanは、コード生成と実行を自然言語推論を使ってシームレスに組み合わせた初めてのソリューションを提供します。そして、タスクの分配とアウトソーシングはすべて確認可能な状態にしています」

これは、Pelicanが最終的な答えの精度を向上させるだけではなく、このフレームワークが使用した細かい質問や回答にも研究者がアクセスできるということを意味します。そのため、Pelicanの回答が誤っていた時には、研究者がサブタスクを観察して、どこでエラーが発生したのかを容易に確認することができます。

「Pelicanはより正確であり、かつ、より高い説明能力を備えています。どこでエラーが発生したのかわかるので、それを修正するために何をすべきかを具体的に理解できるのです」とDivakaranは述べています。

なぜ重要なのか

世界中のAIの研究者たちは、生成AIのハルシネーションを最小限に抑えるべく、真剣に取り組んでいます。生成AIは生産性の向上と知識へのアクセスを改善する大きな可能性を秘めていますが、生成AIの拡張性を制限しているのは、エラーが常に発生してしまうということです。これは完全に正確であることが不可欠な分野で活用する場合には特にそう言えるでしょう。

近い将来において、単一のソリューションだけでは生成AIのハルシネーションを解消することはできないだろうと思われています。その代わりに、Pelicanのようなフレームワークが生成AIツールにレイヤーとして組み込まれることにより、その精度を着実に向上させていくでしょう。

「Pelicanを紹介するにあたり、私たちは狭い範囲の具体的な課題を使用しましたが、このフレームワークは個々のサブタスクに分解さえできれば、あらゆる種類のタスクに適用できます。将来的には、Pelicanの適用範囲を広げ、より柔軟かつ強力なものにできるよう取り組んでいます」とDivakaranは述べています。


Read more from SRI