研究者たちは人間の学習からインスピレーションを得て、チャットボットが単なる統計的パターンを記憶するだけでなく文脈を理解するよう導いている
まるで人間のような自然な言語を使って質問に答えるAIプログラムのチャットボットはこの1年で一般的になってきていますが、これはAIの力の新たな応用例を示しています。
学術界や産業界では、言語タスクやマルチモーダルタスクにこのようなAIプログラムをますます活用するようになっていますが、時にもっともらしいけれども事実ではない情報を提供することがあり、非常に大きな限界がまだあります。またある時には、回答が全く奇妙で、笑ってしまうこともあります。この分野の専門家の中には、このAI現象を「幻覚: ハルシネーション (hallucination)」と呼び、これに対抗する取り組みを「脱・幻覚: de-hallucination」と呼ぶ人もいます。
正しい答えを得るための新しいアプローチ
SRIでは、研究者たちがAIの精度や信頼性、そして全体的な寄与度を高めるため、新しい「脱・幻覚」アプローチを開発しています。チャットボットが使用している大規模言語モデル(Large Language Model:LLM)の世界だけでなく、医療分野の診断支援から自動運転の自動車に至るまで幅広い応用分野でAIの有望性を実現するには、ユーザーの信頼を確立する必要があります。
LLMや関連する視覚的質問応答 (Visual Question Answering:VQA)プログラムの「脱・幻覚」化を支援するため、人間の学習(ヒューマンラーニング)からインスピレーションを得て、理解力という概念に注目ししています。このように、研究者たちは単なる統計的パターンの記憶だけでなく文脈を理解するように、そして最終的には質問とその文脈を理解するようにチャットボットを導こうとしています。
SRIのCenter for Vision Technologies(ビジョンテクノロジーズセンター)のVision and Learning Laboratoryにてテクニカルディレクターを務めているAjay Divakaranは、「チャットボットは時に意味不明な回答やあり得ないこと、あるいは単に間違った答えを返すことがあります」と述べています。Divakaranは実例をあげてくれましたが、それはクランベリーと葡萄ジュースを混ぜるとどうなるかをチャットボットに尋ねたところ、AIはこれらを混ぜると死に至ると答えたそうです。
「私たちは、AIプログラムに投げかけられた質問やタスクの文脈や背景を、人間の学習に関する要素を活用して、もっと理解できるようにするアプローチを追求しています。プログラムが人間のように、その内容を本当に理解しているわけではありませんが、人が尋ねていることをもっと完全に把握できれば、より適切に答えることができるのです」とDivakaranは述べています。
正しいこともあれば、誤っていることもある
LLMをベースとしたチャットボットや関連するAIプログラムは基本的に、例えばインターネット上や、設計者が設定するより専門的なトレーニングのセットなど、膨大な量のデータから統計的パターンを探し出して作動します。これらのAIプログラムは、人間が自然にコミュニケーションする方法で書かれた単語やフレーズ間のつながりや関連性を求めてデータを分析しているのです。
このアプローチを介して、チャットボットは合成ではありますが、独自の、かつ事実として正しいことが多いコンテンツを理解可能な言語で生成することができます。多くの場合、その回答は非常に説得力があり、人間とAIが生成したコンテンツの区別がつかないこともよくあります。
しかし、場合によっては、人を死に至らしめるクランベリーと葡萄のジュースのカクテルという誤った答えが返ってくることもあります。このケースでは、チャットボットがインターネットを検索しているときに、混ぜると危険であることを警告する材料のコンテンツパターンを見つけ、その情報をこれらのジュースに誤って適用したためにエラーが発生した可能性が高いと思われます。
このプログラムは、人間のように内容を本当に理解しているわけではありませんが、尋ねていることをより完全に把握することができれば、より適切に答えることが可能になります。
コンピュータービジョンとLLMを使用して自然言語で画像を記述するような、今日の最高性能のチャットボットやVQA (Visual Question Answering)でさえ、十分な質問をしても、意味のない回答をすることがあります。このような意味のないことが起こると、元の回答の正確さを疑うことにつながり、ひいてはAIの信頼性を損なう可能性があります。Divakaranが挙げた別の例では、チャットボットはプールに飛び込む危険性の1つは脊椎損傷であると正しく答えています。ですが、プールは何のためにあるのかという非常に単純な質問に関しては、チャットボットはまともな答えを返すことができませんでした。
「AIプログラムは、極めて難しい質問に対して非常に良い回答を返せるのに、簡単な質問には失敗するのを見ると、その非常に良い回答がどのように組み立てられたのか、そしてその回答が本当に質の高いものなのかどうかを疑問に思うでしょう」とDivakaranは述べています。
人間の学習に返る
Divakaranと同僚が現在進めている「脱・幻覚」に関する取り組みの試金石は、教育分野の分類枠組みとして昔から使用されている「ブルームの分類法: Bloom’s Taxonomy」です。この枠組みは6つの段階に分けて教育評価を記述しており、全体として学習の道筋を意味しています。最も幅広い最下層では「知識」の基礎となる暗記から、「理解」、「応用」、「分析」、「統合」、そして最終的に頂点の「評価」まで、徐々に狭くなりながらレベルが上がります。そして各レベルのこれらの名詞にはそれぞれ技能を記述する動詞が結び付けられています。
SRIの研究者は、ブルームの分類法を参考にして、理解力や認知プロセスのさまざまなレベルにわたるトレーニングのセットデータを収集し、研究を行ってきました。これらの情報はタスクを解決するのに必要な、ブルームの分類法で隣接するレベルのコンテキスト情報として機能します。SRIでは、ブルーム分類法の下位3レベルをAIチャットボットに適用しています。
チャットボットがLLMのトレーニングセットで学習を繰り返すにつれ、基本的にチャットボット自身が自問してフィードバックを返したり、別のLLMと対話したりします。質問を明確にする例として、先のクランベリーと葡萄のジュースに関する問いが「クランベリーと葡萄を混ぜたジュースは毒ですか?」となったら、その答えは明らかに「いいえ」となります。
このAIのフィードバックループによる強化学習は、すでに最先端のチャットボットの性能を向上させることが示されており、その回答はより正確、かつ有害性が低いと人間による判断がなされています。
Divakaranとそのチーム(Michael Cogswell、Yunye Gong、Pritish Sahu、Karan Sikka)は大きな進歩を目のあたりにしており、この研究を通じてAIの約束を実現する支援をしたいと考えています。「私たちはLLMを使ったチャットボットの微調整で、理解力という概念を用いてAIプログラムが正しい答えを返し、説明もできるように導きたいと思っているのです」とDivakaranは述べています。