Siriの誕生秘話 〜如何にしてコンピューターに声をもたらしたのか〜
「75年間のイノベーション」シリーズでは、SRIが設立された1946年から現在に至るまでの数々の画期的なイノベーションを取り上げます。SRIの英語ブログでは、2021年11月の75周年を迎える日まで、毎週1つずつイノベーションに関する記事をリリースしていきます。この日本語ブログでは、その中からいくつかを日本語にてご紹介します。
「スーザン、こんにちは。調子はどうですか?」—2020年、AppleのiPhoneからSiriの声がします。
映画『Her(邦題:Her/世界でひとつの彼女)』では、ホアキン・フェニックス演じる孤独な男性セオドアが、人工知能(AI)で動くバーチャルアシスタントに恋をします。この物語に登場するバーチャルAIアシスタント「サマンサ」は、どんどん「人間らしさ」を増していき、セオドアの人生の困難な時期には声で励まし、乗り越える手助けをします。
この映画は作り話かもしれません。しかし私たち人間は社会的動物であり、出会うすべてのものを擬人化するのが得意です。犬から車に至るまで、すべてを対象にして声や性格を作りあげることができます。従って私たち自分自身をコンピューターに投影し、自分の声で指示や会話ができるという現状は驚くことではありません。
世界初の音声によるバーチャルアシスタント「Siri」は、人工知能(AI)に基づく技術を使って応答しますが、より「人間らしく」コンピューターとやり取りをしたいという思いから生まれました。現在はAppleのiPhoneに不可欠な機能となったSiriですが、SRIインターナショナルがその生みの親なのです。
それでは、Siriの歴史を振り返ってみましょう。
Siriの誕生:先駆的技術の連携
Siriの開発にあたり、先駆的技術が連携されました。
Siriという革新的技術の開発に向けて、チームは音声認識と自然言語処理(Natural Language Processing:NLP)を組み合わせて利用しました。これらの技術を使って、Siriが質問に答える訓練が行われたのです。訓練ではまず初めに「ヘイ、Siri」という起動させる為のフレーズを言った後に質問をします。例えば「Siri、メンローパークの今日の天気は?」などです。すると合成オーディオファイルがリモートサーバーに送信され、音声認識ソフトウェアによって会話がテキスト化されます。その後、それらの言葉は自然言語処理ソフトウェアに送られ、解釈が行われます。
イノベーションと新領域への跳躍は、解釈を行うステージで起こりました。
言語は複雑なので、1つの文章が複数の意味を持つことがあります。また、同じことを話すのにも多くの表現があり、アクセントも解釈を一層難しくします。
DECIPHERと呼ばれるプロジェクトにおいて、SRIインターナショナルの新たな開発結果はNLP分野に進展をもたらしました。このプロジェクトはSRIのスピンオフ企業であるニュアンス・コミュニケーションズ(Nuance Communications)が開発した高度な音声認識技術の発展に貢献し、後にこの技術がSiriに応用されました。
Siriの背後にあるNLPのソフトウェアは、Siriが人間の言葉の持つ複雑なトーンやアクセント、意図が認識できるよう訓練します。その訓練では、実際に人が話す音声の大量なデータを併用しつつ、機械学習とディープラーニングのAIサブセットを利用しています。人間の言語を解釈できるようになったことは、一般消費者が有効に利用できるパーソナルなデジタルアシスタントの開発において、成功への大きな足掛かりとなりました。
テクノロジーの歴史におけるSiriの存在
米国防高等研究計画局(DARPA)による「認知」ソフトウェアのアイデアを前進させるプログラムが、Siriの開発を促進しました。当時、認知コンピューティングシステムの開発を目指していたDARPAのプログラムの一環として、「知覚能力を持ち学習するアシスタント」(Perceptive Assistants that Learn:PAL)の研究が行われていました。SRIインターナショナルは2003年にDARPAから2,200万ドルの契約を受注し、PALプログラムにおいて認知機能を持つパーソナルアシスタントの開発に携わることになりました。SRIはこのプロジェクトに「学習し考察する認知主体」(Cognitive Agent that Learns and Observes:CALO)と名付けました。
その後、SRIインターナショナルはSiriの開発を専門に手掛ける子会社としてSiri社(Siri, Inc)を設立しました。2010年にAppleがSiri社を買収し、2011年には一体型のデジタルアシスタントとしてSiriがiPhone 4Sに搭載されました。
コンピューターが生成した音声が、どのようにして私たち人間に行動を起こさせることができるようになったのか?
Siri社のアダム・チェイヤー(Adam Cheyer)は、インスピレーションを得るために、SRIインターナショナルの自分の机の上にダグラス・エンゲルバート(Douglas Engelbart)の写真を飾っていたそうです。エンゲルバートは、その数十年前にコンピューターのマウスを発明した人物であり、優れた先見性を持ったSRIの社員でした。Siriは「ヒューマン・コンピューター・インタラクション」(人とコンピューターの相互作用)が高度に進化したものであり、使いやすいコンピューターマウスと同じイデオロギーから生まれました。「人間優先」の設計理念のもと、人間同士のやり取りをシミュレーションすることで先端化した技術なのです。
ともかく、Siriは画期的でした。コンピューター音声が世の中に登場し、その(男性の/女性の)心地よい口調から、音声認識による新たなパーソナルデジタルアシスタントが生まれました。音声コマンドは、「ヒューマン・コンピューター・インターフェイス(HCI)」(人間とコンピューターがやり取りするための装置)開発の一分野であり、人間にとって極めて自然に感じられるものです。音声デジタルアシスタントのグローバル市場は、2025年までに77億ドルまで成長する見込みです。人間の声には大きな力が備わっています。進化の歴史を見ても、話し言葉のコミュニケーション能力は、これまで私たち人類に大きく関わってきました。SRIインターナショナルがNLPと音声認識の分野にもたらした革新的技術を使い、Siriはコンピューターの無言の世界に音声を与えたのです。
追記: Siriは「Speech Interpretation and Recognition Interface」の頭文字を取ったものとよく誤解されますが、Siriの開発チームは一貫して否定しています。実際は、簡潔で珍しい名前をつけたいと思っていたSiri社の共同創設者ダグ・キトラウス(Dag Kitlaus)が、スカンジナビアの無名の女性の名前である“Siri”を提案したのです。
Siriに関連する出典情報:
AppleのSiriに関するページ:https://www.apple.com/siri
DARPAのSiriに関するページ:https://www.darpa.mil/about-us/timeline/personalized-assistant-that-learns
プレスリリース「SRI、2200万ドルでパーソナル認知アシスタントの開発を受注」:https://www.businesswire.com/news/home/20030716005586/en/SRI-International-Awarded-DARPA-Contract-Develop-New
「SRIのDECIPHERシステム」マイケル・コーエン(Michael Cohen)ほか著、SRIインターナショナル・スピーチリサーチプログラム(Speech Research Program)、1989年2月:https://www.researchgate.net/publication/234810357
WSJ「Apple、音声による検索機能の強化に向けてSiri買収」2010年:https://blogs.wsj.com/digits/2010/04/29/apple-moves-deeper-into-voice-activated-search-with-siri-buy/
Apple Insider「ニュアンス(Nuance)、AppleのSiriに自社の音声技術が使用されていることを認める」2013年:https://appleinsider.com/articles/13/05/30/nuance-confirms-its-technology-is-behind-apples-siri
Zion market Research「2025年までの音声アシスタントのグローバル市場について」:https://www.globenewswire.com/news-release/2019/05/10/1821574/0/en/Global-Voice-Assistant-Market-Will-Reach-USD-7-7-Billion-By-2025-Zion-Market-Research.html
AppleによるSiriに関するプレスリリース、2011年:https://www.apple.com/uk/newsroom/2011/10/04Apple-Launches-iPhone-4S-iOS-5-iCloud/