悪質な情報が横行して著作者の判別が急務となっている中、SRIはこれを実現するためのツールを開発
信頼性の低い情報や欺瞞に満ちた情報が、公衆衛生や経済的幸福、そしてひどい場合は民主主義そのものを脅かしている時代においてコンテンツを誰が書いたかを立証することは、これまで以上に重要になっています。
このような状況の中、SRIインターナショナルが率いる言語学と人工知能の専門家チームは、書かれた文章から作者の身元を確実に特定できる「言語DNA(linguistic DNA)」を検証する新しい方法を開発しており、そのプログラムは「Signature」と名付けられました。
文章を書くと、物事を表現する方法、よくある文法や綴りの間違い、大文字小文字の選択、そして主義主張の組み立て方などと、どのような書き手にも一定の傾向があるものです。SRIの人工知能センターの主任研究者でSignatureのテクニカルディレクターを務めるDayne Freitagは、「このようなパターンは言語学的なDNAであり、紛れもなく不変なものです。AIを使ってこのパターンを見つけ出し、ある文章の著者が誰であるかをほぼ正確に判断することができます。」と述べています。
Freitagによると、Signatureは双方向にて判別可能です。著者名が明らかになっている文章の作者が本当に当人であるかを判別できますし、また、匿名で書かれたものの著者を特定することも可能です。
次世代のツール
Signatureは、匿名の著者の文体や句読点、言い回し、平均的な単語の長さ、語彙の豊富さなどのパターンを調べて評価する能力を備えており、計量文献学として知られる言語学研究の一分野だとFreitagは述べています。しかし、140文字のツイートの世界では計量文献学にも限界があります。
Freitagとそのチームは計量文献学の枠を超えてSignatureの開発を進めてこれを実現させるべく、先日、米国情報高等研究開発活動(Intelligence Advanced Research Projects Activity:IARPA)のHIATUSプログラムから複数年の契約を獲得しました。
Freitagは、SRIのAaron Lawson、ダンディー大学(the University of Dundee)のChris Reed教授、ジョージア工科大学(Georgia Institute of Technology)のAlan Ritter教授とWei Xu教授、ワシントン大学(the University of Washington)のYulia Tsvetkov教授、ジョージタウン大学(Georgetown University)の言語学者である Natalie Schilling氏、Uncharted Software社のAdam Bradley博士、PANカンファレンスの創設者で帰属性の専門家であるBenno Stein教授にて構成されるチームを率いることになります。
Signatureのチームは文体の特徴に加え、著者の議論の癖を検証する新しいアプローチを採用する予定です。これはFreitagが「談話分析(discourse analysis)」と呼ぶ研究分野で、IARPAのサブコントラクターであるダンディー大学のメンバーと共同研究を実施します。
談話分析によって明らかになるパターンは習慣的なものであり、これは文体のパターンよりも意識的でないため、著作者の帰属性としては計量文献学よりも信頼性が高いとされています。また、テキストの意味を損なわずに、意識的に模倣したり、マスキングしたりすることも難しいのです。
「我々の知る限り、これらのハイレベルな談話の特徴を著者の判別に活用したのはSignatureが初めてですが、現時点ではその可能性はまだ表面的なレベルでしか見いだせていない。」とFreitagは述べています。これに関して、ダンディー大学の研究チームは、談話分析に貢献できると考えられる、少なくとも700の修辞パターン(一部はアリストテレスの時代までさかのぼる)をすでに判別しています。これらのパターンはすべて計算可能なわけではありませんが、まだ未解明のパターンを加えれば、その特徴の組み合わせを数千にも増やすことができるのではないかとFreitagは考えています。
決め手となる特徴
AIが新しく進出している多くの分野と同様に、与えられるデータが多ければ多いほど確率の精度は高くなります。しかし、Freitagとそのチームは、短いテキストや比較するコンテンツが少ない場合でも正確な予測を行う方法を見つけ出しています。著者の候補が何百万人もいる世界では、こうしたツールが決定的な意味を持つかもしれません。
このようなテクノロジーは、法執行、著作権侵害や盗作、プライバシー保護などの課題に役立つ可能性があります。プライバシー保護については、Signatureのようなプロジェクトが著者の傾向を把握し、文章の元来の意図を保ちつつ著者の身元をマスキングするような変更を提案するアプリにつながるかもしれないとFreitagは考えています。さらに話題性のあることとしては、ChatGPTのような生成AIアプリが「書いた」コンテンツを識別し、学術的な場や大学の入学願書で偽造されたエッセイを見抜くためにSignatureが活用できる可能性もあります。
「ソーシャルメディア全盛の、瞬間的かつ匿名のグローバルコミュニケーションが盛んな時代において、著者の帰属性はこれまで以上に重要なことなのです。Signatureの潜在的な応用範囲は非常に広いのです。」とFreitagは述べています。