英語: Hallucination
概要
ハルシネーション(Hallucination)は、大規模言語モデル(LLM)などの生成AIが、事実とは異なる情報や、文脈と無関係な内容を、あたかも真実であるかのように生成する現象です。AIは「次に続く確率が高い言葉」を選択して文章を構築するため、知識の欠落を埋める際にもっともらしい「嘘」をつくことがあります。
ハルシネーション(Hallucination)は、大規模言語モデル(LLM)などの生成AIが、事実とは異なる情報や、文脈と無関係な内容を、あたかも真実であるかのように生成する現象です。AIは「次に続く確率が高い言葉」を選択して文章を構築するため、知識の欠落を埋める際にもっともらしい「嘘」をつくことがあります。
主な原因(発生の背景)
AIが「もっともらしい文章を作る」という本来の役割を全うしようとした結果、副作用として発生します。
- 情報の補完:
知識が不足している部分を、学習済みの確率分布に基づいて「ありそうな言葉」で埋める。 - 対話の継続:
ユーザーの問いに対して「答えられない」と判断する手前で、文脈に沿った回答を優先して生成する。
内部構造(メカニズム)
AIの内部では以下のようなプロセスで発生します。
- 次トークン予測の偏り:
統計的に出現頻度の高い単語を優先して連結するため、事実関係よりも「文章としての自然さ」が優先される。 - 学習データのバイアス:
トレーニングデータに含まれる誤情報や、矛盾する情報をそのまま学習してしまう。 - コンテキストの混濁:
入力された指示(プロンプト)が複雑な場合、条件を一部無視したり、別の知識と混ざったりする。
具体的な事例
- 実在しない参考文献の提示:
論文名やURLをそれらしい形式で捏造する。 - 歴史や事実の歪曲:
実在しない事件や、人物の経歴を詳細に語る。 - 計算・論理の誤り:
数学的な計算過程で、途中の数字を「それっぽい数字」に置き換えてしまう。
リスクと注意点
- 情報の誤拡散:
AIの生成した内容を鵜呑みにして公開・共有することで、フェイクニュースの起点となる。 - 信頼性の低下:
企業のカスタマーサポート等で発生した場合、ブランドイメージの毀損に繋がる。 - ファクトチェックの必須化:
常に「AIは嘘をつく可能性がある」という前提での運用が求められる。
ハルシネーションの抑制方法
現状、完全にゼロにすることは困難ですが、以下の手法で大幅に軽減可能です。
- RAG(検索拡張生成)の導入:
AI内部の知識ではなく、信頼できる外部データベースや社内資料を参照させる。 - プロンプトエンジニアリング:
「ステップバイステップで考えて」「知らない場合は『知らない』と答えて」と明示する。 - Few-shotプロンプティング:
正解の例をいくつか提示し、回答の型を固定する。 - パラメータ調整:
temperature(温度感)を下げ、回答のランダム性を抑える。
関連用語
- LLM(大規模言語モデル)
- RAG(検索拡張生成)
- グラウンディング(根拠付け)
- プロンプトエンジニアリング
- トークン
コメント