ハルシネーション

英語: Hallucination
概要
ハルシネーション(Hallucination)は、大規模言語モデル(LLM)などの生成AIが、事実とは異なる情報や、文脈と無関係な内容を、あたかも真実であるかのように生成する現象です。AIは「次に続く確率が高い言葉」を選択して文章を構築するため、知識の欠落を埋める際にもっともらしい「嘘」をつくことがあります。

主な原因(発生の背景)

AIが「もっともらしい文章を作る」という本来の役割を全うしようとした結果、副作用として発生します。

  • 情報の補完
    知識が不足している部分を、学習済みの確率分布に基づいて「ありそうな言葉」で埋める。
  • 対話の継続
    ユーザーの問いに対して「答えられない」と判断する手前で、文脈に沿った回答を優先して生成する。

内部構造(メカニズム)

AIの内部では以下のようなプロセスで発生します。

  • 次トークン予測の偏り
    統計的に出現頻度の高い単語を優先して連結するため、事実関係よりも「文章としての自然さ」が優先される。
  • 学習データのバイアス
    トレーニングデータに含まれる誤情報や、矛盾する情報をそのまま学習してしまう。
  • コンテキストの混濁
    入力された指示(プロンプト)が複雑な場合、条件を一部無視したり、別の知識と混ざったりする。

具体的な事例

  • 実在しない参考文献の提示
    論文名やURLをそれらしい形式で捏造する。
  • 歴史や事実の歪曲
    実在しない事件や、人物の経歴を詳細に語る。
  • 計算・論理の誤り
    数学的な計算過程で、途中の数字を「それっぽい数字」に置き換えてしまう。

リスクと注意点

  • 情報の誤拡散
    AIの生成した内容を鵜呑みにして公開・共有することで、フェイクニュースの起点となる。
  • 信頼性の低下
    企業のカスタマーサポート等で発生した場合、ブランドイメージの毀損に繋がる。
  • ファクトチェックの必須化
    常に「AIは嘘をつく可能性がある」という前提での運用が求められる。

ハルシネーションの抑制方法

現状、完全にゼロにすることは困難ですが、以下の手法で大幅に軽減可能です。

  • RAG(検索拡張生成)の導入
    AI内部の知識ではなく、信頼できる外部データベースや社内資料を参照させる。
  • プロンプトエンジニアリング
    「ステップバイステップで考えて」「知らない場合は『知らない』と答えて」と明示する。
  • Few-shotプロンプティング
    正解の例をいくつか提示し、回答の型を固定する。
  • パラメータ調整
    temperature(温度感)を下げ、回答のランダム性を抑える。

関連用語

  • LLM(大規模言語モデル)
  • RAG(検索拡張生成)
  • グラウンディング(根拠付け)
  • プロンプトエンジニアリング
  • トークン

コメント

タイトルとURLをコピーしました