OpenAIの新型推論モデル「o3」「o4-mini」、ハルシネーション問題が悪化していると指摘

OpenAIの新型推論モデル「o3」「o4-mini」、ハルシネーション問題が悪化していると指摘

4

OpenAIが今月リリースした最新の推論AIモデル「o3」と「o4-mini」で、事実と異なる情報を生成する"ハルシネーション"の発生率が従来モデルよりも高まっていると指摘されています。

OpenAIの内部テストによると、同社の最新推論モデルo3とo4-miniは、従来の推論モデル(o1、o1-mini、o3-mini)や通常のGPT-4oなどの「非推論」モデルと比較して、より頻繁にハルシネーションを起こすことが判明しました。

OpenAIのテクニカルレポートによると、o3とo4-miniを対象にPersonQAという評価データセットでハルシネーションに関するテストを実施。以下のような結果となったと報告されています。

PersonQA におけるハルシネーション評価結果
モデル 正答率
(高いほど良い)
ハルシネーション率
(低いほど良い)
o3 0.59 0.33
o4-mini 0.36 0.48
o1 0.47 0.16
  • o4-mini は o3 や o1 に比べて大幅に低い正答率となり、ハルシネーション率も最も高かった。
  • 小型モデル(o4-mini)は一般的に知識量が少ないため、ハルシネーションが多くなる傾向にある。
  • o3 は o1 よりも多くの主張をする傾向があり、その結果、正確な情報の提供が増える一方で、誤った情報(ハルシネーション)も増加する傾向にある。

OpenAIは、「この結果の原因を理解するには、さらなる研究が必要である」と報告しています。

OpenAIの広報担当者はTechCrunchに対し、「全モデルにおけるハルシネーションへの対処は進行中の研究分野であり、精度と信頼性の向上に継続的に取り組んでいる」とコメントしています。