
OpenAIが今月リリースした最新の推論AIモデル「o3」と「o4-mini」で、事実と異なる情報を生成する"ハルシネーション"の発生率が従来モデルよりも高まっていると指摘されています。

OpenAIの内部テストによると、同社の最新推論モデルo3とo4-miniは、従来の推論モデル(o1、o1-mini、o3-mini)や通常のGPT-4oなどの「非推論」モデルと比較して、より頻繁にハルシネーションを起こすことが判明しました。
OpenAIのテクニカルレポートによると、o3とo4-miniを対象にPersonQAという評価データセットでハルシネーションに関するテストを実施。以下のような結果となったと報告されています。
モデル | 正答率 (高いほど良い) | ハルシネーション率 (低いほど良い) |
---|---|---|
o3 | 0.59 | 0.33 |
o4-mini | 0.36 | 0.48 |
o1 | 0.47 | 0.16 |
- o4-mini は o3 や o1 に比べて大幅に低い正答率となり、ハルシネーション率も最も高かった。
- 小型モデル(o4-mini)は一般的に知識量が少ないため、ハルシネーションが多くなる傾向にある。
- o3 は o1 よりも多くの主張をする傾向があり、その結果、正確な情報の提供が増える一方で、誤った情報(ハルシネーション)も増加する傾向にある。
OpenAIは、「この結果の原因を理解するには、さらなる研究が必要である」と報告しています。
OpenAIの広報担当者はTechCrunchに対し、「全モデルにおけるハルシネーションへの対処は進行中の研究分野であり、精度と信頼性の向上に継続的に取り組んでいる」とコメントしています。