近期,ChatGPT及其同类AI产品的能力进步显著,但用户逐渐意识到这些智能助手有时会提供错误信息,甚至能编造出看似合理的答案,且态度一本正经。
根据OpenAI官方数据,在专门用于检测AI“幻觉”的PersonQA测试中,o4-mini的准确率低于其前代o1和o3,编造答案的频率更是o1的三倍。而性能更强的o3虽然整体准确率有所提升,但其编造答案的概率也比o1高出两倍。研发团队表示,尽管他们为模型加入了图像分析和联网检索能力,但仍无法解释为何升级后的产品更容易产生不实信息。
值得注意的是,这些新模型展现出了巨大的潜力,如通过照片定位拍摄地点、深度解析网页信息以及构建复杂的逻辑链条。然而,就像脱缰的想象力,它们在推理过程中往往会夹杂虚构内容。OpenAI的工程师们至今未能找到解决这一技术难题的方法。
在实际应用中,o4-mini有时会过早地给出结论,这可能意味着在信息加工过程中存在某种程度的失真。因此,在可预见的未来,对AI输出的审慎核查仍将是一项必要的工作。在追求智能的道路上,真实与幻象之间的界限往往十分微妙。