爲什麼人工智能會產生幻覺？OpenAI的研究

Question

![綠色AI自然加密](http://img-cdn.gateio.im/social/moments-50e6fae046f72b243552c509ffd513b4)# AI爲什麼會產生幻覺？OpenAI 研究語言模型會產生幻覺，因爲標準的訓練和評估程序鼓勵猜測而不是承認不確定性。這在OpenAI的研究論文中提到。在公司中給出了以下問題的定義：> >《幻覺是由語言模型產生的看似真實但虛假的陳述。它們可能以意想不到的方式出現在對看似簡單的問題的回答中。》> > > 例如，當研究人員問“廣泛傳播的聊天機器人”關於亞當·陶曼·卡萊的博士論文題目(和文章作者)時，它自信地給出了三個不同的答案，而沒有一個是正確的。當問到他的生日時，人工智能給出了三個錯誤的日期。根據OpenAI的觀點，幻覺的存在部分是因爲現代評估方法設定了錯誤的激勵，使得神經網路"猜測"答案中的下一個符號。作爲類比，舉了一個例子，即當一個人不知道測試問題的正確答案時，但可以猜測並偶然選擇正確答案。![](http://img-cdn.gateio.im/social/moments-ea976fc9eb9ecf1547b0d54a0cda8862019283746574839201兩個模型答案的正確性比較。資料來源：OpenAI。> > "假設有人問語言模型某人的生日，但它不知道。如果它猜測是“9月10日”，正確回答的概率是365分之一。回答“我不知道”保證得分爲零。在經過千次測試問題後，基於猜測的模型在顯示屏上的表現看起來比允許不確定性的精確模型要好，" 研究人員解釋道。> > > 從準確性的角度來看，較舊的 OpenAI 模型 — o4-mini — 的表現稍微好一些。然而，它的錯誤率明顯高於 GPT-5，因爲在不確定情況下的戰略性猜測提高了準確性，但也增加了幻覺的數量。## **原因與解決方案**語言模型最初通過“預訓練”來訓練——這是在大量文本中預測下一個單詞的過程。與傳統的機器學習任務不同，這裏沒有附加在每個聲明上的“真/假”標籤。模型只能看到正面的語言示例，並且必須近似總體分布。> > «更難以區分正確的陳述與錯誤的陳述，當沒有標記爲錯誤的示例時。但即使有錯誤標記，錯誤也是不可避免的，» — OpenAI 強調。> > > 公司提供了另一個例子。在圖像識別中，如果數百萬張貓和狗的照片被相應標記，算法就會學會可靠地對它們進行分類。但是，如果每張寵物的照片都按照出生日期進行分配，這個任務總是會導致錯誤，無論算法多麼先進。同樣，文本也是如此——拼寫和標點遵循固定的規律，因此隨着規模的增長，錯誤會消失。研究人員聲稱，僅僅引入“考慮不確定性的幾個新測試”是不夠的。相反，“基於精度的廣泛使用的評估需要更新，以使其結果排除猜測的嘗試。”> > «如果主要的[評估]標準繼續鼓勵成功的猜測，模型將繼續學習如何猜測，» OpenAI表示。> > > 我們提醒，在五月份，ForkLog曾報道，幻覺仍然是人工智能的主要問題。