新方法避免大語言模型“胡言亂語”

2024-10-03 00:00:00

文萃報·周二版 2024年37期

目前，大語言模型逐漸成為文學、法律、醫學、自然科學研究等領域中不可或缺的工具。然而，在應用過程中，大語言模型常會出現 “幻覺”現象——可能生成看似合理但實際并不準確或不真實的信息。

英國牛津大學研究團隊近日在國際學術期刊《自然》上發表論文，嘗試解決大語言模型輸出中的這種“幻覺”現象，從而提高輸出的可信性。通過評估大語言模型在特定提示詞下生成內容時的不確定性，可計算出該模型的困惑程度。作為一種警示，它提醒用戶或模型自身采取額外的循證措施，以確保更準確地輸出答案。

為了更準確衡量模型的困惑程度，該論文引入了“語義熵”概念來計算輸出的不確定性。所謂語義熵，實際上是信息熵的一種，用于衡量一個物理系統中所包含的信息量。

為了簡單理解“熵”所表示的意思，我們可以想象一個人在岔路口時作出判斷的情形：如果這個人向左走或向右走的概率相同，那么這是“熵”的最大情況，代表信息不確定性的極大值，說明這個人對前方的路完全沒有把握；而如果這個人總是選擇向左走，從不選擇向右走，則這是“熵”的最小情況，代表信息不確定性的極小值，說明這個人對前方的路完全有把握。

利用語義熵概念，研究人員對包括GPT-4和LLaMA2在內的多個大語言模型進行深入研究。結果顯示，語義熵在所有模型和數據集上的表現都非常出色，是目前用于評估模型困惑程度的最佳方法，能有效識別出大語言模型是否在“胡言亂語”。另外，通過對大語言模型進行反復提問，我們可以有效地定量計算出它對問題答案的不確定程度，并通過拒絕回答不確定的問題來提高輸出答案的整體準確度。

值得注意的是，大語言模型輸出答案具有很低的語義熵，只意味著它在其已有的訓練數據基礎上確信自己答案是正確的。這表明大語言模型有極高概率生成單一語義的句子，但這些句子是否實際正確仍無法完全保證。

（據中新社訊）

文萃報·周二版2024年37期

文萃報·周二版的其它文章: 谷愛凌收獲第15個世界杯冠軍; 西藏誕生一項新世界紀錄; 看球不讓出聲，法國觀眾出演“默劇”; “下次再戰”！張帥獲2024美網女雙亞軍; 鄭欽文備戰中國賽季; 中國代表團連續六屆殘奧金牌獎牌雙第一