近日,一道小學數學題讓AI大模型集體“失智”了。9.11和9.9兩個數字哪個更大?就此問題,國內外12個大模型之中只有4個答對了,剩下8個全都回答錯誤。一道小學數學題難倒了一眾海內外AI大模型,這在輿論場激起了不小漣漪。有人“驚掉下巴”,調侃“大模型集體翻車”;也有人質疑AI的能力邊界,甚至上手測試了一番,結果發現答案對錯都有,有些大模型能迅速“承認錯誤”,而有的則“一錯到底”。
原因總結起來有二:一是技術。大模型在分析文本時,通常會使用特定機制將文本拆分成更小的單元,然后再進行處理。這就類似于將一句話拆成一個個詞匯去理解。我們都知道,很多詞語脫離特定語境,意思可能就變了,所以會有“斷章取義”的誤解。同理,大模型的這種拆分處理,顯然不夠嚴謹。二是訓練數據。現如今,大模型更多是以文本模型進行訓練分析,在數理分析、邏輯推理上還有待優化。
素材解讀
我們要學會對技術“祛魅”,不論是大模型,還是其他人工智能技術,雖然產品琳瑯滿目,但大部分尚處在測試探索期,距離真正成熟、好用還有一定距離。所謂“祛魅”,就是保持“人間清醒”,既不過分迷信技術特質,也不盲目夸大技術功用,而是在客觀判斷和合理運用中,讓技術應用成為我們的最佳“搭檔”。
適用話題
人工智能、理性思維、客觀判斷、合理運用