在計算機領域,作為算法的其中一類,大型語言模型的用途日益廣泛。它可以學習數十億個單詞和短語之間的統計關聯,并完成語言翻譯、摘要生成、文本分類和問題解答等任務。
這類模型采用了一種名為“神經網絡”的靈感架構,通過不斷調整那些被稱為參數的值來執行模型訓練,并以抹去文字的方法,完成現實與預測結果之間的比對。
完成訓練后的模型不僅可以自動生成美好的詩歌,還能正確回答很多生活中會遇到的小問題,在一定程度上給予了人們較大幫助。
不過,目前的語言模型并沒有感知語言意義的能力,因此,模型在執行任務的時候,可能發生“胡言亂語”的情況。更令人擔憂的是,模型在選擇源頭學習數據時存在局限性,會給之后的工作帶來嚴重的倫理缺陷或實踐缺陷,比如泄露私密數據、提供錯誤信息、助長虐待或偏見等。因為大多數此類模型由大型科技公司開發,其內部工作原理并不對外展示,所以,想要解決上述問題并不容易。

為了克服這些難題,打破大型科技公司對自然語言處理的壟斷,減少可能出現的有害影響,一個名為“BigScience”的國際合作項目推出了BLOOM模型的早期版本,希望它能有助于減少人工智能語言模型的有害輸出。
BLOOM模型是第一個大規模多語言模型,擁有1760億個參數,并由數百名研究人員完成,其中大部分是學者,包括哲學家、法律學家和倫理學家,也有一些來自臉書、谷歌等公司、以個人身份參與工作的員工?!?br>