按字面意思,人工智能就是由人制造出來的機器所表現出來的智能,其最終目標是創造與人類差不多甚至高于人類智能的機器。
就像人有名字一樣,創造這些人工智能機器(目前主要是軟件形式的模型)的公司們也常常會給它們的模型起名字,比如OpenAI的人工智能機器(模型)叫GPT,它的最終產品叫ChatGPT,而Google的模型叫Gemini,最終與人聊天的產品叫Bard……這些不同維度的產物常常會被籠統地、擬人化地叫作一個個AI。
簡單說,深度學習就是讓計算機通過深度神經網絡來學習—哈,這句話中又有兩個新概念,神經網絡和學習。
理解神經網絡相對容易,你把它想象成人腦中的神經網絡就可以了,它有很多個節點(就像人腦的神經細胞),節點的層與層之間相互連接(就像大腦神經細胞之間的連接)。所謂“深度”,是指這個網絡有很多層。
在人工神經網絡中,知識以權重的形式存在。而學習,就是根據訓練數據來調整神經網絡鏈接上的權重,最終,神經網絡的學習成果就是權重。
這個詞是最近兩年才被創造出來的,與判定式AI相對,提出者不詳。2022年之前,你在市面上見過的AI基本都是判定式的,比如人臉識別的主要工作就是判斷鏡頭前的人是不是你、一封郵件是不是垃圾郵件,即當時AI只能以回答yes or no的方式來工作。
現在,ChatGPT能大段大段地回答問題,“生成”一連串的字,還有些AI可以“生成”一張一張的新圖片。與判定式AI相比,生成式AI從無到有地創造了大量新內容。這種AI創造內容的狀況被稱為AIGC(Artificial Intelligence Generated Content),與用戶創造內容(Users Generated Content,UGC)、平臺創造內容(Platform Generated Content,PGC)相對—社交媒體是典型的UGC,而機構媒體是典型的PGC。
模型學習、生成、預測的最小數據單位,就像人類語言的最小單位是字母、單詞。一個token的長度可能長于一個單詞,也可能短于一個單詞,整體而言,100個token大約相當于75個英文單詞。
看英文翻譯你應該就知道了,大模型的全稱是“大語言模型”,所以它原本指的只是語言模型。因為基于Transformer架構構建,隨著訓練數據增加,基于這種架構的語言模型會越來越大—具體表現就是參數越來越多,像GPT-3的參數量達到1750億,GPT-4的參數量雖然沒有公布,但據說有上萬億之多。而從結果上看,模型越大似乎就越智能。
不過在實際使用中,不少人在提到生成式AI的時候會用“大模型”代替,不管它生成的是圖像、視頻還是蛋白質結構,這種使用方式起初是種誤用,但正逐漸被更多人接受。
歷史常常就是這樣,很多事物的命名一開始都是有點隨意的。如果最初發現Transformer的人是研究視覺而不是研究語言的,那大模型一開始很可能指的就是大視覺模型(Large Vision Models,LVMs),而不是大語言模型了。
作為一種模型架構,Transformer會讓模型越訓越大,并且模型越大越智能。從功能上看,Transformer能處理一切可以表達為序列的東西,從自然語言到計算機代碼、從圖像像素到DNA,或者說,它可以生成帶有重復圖案或模式的所有東西。
在Transformer被發明之前,處理語言的模型、處理圖像的模型和處理DNA的模型,會采用迥異的架構(即專用模型),而Transformer出現之后,圖像也不過是另一種語言。
2017年12月,Google的人工智能團隊Google Brain中的8位工程師共同發表論文提出這一架構,論文名稱“Attention Is All You Need”(所有你需要的東西就是注意力)致敬了披頭士樂隊的《All You Need Is Love》(所有你需要的東西就是愛)。
預訓練指一個模型的初始訓練階段,在這個階段,模型會從大量數據中廣泛學習,掌握“通識”知識。若要在特定場景中有更好表現,就要讓模型學習更多特定領域的專門知識,這個階段也被稱為“微調”或“精調“(Fine-tuning)。這跟人的學習很像。在文理分科或從大學階段進入研究生階段之前,學生接受的都是通識性的預訓練,而文理分科或者選擇特定研究領域之后,學習就進入精調階段,如果繼續讀博士或成為博士后,精調程度就更高。
以OpenAI為例,其面向大眾發布的GPT-3.5(ChatGPT所基于的模型)就是一種只完成了預訓練的模型,只不過它在預訓練階段接受了更好的通識教育,因此比Google、百度、阿里巴巴等所有其他公司發布的模型(也都是預訓練模型)更有通識性的知識和推理能力。普通用戶用這種有通識知識、能推理的預訓練模型就差不多夠了,但對于企業客戶來說這樣不夠。所以當OpenAI想要將GPT-3.5銷售給各個行業的公司時—比如金融領域、法律領域、醫療領域的企業—還需要加入各領域的專業數據再次訓練。
RLHF這個詞很長,但意思很簡單,就是人工智能公司會通過招募成千上萬個人類訓練師,對AI生成的答案做“品質”排序,保證那些高質量的、符合人類價值觀的答案獲得更高排名,有更大可能性被再次生成,而那些不符合人類價值觀的答案會被排在后面,越來越不可能被再次生成。
執行這個過程的目的是“對齊”(Alignment)。這個排序過程被認為有利于提高模型智能水平,并防止AI毀滅人類。2023年11月發生在OpenAI的那場CEO罷免風波中,對CEO山姆·阿爾特曼(Sam Altman)投出反對票的公司首席科學家伊利亞·蘇茨克維(Ilya Sutskever),就是AI對齊的信仰者,并且,他追求的是“超級對齊”。
在判定式AI時代,人工智能中的人工主要花在了數據標注上,到了生成式AI時代,數據不再需要標注,但人工并沒有少,都花在了RLHF上,而且需要的是博士級別的高學歷人工。
一種信息類型屬于一種模態(Modal),語言、圖像、語音、視頻……分別是一種模態。一個模型(即一個神經網絡)如果只能根據文字要求生成另一段文字,或者只能從文生圖、從文生語音或視頻,我們就說它是單模態的模型;如果一個模型既可以生成文字,也可以生成代碼、圖像、語音、視頻……我們就說它是個多模態模型。
不過,Google發布多模態模型Gemini后,又提出了一個“原生”多模態的概念,意思是GPT-4那樣的模型是一種拼湊出的多模態,即雖然在輸出時是多模態的,在執行生成任務時,它實際將任務分配給了文生文模型GPT、文生圖模型DALL·E、語音轉文本模型Whisper等多個模型來完成……嗯,在一個行業的發展初期,爭奪概念的定義權就是爭奪話語權。
這個概念與前面的大語言模型(LLMs)相關。業內普遍認為,用大量自然語言的語料(比如人類寫過的各類文章、聊天記錄、發表過的論文)訓練出來的語言模型具有對于世界的通識,同時也具有推理能力,并且模型越大,知識和推理能力都越好。
因此部分業內人士開始認為,就像一座房子的地基一樣,要想實現通用人工智能(AGI),或者想讓一個模型具有解決各種細分領域問題的專業能力,都需要首先訓練出一個夠好的語言模型,然后在這個基礎上做加法。大語言模型應該被視為處理一切問題的基礎模型。
隨著技術發展,人們又發現當一個語言模型學習了圖片,它會變得更加智能,就像GPT-4加入了圖像訓練后,其推理能力相較于只學習了語言的GPT-3.5更強了。因此,像GPT-4這樣經過了多模態學習(不只是語言學習)的模型,也正在被視為一種基礎模 型。
與基礎模型相對應的是行業模型,華為將這兩個概念分別稱為L0層模型和L1層模型,意思是后者基于前者,這種關系類似于預訓練和精調的區別。
不過,有時候行業模型(L1)并不需要基于基礎模型(L0)的預訓練,就可以獨立訓練出來,比如DeepMind的蛋白質結構預測模型AlphaFold系列,其學習的所有數據都是與蛋白質分子和結構相關的數據,之前從來沒有學習過人類的聊天、論文或者會議報告。
基于Transformer的文生圖模型。由Stability和Runway兩家公司的創始團隊共同開發,最終被Stability AI在2021年10月開源。其能力是學習文本數據和圖像數據之間的對應關系,然后在生成階段根據用戶提出的文本要求,將對應的圖像還原出來。
圖靈測試曾經是人工智能是否達到人類水平—即通用人工智能—的標準,但這一標準在ChatGPT誕生之后顯然已過時。人類需要找到一個新的標準來定義什么樣的人工智能才是通用。
目前尚未有統一標準。有人認為達到類人或超人水平的AGI需要有意識和自我,但迄今學界并未清晰定義過究竟什么才是意識,更不知道如何構建意識;也有人認為即使沒有意識,AI也可以作出一些沒有學習過的決策,就像AlphaGo下出人類棋手從未見過的“第37步棋”一樣。讓一些人開始擔心AI或將失控的,正是這種不可預測性。
位于模型前端、可以與用戶交互的界面,就叫Chatbot,Siri、天貓精靈、小愛同學、小度、ChatGPT、文心一言等都是這樣的聊天機器人。
一種加載了AI大腦的數字形象。用你的聲音和外形,再加上用你的日記、論文、聊天記錄訓練出來的AI,就可以創造一個代表你的數字人了。區別在于,有些數字人背后的模型是生成式的,有些不是,因此不同數字人的智能水平并不一樣。
研究機器人與環境交互的學問。這一概念與AI的關系相當于身體與大腦的關系。當AI越來越聰明,讓AI有個身體,讓它可以在三維空間、真實世界中行走,它與人類協作并創造經濟價值就會成為一種可能。在電腦中訓練的AI本身并不具有與三維世界交互的能力,它不能感知周圍環境,不知道什么是重力,什么是觸覺,或者碰到障礙物要如何應對。因此,賦予AI一具身體后,更具挑戰的訓練和學習才剛開始。這一結合也被認為是實現AGI的必經之路。
如果你學過哲學,可能會知道這個概念。在哲學中,它指的是“能動者”,像人這樣具有主觀能動性的動物,就是一種能動者、智能體。在人工智能領域,不是所有的AI都可以被稱為智能體,就像不是所有AI都可以被稱作AGI。在人工智能領域,這3個概念之間存在智能程度的差別,智能體的智能水平介于普通AI和AGI之間,其主要標志是能夠拆解任務、做規劃并根據規劃執行行動。
比如一個會訂機票的AI就可以被稱為一個智能體,即它在獲得用戶需求后,能夠將這個任務拆解為尋找訂票網站或者航空公司、查找相應時段和價格、詢問用戶詳細需求和是否選定某一航班、點擊下單、填寫信用卡信息等一系列步驟,并在完成這些子任務的過程中適時與人交互,保證結果的正確性。
目前市面上的大部分AI都不具備完成這種復雜任務所需的推理能力,就連GPT-4也只能嘗試部分場景。
指智能體在大腦、神經網絡中構建的外部世界的復制品。很多動物都能在大腦中構建世界模型,人類尤其擅長,而且還會形成更為抽象的“世界觀”之類的東西。這種東西的好處對人和對AI是一樣的,即它可以指導行動。世界觀不同的人作出的決策水平不同,AI同樣如此。
不過,和那些足夠聰明的AI是否有意識的問題類似,AI是否有世界模型也是一個時髦問題。有人認為一些AI(比如GPT-4)已經有了這種能力。也有人認為需要建立一個獨立模塊來讓AI獲得這種能力,深度學習三巨頭之一的楊立昆和文生視頻公司Runway都在想方設法開發世界模型的算法。