戴新宇
整個人類的發展歷史,其實就是一個進化的歷史。幾百萬年前環境的變化驅動了人類的進化,從類人猿到直立行走,到會使用工具,到進入工業化時代,到今天的智能化時代,都是環境的改變驅動人類的進化,進化驅動大腦的發育,發育驅動大腦的進化。
人的智能是從哪里來?或者說人的智慧從哪里來?人類慢慢知道大腦是人類智能的中樞控制系統。因為大腦有神經系統,可以控制我們的思維,控制我們的行動,控制我們的學習能力等。大腦是思維的一個中樞系統,但是真正讓人類進化和改變世界其實是靠我們這雙手,手是智能的外化。也就是說,實際上是手使用工具,大腦只是思維和思考,真正去執行,去使用技術,還是依賴我們這雙手。從使用簡單的智能工具,到使用工業革命之后的機械化工具,到現在使用互聯網和移動互聯網,都離不開這雙手。
驅動人類智能進化的核心是語言。我們今天講的大模型,其實最早就是大語言的模型,是多模態的模型。語言也是智能的關鍵。生物也有智能,包括低等生物都有智能,但是所謂的人類的高級智能,是因為我們有語言。語言是我們交流的工具、知識的載體,或者是傳遞的載體,它是智能進化的一個關鍵,它讓我們表達、交流,驅動技術的發展。
其實從人類有意識開始,大家就在想,能不能用人工去模擬我們的智能?古典哲學家有一個基本的假設,所謂的人工智能能不能實現?人類的思考過程、思維過程,大腦怎么運作的?能不能符號化、機械化?因為只有符號化、機械化,人才能用機器替代它。但是很可惜的是,人類其實對自身智能的認知非常有限。現在腦科學的研究僅僅停留在大腦有各種各樣的區域,這些區域有的控制我們的記憶,有的控制我們的學習能力,有的控制我們的推理能力,有的控制我們的語言能力,各個區域有一定分工。人類大腦雖然有800億到900億的神經元,這個神經元驅動我們大腦的整個思維過程,但是大象可能有2000多億的神經元,但它為什么沒有人聰明?科學家說人類更多的神經元是集中在大腦的皮質層,皮質層幫助我們有很強的學習能力、推理能力等。所以,我們對人類智能的認知還是非常有限,我們并不清楚大腦是怎么工作的。
那么人工智能假設就有問題了,我們不知道大腦怎么工作的,怎么對它做符號化、機械化呢?其實沒有關系,我們從功能主義的角度去模擬人工智能。首先,我們不要求對人類的認知過程、人腦的運轉機理有完整的了解,我們試圖用符號化、機械化的方式模擬這些能力就可以了。
人類有哪些智能呢?人類有感知能力,有各種感官系統,通過眼睛、耳朵、皮膚,我們可以感知到外部的世界,獲取外部世界的信息;我們有抽象能力、記憶能力、學習能力等,再進一步高級智能,我們有推理能力、決策能力、語言能力、類比能力、創造能力等,這是人類智能的各種能力。盡管我們現在對人類的認知機理不是那么清楚,但是并不妨礙我們去設計各種各樣的人工智能系統,去仿真或者模擬這樣的能力。
馬文·閔斯基是人工智能奠基者之一,1956年達特茅斯人工智能會議的創始人之一,他認為“人工智能就是讓機器來完成那些由人來做則需要智能的科學”。就是某一件事如果要人來做,需要某種能力才能完成,通過機器來做,那就是人工智能。
其次,我們不要求人工智能全面地達到人類的智能水平。如果全面地研究腦科學,研究人腦怎么工作的,怎么全面地去做仿真,我們現在達不到(這個能力),只能去做模擬,所以我們不需要全面達到。其實全面達到也是有問題的,現在很多人說人工智能威脅論,真的全面達到可能會產生威脅。所以我們只要它做事就可以了,不需要它具有意識,不需要它具有情感。當然這個情感、意識等,很多科學家也在做相關研究了。
鳥類也有智能,它的腦袋只有幾克重量,但鳥的智能水平也挺高,它在樹林穿梭絕對不會碰到一片樹葉,而我們的無人機現在避障還沒有鳥那么靈活。鳥會做路線規劃,會做食物辨別,等等,有很強的智能。我們并不知道鳥的大腦的工作原理,不知道它怎么避障,但是并不妨礙我們現在可以做出自主巡航的大飛機。所以我們可以做一個類比,一個是生物智能,一個是人工智能。
我們要用機器去實現人工智能。機器實現人工智能有哪些要素呢?比如人類有學習能力,那人工智能有學習能力,包括深度學習能力;人類有聽力,有語言表達能力,所以人工智能可以語音識別、語音合成;人類有眼睛,那人工智能有計算機視覺,可以采集各種外部數據;人類有語言交流表達能力,所以人工智能有一個研究領域叫自然語言處理;人可以做專家,人工智能以后會有專家系統,可以做決策,做推理;人可以做規劃,比如路線規劃,那導航就是一個人工智能系統,幫我們做路線規劃;人可以運動,機器人就是仿造人類的運動能力。
我們通常說1956年是人工智能的元年,經過快70年的發展,其實人工智能已經賦能我們生活的方方面面。我們每天都在接觸人工智能的產品,雖然我們有的時候并沒有意識到它的存在,但都在享用人工智能賦能我們生活帶來的便利。
人工智能還可以賦能各個行業,即人工智能+X,這個X可能是金融行業、教育行業、電力行業、法律行業等,包括我們今天的傳媒主題。
最近半年,人工智能有一個顛覆性的動作,就是人工智能進入大模型時代。這個大模型技術,其實過去幾年一直在發展。2022年11月30日,OpenAI發布了ChatGPT,引起了全社會的震撼。ChatGPT為什么影響這么大?因為每一個人都可以使用它,每一個人都可以感受到它的強大。我們可以跟它聊天,跟它討論問題,詢問它一些信息,它可以跟我們的生活息息相關。它本質上是一個自然語言對話方式的人機交互系統。
我們一直想讓機器跟人類實現自由的交互。ChatGPT在發布2個月后,全球達到了1億用戶。有數據對比,在全球范圍內,TikTok 9個月達到了1億用戶,Facebook幾十個月達到了1億用戶,而手機用了15年達到了1億用戶。再往前推,傳統的固定電話,用了75年才達到了1億用戶。所以ChatGPT這個人機對話系統帶給大家的震撼力是非常強的。
哲學家維特根斯坦說:語言的邊界就是世界的邊界,知識的邊界。我們從小到大的學習過程,其實也是不停地跟父母、跟老師、跟同學、跟朋友的交流過程,我們學到了各種知識,了解了這個世界。整個學習過程是用語言交流完成的。其實ChatGPT就是做這么一件事情,當它把整個語言的知識都學會,它就能夠了解世界的邊界,了解知識的邊界。
更通俗地去解釋這件事,就是人和機器要互動,要交互。ChatGPT最終完善的版本,應該是完全懂人話,說人話。現在它是能懂點人話,會說點人話。它通過語言交流學到了各種知識,了解了這個世界之后,它在一定程度上學會了思考,有一些通用能力,一些創造力。大模型就是這樣。
ChatGPT,CHAT是聊天,GPT是什么?ChatGPT是一個人工智能的對話系統,一個互動系統,GPT的英文是Generative Pre-trained Transformer,是生成式的模型。第一個叫Generative(生成),它一個字一個字蹦出來,就像我們說話一樣的,叫生成式。然后它是一個預訓練的Transformer,是一個網絡結構,它本質上是語言大模型,實際上是一個詞語接龍的游戲。ChatGPT的參數規模是1750億個參數,預訓練的目的就是準確預測下一個接龍單詞是什么。基于海量的數據,經過預訓練,ChatGPT擁有相當量級的參數規模,模型能力已經很強大,剩下的是怎么進一步馴化它。
互聯網上有很多的數據,大模型也好,人工智能也好,數據是基本要素之一。數據經過預測模型,預訓練之后可以得到一個能力很強大的魔獸,但是這個魔獸有的時候不知所措,它不知道每個時間點該完成什么樣的任務,進一步經過指令學習,我們可以對它做訓練和分工,比如扔給它一堆文字,你幫我翻譯一下,它就做中英翻譯;你幫我寫一段代碼,它就做代碼的生成;你幫我去寫一個新聞稿,它去寫新聞稿。當我們把這樣成千上萬的數據喂給它,它就知道什么時候該干什么,你只要有一個正確的指令給它,它就知道下一步該做什么,但是這個時候我們還不敢用它,因為有的時候它會亂說,它說的內容不符合我們人類的價值觀。所以下一步,我們要用人類反饋強化學習。我們要訓練它說出我們想聽的話,說出符合人類價值觀的話。我們國內的各個大模型也在經過這幾步的訓練。
在過去幾十年,人工智能各個方面已經有了巨大的發展,有了各種各樣的能力,但是之前是專用人工智能,比如說圖像識別,它只能識別人臉,識別路況。現在是通用人工智能,ChatGPT可以做各種任務,可以寫作、聊天、問答、翻譯、編程,甚至可以參加考試。我們通過語言的訓練來強化它的學習能力,它可以把任務之間的邊界給打破,這也造就了現在大模型的學習能力強。它會現學現用,會舉一反三,甚至有推理能力。它還有一定的創造能力,所謂AIGC,就是幫助人類生成各種各樣的內容,這個內容的生成不能是簡單的重復,還要有創造。其實,懂人話和說人話,是從感知智能到認知智能的一個巨大發展。
微軟有一篇文章稱ChatGPT是通用人工智能的火花。我們并不能說ChatGPT就是通用人工智能的唯一路徑,但是起碼它點燃了一個火花,或者說可能的一條路徑出現了。ChatGPT+X,就是ChatGPT在各個行業做一些應用和探索,比如跟傳媒行業的結合。
1.內容生成(AIGC)
內容生成并不是剛剛有的,過去十年一直做這個事情,只不過現在大家對AIGC這個概念提得更多了。其實內容生成主要是數據源在哪兒。數據源有官方數據庫、專業數據公司,企業數據庫、互聯網數據、社交媒體、論壇等。2014年美聯社推出WordSmith,2015年騰訊推出DreamWriter,2016年新華社推出快筆小新。2022年11月30日,ChatGPT出來之后,很多人開始迅速用它創作,其實是快速做了一個推進。當然這里也會帶來一些問題,比如假新聞,甚至多模態的創作生成的圖片是AI生成的,我們怎樣審核,這是一個非常重要的課題。
2.新的交互方式
大模型時代最大的推動,是交互方式的改變。人在幾百萬年的進化過程中,人和人交流,人和人互動,對人類社會的發展起到巨大的作用。計算機誕生之后,人也在跟機器自然地互動,而且這幾十年的發展,人機互動進入了一個新的階段,最早的人機互動是鼠標鍵盤、電腦系統,但是我們一直希望人和機器可以用自然語言做交互,這是最順暢的。我把它歸結為幾個時代:第一個時代是互聯網時代,人機交互是用百度、谷歌,人主動去檢索,我們稱為主動搜索的時代。第二個是移動互聯網時代,機器會主動地推個性化的信息給不同的用戶,機器主動發起,人類是被動的,所以是被動的內容推薦時代。第三個是大模型時代,我們真的實現人機的互動,雙向的交互,大模型時代最核心的就是多輪的對話交互。這種交互方式的改變給傳媒業帶來什么變化?
人機交互的方式變化以后,從媒體視角來看,AIGC怎樣創作用戶喜歡的內容?怎么滿足用戶個性化的需求?內容怎么傳遞給用戶?從內容角度來看,用戶在內容選擇上,經歷了選頻道—關鍵詞搜索—個性化推薦幾個時代,和人機交互的演變過程是一樣的。從傳播角度來看,用戶經歷了名主播—大眾主播—數字人主播,下一個階段是什么?下一步就是人機雙向交互。用戶跟主播做交互,但是主播就一個,怎么能夠響應那么多用戶的需求?所以主播也會分身,有數字分身,不同的用戶需求不一樣,主播的數字分身可以與不同用戶交互。還有就是用戶之間也變成雙向交互,有點類似于元宇宙的概念。
大模型還是存在不足,一是沒有可解釋性,缺少透明的機制。它中間的神經網絡是一個黑盒子,你也不知道它怎么預測下一次。二是違背事實的一本正經的胡說八道,缺少可控機制。我們說ChatGPT可以懂人話,可以說人話,但是我們希望它不亂說話。三是無法應對復雜的系統任務,缺少符號推理的機制。人是有一些結構化知識的,怎么結合,這個也是一個問題。四是模型無法實時更新,ChatGPT的大模型不能快速更新它的參數,它有一些方法可以去快速更新,但是沒有辦法把它整個模型做一個更新,所以它缺少在線學習機制。五是深層次的編碼機制,語言編碼和圖像編碼的差異,缺少理論支撐。
還有一個很大的挑戰,新的技術帶來新的國家安全和社會管理風險。用戶隱私怎么保護,生成的內容版權怎么界定,生成的內容是不是符合倫理,我們在用它的時候有沒有審查機制,怎樣保證整個AI系統的安全性,會不會被攻擊等等。
大模型時代短期內的發展趨勢,一個是通用大模型,像垂直領域的大模型,比如傳媒大模型,貼合傳媒業務,還有一個是語言對話系統,往人工大腦方向發展。
AIGC的發展方向,從語言文本,到音視圖文,再到動作行為,最終的發展趨勢,人類社會往人機共生的社會發展,媒體行業有什么新業態,可以進一步思考和探討。