
2023年3月14日,圓周率日的一個平淡無奇的下午,OpenAI發布了最新的大語言模型GPT-4。初看起來這次更新沒有ChatGPT那么酷炫:文本輸入長度(token)拓展到3萬以上,支持多模態模型輸入(但沒有之前期待的圖像和視頻輸出),更強的數理推理能力(終于學會高考數學了)。
所以,更大,更快,更強,但這意味著什么呢?
任何指數增長的曲線初期,拉近了看都不過是一個平淡的緩坡。但只有回顧整個歷史的時候,我們才會知道這條曲線最終會加速到怎樣的高度。正在湊近了看GPT-4的人類,并不知道接下來將要面對的,是何種驚濤駭浪。

有一句曾經很有道理的說法:“以大多數人的努力程度之低,根本輪不到拼天賦”,這確實是事實。很多人也被這句話刺痛而奮發圖強,想努力一把,摸到拼天賦的門檻線上。
但現在似乎沒必要了,因為大多數人努力一輩子也不會比GPT-4的知識儲備和執行能力更強。
GPT-4是天生的做題家,可以自己讀題自己分析然后組織文字輸出。在OpenAI展現的第一個案例中,GPT-4對一道包含圖像的物理題進行了解答,它理解了PDF格式下的圖像和文字,一步步推理并得到正確答案。順便提一嘴,這道題來自著名的巴黎綜合理工大學,后者以其變態的數理難度而聞名。
GPT-4在美國律師資格考試(BAR)上達到了前10%,在美國高考語文(SATReadingandWriting)上達到了前7%,而在生物學奧賽試題上更是達到了前1%,可以拿國際金牌。不客氣地說,這個水平已經遠遠超過了大部分人智力巔峰——高考前一天的水平,輕輕松松上985。
但是,對于能接入GPT-4的人群而言,事情并沒有因此變得更輕松。因為不好意思,從現在起你們就只能拼天賦啦!
而以大多數人的平均天賦水平,從第一天開始就連努力的機會都沒了。在那個讓全世界前端程序員虎軀一震的展示里,OpenAI員工隨手畫了一個網站樣式的草稿和文字描述,手機拍照發給GPT-4,然后馬上就生成了網站的HTML代碼,效果立刻可以預覽。

這一刻,產品經理露出了燦爛的笑容,想著明天就把“這個需求做不了”的“程序猿”給開了?身在咨詢業的我則悲喜交加,此前我還為實習生的未來感到擔憂,現在已經快進到初級顧問滅絕計劃了。是不是以后只需要合伙人在外面承攬業務,然后一股腦丟給我一個人承做就可以了?
我可以用GPT列提綱,打印出來手繪草稿,拍照丟給GPT畫PPT;不知道的信息讓NewBing幫我找,沒看過的文章讓ChatGPT讀了并總結,分析的模型用ChatExcel幫我搭,一手調研也可以讓GPT做問卷,甚至配合WhisperAI(語音理解模型)和訊飛配音,讓他替我訪談專家并整理洞見。
實現上述的前提有兩個:
第一,我知道為了完成項目要實現的目標;
第二,我要問出正確的問題。“問正確的問題”才是最難的事情,這需要經驗、靈感、理性和直覺的終極組合,而如果GPT把實習生和初級顧問都干掉了,我確實有點擔心咨詢這門手藝后繼無人。
但肯定的一點是,在同樣擁有GPT的情況下,人和人之間能力的差別可以被拉大到匪夷所思的地步。對于最聰明最大膽、富有激情,腦子轉得比手快幾百倍的那種人,他們的生產力會迅速爆棚。從前那些被“有限時間”和“低效溝通”所限制的產品、服務,如今可以快速成為現實。
不過,供給端爆炸也同樣意味著,只需要寥寥數個工作狂就可以滿足許多許多需求,其他人做的所謂“工作”只能算自娛自樂。
而如果那時我還沒有被干掉,大概率是因為老板們想每天多睡幾個小時。不然他更愿意直接指揮GPT模型,而不是常常“不解人意”的真人。
這不僅僅是平均的終結,這實際上是99%的終結。所以你覺得自己能成為1%,還是99%呢?

這次GPT-4發布還有個令人擔憂的點,就是只出了一個技術文檔(TechnicalReport),但沒有公開論文,也沒有任何的技術細節。只告訴你我有多強大,但對如何實現的knowhow只字不提。
OpenAI,已經且必然會變成CloseAI,畢竟沒人和錢過不去。
而這次提到的專屬Azure訓練集群,則意味著CloseAI已經和微軟實現了深度融合,同時在模型規模和硬件算力上建立起深不可測的護城河。
對于今天發布的文心一言,我感到由衷地同情,但不只是百度,在GPT-4面前,無論是Google、Meta,還是任何一家大廠目前都黯淡無光。尤其當你發現GPT-4的訓練時間居然是去年的8月——那么顯然,此刻跑在1萬張NVIDIAA100芯片上的只會是尚未發布的GPT-5了。
而下一代的GPT-5會有多強大,沒人知道。
很贊同作家和菜頭說的這段比喻:“就像是在學校留堂,做完作業才能回家。那個最好的學生想出了辦法,解決了最后一道題,然后不發一言起身回家。教室里剩下的學生,就都留在了一道看不見的障壁之后,他們知道能夠穿越,他們看到有人穿越,但是他們不知道自己如何才能穿越。”
OpenAI至少領先了半年,在指數增長的情景下,即便路徑完全一樣,先發者和追趕者的距離也會變得越來越大。甚至可能因為先發者對硬件算力,數據生成和用戶反饋三位一體的循環虹吸,追趕者最終被徹底拉爆。
99%的終結,對個人如此,對AI賽道的企業則更為殘酷。

很多人都對GPT-4的多模態模型感到驚奇,因為這并不是一個簡單的OCR,實際上GPT-4是對整個圖像的像素序列進行了理解、并進行了深度推理,能夠發現不合理之處,甚至看懂梗圖。
看起來這沒有Stablediffusion這樣的圖片生成功能酷炫,但這是目前GPT-4對我產生的最大的震撼。
GPT-4對該圖分析如下:圖片展示了一個“閃電線”適配器包裝,包括三個面板。
面板1:一部智能手機,其充電口連接了一個VGA接口(通常用于計算機顯示器的大型、藍色、15針接口)。
面板2:帶有VGA接口圖片的“閃電線”適配器包裝。
面板3:VGA接口的特寫,末端帶有一個小型的閃電接口(用于為iPhone和其他Apple設備充電)。
這幅圖片中的幽默來自于將大型、過時的VGA接口插入小型、現代智能手機充電口的荒謬之處。
這種多模態理解能力的影響是極為深刻的。
我曾設想過“無人電影”的模式,主題要素是通過流媒體的播放大數據生成的,劇本是GPT模型自己根據主題要素寫的,畫面是根據劇本自動生成的視頻流,后期是通過stablediffusion合成的,配音是照著劇本里的臺詞合成的語音,宣發海報也是stablediffusion畫的,通過SNS機器人自動投放,機器人水軍照著劇本情節寫豆瓣評論。

質量糟糕沒關系,同時生成1000部定向投放,A/Btest,每天進行迭代,必能產出神作。
但這個循環里還是有人的,那就是觀眾。人被投食內容、人來理解內容、表達欣賞以及做出反饋。這種反饋,一定是人才能做嗎?GPT-4提醒我,觀眾也可以是AI。
AI模型也可以看懂電影,也可以理解微妙之處,表達欣賞,并很清楚地反饋出來。而消費的本質,是對外界信號刺激的理解和欣賞。無論這個信號是視覺信號,還是語音頻率,或是舌頭和皮膚的神經傳感電信號。
對于GPT,它們都不過是多模態輸入的某種類型。那么AI其實也是能夠消費內容的,甚至可能是比任何人類都更好,更具品位的消費者。
AI對供給端的極大提升,最終可能要靠AI自己去消費,而不是靠著漸失生殖欲望的人類。
正如AI導師GeoffreyHinton的推特所說,人類用千年的語言編碼了整個世界,凝聚成GPT-4破繭成蝶。而在完成引導程序的使命后,我們也將卸下這副碳基的軀殼。
所以,這是人類的落日嗎?
我相信,明天太陽還會升起。